Dataset
でない限り cached
です 信頼性の高いストレージを使用する(標準のSparkcached
データベースは複数回アクセスされる可能性があり、そのたびにデータベースの現在の状態が表示されます。以来
異なるカウントを確認することは、予想される動作です。
さらに、JDBCソースが分散モードで使用されている場合(パーティション列またはpredicates
を使用) )、その後、各エグゼキュータスレッドは独自のトランザクションを使用します。その結果、Dataset
の状態 完全に一貫していない可能性があります。
JDBCを使用しないでください。たとえば
-
COPY
データをファイルシステムにロードし、そこからロードします。 - 選択したレプリケーションソリューションを使用して、分析専用のレプリカを作成し、データの分析に使用している間、レプリケーションを設定および一時停止します。