sql >> データベース >  >> RDS >> PostgreSQL

SparkSQLPostgresQLデータフレームパーティション

    基本的に、パーティションの下限と上限、およびパーティションの数は、各並列タスクの増分または分割を計算するために使用されます。

    テーブルにパーティション列「year」があり、2006年から2016年までのデータがあるとします。

    パーティションの数を10と定義し、2006年の下限と2016年の上限を設定すると、各タスクでそれぞれの年のデータをフェッチすることになります。これは理想的なケースです。

    下限や上限を誤って指定した場合でも、たとえば、 lower=0およびupper=2016に設定すると、データ転送に偏りが生じますが、次の理由により、データの「損失」や取得の失敗は発生しません。

    最初のタスクは、<0年のデータをフェッチします。

    2番目のタスクは、0から2016/10までの年のデータをフェッチします。

    3番目のタスクは、2016/10から2*2016/10までの年のデータをフェッチします。

    ...

    そして最後のタスクには、年->2016のwhere条件があります。

    T。



    1. 自動データ収集:MSSQLServerのデータベースファイルと論理ドライブ

    2. カラム側の暗黙的な変換はどれくらいの費用がかかりますか?

    3. Python 3.7 psycopg2-Xcodeエラーエラー:コマンド'gcc'が終了ステータス1で失敗しました

    4. Oracleセッションの一時テーブルのデータはいつ削除されますか?