プッシュダウン述部は、列のパーティション化に対してのみ機能します。つまり、データファイルは階層構造のフォルダに配置する必要があります。たとえば、データがs3://bucket/dataset/
にある場合 年、月、日で分割すると、構造は次のようになります。
s3://bucket/dataset/year=2018/month=7/day=18/<data-files-here>
このような場合、プッシュダウン述語は列year
に対して機能します。 、month
およびday
のみ:
datasource = glueContext.create_dynamic_frame_from_catalog(
database = source_catalog_db,
table_name = source_catalog_tbl,
push_down_predicate = "year = 2017 and month > 6 and day between 3 and 10",
transformation_ctx = "datasource")
それに加えて、プッシュダウン述語はs3データソースでのみ機能することに注意する必要があります。
これが素敵な