sql >> データベース >  >> RDS >> Mysql

Spark:大きなMySQLテーブルのDataFrameへの読み込みに失敗する

    Spark JDBC APIは、MySQLテーブルからメモリにすべてのデータをロードせずにフォークするようです。したがって、大きなテーブルを読み込もうとする場合は、最初にSpark APIクローンデータをHDFSに使用する必要があります(スキーマ構造を維持するにはJSONを使用する必要があります)。

    spark.read.jdbc(jdbcUrl, tableName, prop)
           .write()
           .json("/fileName.json");
    

    その後、代わりに通常どおりHDFSで作業できます。

    spark.read().json("/fileName.json")
           .createOrReplaceTempView(tableName);
    



    1. Postgresエラー:読み取り用にファイルを開くことができませんでした:アクセスが拒否されました

    2. SQLクエリでLEFTJOINの順序を並べ替える方法は?

    3. MySQLのデータベースバージョン管理

    4. カテゴリ階層(PHP / MySQL)