Spark：大きなMySQLテーブルのDataFrameへの読み込みに失敗する

Spark JDBC APIは、MySQLテーブルからメモリにすべてのデータをロードせずにフォークするようです。したがって、大きなテーブルを読み込もうとする場合は、最初にSpark APIクローンデータをHDFSに使用する必要があります（スキーマ構造を維持するにはJSONを使用する必要があります）。

spark.read.jdbc(jdbcUrl, tableName, prop)
       .write()
       .json("/fileName.json");

その後、代わりに通常どおりHDFSで作業できます。

spark.read().json("/fileName.json")
       .createOrReplaceTempView(tableName);