Spark JDBC APIは、MySQLテーブルからメモリにすべてのデータをロードせずにフォークするようです。したがって、大きなテーブルを読み込もうとする場合は、最初にSpark APIクローンデータをHDFSに使用する必要があります(スキーマ構造を維持するにはJSONを使用する必要があります)。
spark.read.jdbc(jdbcUrl, tableName, prop)
.write()
.json("/fileName.json");
その後、代わりに通常どおりHDFSで作業できます。
spark.read().json("/fileName.json")
.createOrReplaceTempView(tableName);