私は問題を見つけたと思います:mongodb-hadoopには、core / src / main / java / com / mongodb / hadoop / input/MongoInputSplit.javaのBSONエンコーダー/デコーダーインスタンスに「静的」修飾子があります。 Sparkがマルチスレッドモードで実行されている場合、すべてのスレッドは同じを使用して逆シリアル化を試みます。 エンコーダー/デコーダーインスタンス。これは、予測的に悪い結果をもたらします。
githubのパッチ
Pythonから8コアのマルチスレッドSpark->mongoコレクションcount()を実行できるようになりました!