あなたの疑惑は正しいです、それはヒープサイズの問題、より正確にはスケーラビリティの制約です。 carrot2のFAQから直接: http://project.carrot2.org/faq.html#scalability
Carrot2クラスタリングは、ドキュメントの数と長さに関してどのようにスケーリングしますか?覚えておくべきCarrot2アルゴリズムの最も重要な特性は、メモリ内クラスタリングを実行することです。このため、経験則として、Carrot2は、それぞれ数段落の最大1,000のドキュメントを正常に処理する必要があります。何百万ものドキュメントを処理するように設計されたアルゴリズムについては、Mahoutプロジェクトを確認することをお勧めします。
開発者もこれについてここに投稿しました: https://stackoverflow.com/a/28991477
開発者はMahoutを推奨していますが、carrot2のようにメモリ内のクラスタリングの制約に縛られることはないため、これがおそらく最善の方法ですが、他の可能性もあります。
-
carrot2が本当に好きであるが、必ずしもk-meansを必要としない場合は、「100000スニペット[s]をクラスタリングする時間」フィールドと http://carrotsearch.com/lingo3g-comparison より多くのドキュメントに取り組むことができるはずです。 「Lingo3Gがクラスター化できるドキュメントの最大数はいくつですか?」に関するFAQエントリも確認してください。 http://carrotsearch.com/lingo3g-faq
-
k-meansがクラスタリングを実行しているラベルのサイズを最小化するようにしてください。すべてのドキュメントコンテンツをクラスタリングするのではなく、要約/要約をクラスタリングするか、重要なキーワードを抽出してそれらをクラスタリングしてみてください。