http://mirror.nyi.netからソースを取得します。 /apache//nutch/apache-nutch-1.2-src.zip
org.apache.nutch.crawl.Crawl
を開きます エディターのクラス。
ルックアップ変数Path crawlDb = new Path(dir + "/crawldb");
この変数は、独自のCustomMySQLCrawl
を取得するためにコードを置き換える場所に関するヒントを提供します。 クラス。
この呼び出し中に永続性が発生しています:crawlDbTool.update(crawlDb, segs, true, true); // update crawldb
したがって、データベースに保存する必要がある場所があります。この時点で休止状態を統合することを検討することをお勧めします。