決心した人が公開されているコンテンツをスクレイピングするのを止めることはできませんが、クライアントの懸念を軽減するためにいくつかの基本的なことを行うことができます。
-
ユーザーアカウント、IPアドレス、ユーザーエージェントなどによるレート制限...-これは、特定のユーザーグループが特定の期間にダウンロードできるデータの量を制限することを意味します。大量のデータが転送されていることを検出した場合は、アカウントまたはIPアドレスをシャットダウンします。
-
JavaScriptを要求する-クライアントが必要最低限のスパイダーではなく、インタラクティブなブラウザに似ていることを確認するために...
-
RIA-リッチインターネットアプリケーションインターフェイスを介してデータを利用できるようにします。 JavaScriptベースのグリッドには、ExtJ、YUI、Dojoなどが含まれます。よりリッチな環境には、1kevgriffの言及 。
-
データを画像としてエンコードします。これは通常のユーザーにとってはかなり煩わしいものですが、データテーブルや値の一部をテキストではなく画像としてエンコードすることもできます。これにより、ほとんどのテキストパーサーが無効になりますが、もちろん絶対確実ではありません。
-
robots.txt-明らかなウェブスパイダー、既知のロボットユーザーエージェントを拒否します。
ユーザーエージェント:*
禁止:/
-
ロボットメタタグを使用します。これにより、スパイダーの適合が停止します。これにより、たとえばGoogleがあなたのインデックスを作成できなくなります:
抑止力にはさまざまなレベルがあり、最初の選択肢はおそらく最も邪魔にならないでしょう。