sql >> データベース >  >> RDS >> Mysql

ウェブサイトデータベースからの「データスクレイピング」を回避するためのトップテクニック

    決心した人が公開されているコンテンツをスクレイピングするのを止めることはできませんが、クライアントの懸念を軽減するためにいくつかの基本的なことを行うことができます。

    • ユーザーアカウント、IPアドレス、ユーザーエージェントなどによるレート制限...-これは、特定のユーザーグループが特定の期間にダウンロードできるデータの量を制限することを意味します。大量のデータが転送されていることを検出した場合は、アカウントまたはIPアドレスをシャットダウンします。

    • JavaScriptを要求する-クライアントが必要最低限​​のスパイダーではなく、インタラクティブなブラウザに似ていることを確認するために...

    • RIA-リッチインターネットアプリケーションインターフェイスを介してデータを利用できるようにします。 JavaScriptベースのグリッドには、ExtJ、YUI、Dojoなどが含まれます。よりリッチな環境には、1kevgriffの言及

    • データを画像としてエンコードします。これは通常のユーザーにとってはかなり煩わしいものですが、データテーブルや値の一部をテキストではなく画像としてエンコードすることもできます。これにより、ほとんどのテキストパーサーが無効になりますが、もちろん絶対確実ではありません。

    • robots.txt-明らかなウェブスパイダー、既知のロボットユーザーエージェントを拒否します。

      ユーザーエージェント:*

      禁止:/

    • ロボットメタタグを使用します。これにより、スパイダーの適合が停止します。これにより、たとえばGoogleがあなたのインデックスを作成できなくなります:

    抑止力にはさまざまなレベルがあり、最初の選択肢はおそらく最も邪魔にならないでしょう。



    1. cronジョブで動的関数をスケジュールする方法は?

    2. データベースのインポートで渡されるスクリプトタイムアウトの指定

    3. MySQL:SQLクエリの各結果のレコードを挿入するにはどうすればよいですか?

    4. php:バイナリに対するmysql_real_escape_stringの影響を元に戻す