Webスクレイピングの管理と防止

別名:Webスクレイピング、価格スクレイピング、データ アグリゲーション、ハーベスティング、マイニング、ミラーリング、スクレイパー ボット

スクレイピング101

スクレイピングとは、データを他の場所で再利用するために、自動化ツールを使用してターゲット アプリケーションから大量のデータを収集することを指します。

スクレイピングは、リクエストのソース、目的、頻度に応じて、正当なものから悪質なものまでさまざまです。例えば、サイトのrobot.txtで定義されているスクレイピング率を守っている検索エンジン ボットは許容範囲内とみなされますが、競合他社からの日々の価格スクレイピングは不要なものとみなされる可能性が高くなります。

 

米国の航空会社の上位5社が損失を計上

スクレーパーは航空会社のインフラストラクチャコストを増加させ、収益管理にも影響を与えていたため、セキュリティ チームはShapeに助けを求めました。

事例:国際航空会社、運賃スクレイパーと戦う

主なポイント:

  • 旅行アグリゲータがボットを使用して、非準拠のチケット オプションを発見し、公開していました。
  • スクレイピングがメインの検索URLのトラフィックの25%を占めていました。
  • 望ましくないスクレーパーは、既存のセキュリティ ソリューションをすべて回避していました。

25%

不要なスクレイピングが、あるURLの全検索トラフィックの25%を占めていました。

スクレイピングの3ステップ

1. 攻撃スクリプトの作成

攻撃者は、自動化されたツールや既製のスクリプト、あるいはScraping-as-a-Serviceのプロバイダを利用して、価格、キャンペーン、記事、メタデータなどのWebサイトのコンテンツを発見し、スクレイピングするスクリプトを簡単に作成することができます。

攻撃者がユーザーをシミュレートする方法

攻撃者がユーザーを装うために利用するテクニックをShape Intelligenceの副社長が紹介します。

2. データの収集

スクレイピング キャンペーンは、攻撃者のスキルセットや目的に応じて、大胆なものから密かなものまでさまざまです。スクレイピング スクリプトの実行は、企業の全ユーザーのトラフィック パターンに紛れ込ませるために、数百から数千のサーバーに分散して行われることがあります。

検索順位の低下やコンバージョン率の低下など、スクレイピング攻撃の症状を最初に経験するのは、マーケティング チームかもしれません。

3. 収益化

抽出されたデータは、販売されたり、価格比較サイトに利用されたり、さらには詐欺目的の模造サイトの作成に利用されることもあります。

スクレーパーがパートナーであっても、企業は、Webサーバーに直接データを要求してコストの高いリソースを消費するよりも、指定されたAPIからデータを取得することを望むかもしれません。

ソリューションを管理することなくスクレーパーを管理

Thank you! 

A Shape expert will contact you as soon as possible.