Als Scraping bezeichnet man die Nutzung von automatisierten Tools zum Sammeln großer Datenmengen aus einer Zielanwendung, um diese Daten an anderer Stelle wiederzuverwenden.
Scraping kann sich über eine Bandbreite von gutartig bis bösartig erstrecken, je nach Quelle, Ziel und Häufigkeit der Anfragen. So wird ein Suchmaschinen-Bot, der die in der robot.txt der Website festgelegten Scraping-Raten einhält, wahrscheinlich als akzeptabel angesehen, während das tägliche Abgreifen der Preise durch einen Konkurrenten wohl unerwünscht sein dürfte.
Da die Infrastrukturkosten der Fluggesellschaft durch Scraper in die Höhe getrieben wurden und ihre Fähigkeit zur Umsatzsteuerung darunter litt, wandte sich ihr Sicherheitsteam an Shape.
Fallstudie: Internationale Fluggesellschaft bekämpft Preis-Scraper
25 %
UNERWÜNSCHTES SCRAPING WAR FÜR 25 % DES GESAMTEN SUCHDATENVERKEHRS AUF EINER EINZIGEN URL VERANTWORTLICH.
Mit automatisierten Tools, Standard-Skripten oder sogar Scraping-as-a-Service-Anbietern können Angreifer problemlos Skripte erstellen, um Website-Inhalte wie Preise, Angebote, Artikel und Metadaten zu ermitteln und auszulesen.
Der Vizepräsident des Shape Intelligence Centers führt Techniken vor, die von Angreifern eingesetzt werden, um Benutzer zu imitieren.
Die Bandbreite der Scraping-Kampagnen kann je nach Fähigkeiten und Zielen des Angreifers von dreist bis heimlich reichen. Die Ausführung des Scraping-Skripts kann auf Hunderte oder Tausende von Servern verteilt werden, um sich in die Datenverkehrsmuster der gesamten Benutzerpopulation des Unternehmens einzufügen.
Die Mitglieder Ihres Marketingteams sind unter Umständen die Ersten, die die Symptome der Scraping-Attacken zu spüren bekommen – etwa ein schlechteres Suchranking und niedrigere Konversionsraten.
Die extrahierten Daten können verkauft, für Preisvergleichsseiten verwendet oder sogar zur Erstellung von Seitenimitationen für betrügerische Zwecke genutzt werden.
Selbst wenn es sich bei dem Scraper um einen Partner handelt, wird es dem Unternehmen möglicherweise lieber sein, wenn dieser die Daten von einer speziellen API abruft, statt teure Ressourcen zu verbrauchen, indem er Daten direkt von Webservern anfordert.