BLOG

Generative KI-Sicherheit und Schutz vor unberechtigtem Content Scraping

Jim Downey Miniaturbild
Jim Downey
Veröffentlicht am 24. April 2024

Stellen Sie sich vor, Sie wären ein Experte, der seinen Lebensunterhalt mit dem Verkauf von Informationen verdient; die Leute bezahlen dafür, Ihnen Fragen zu stellen. Plötzlich saugt eine Maschine dieses Fachwissen aus Ihrem Gehirn, lernt, Fragen schneller zu beantworten als Sie und nimmt Ihnen Ihre Lebensgrundlage. Mit dem Aufkommen der generativen KI stehen Unternehmen, deren Geschäftsmodelle auf Inhalten basieren, genau vor diesem Dilemma.

Wir wissen vielleicht noch nicht, wohin uns die künstliche Intelligenz führen wird, aber sie wird ganz sicher die Art und Weise verändern , wie wir Inhalte konsumieren. Und sie wird auch Unternehmen, die auf die Verbreitung von Inhalten angewiesen sind, in den Ruin treiben – ähnlich wie das Internet unseren Nachrichten- und Unterhaltungskonsum verändert und viele traditionelle Nachrichtenagenturen in den Ruin getrieben hat .

Der Umbruch in der künstlichen Intelligenz wird sich auf Unternehmen auswirken, die Inhalte wie Medien, Nachrichten und Archivbilder verkaufen, sowie auf Unternehmen, die auf Inhalte angewiesen sind, um Zuschauer für bezahlte Werbeanzeigen anzulocken. Die Umbrüche werden sich auch auf Unternehmen auswirken, die potenzielle Kunden anlocken, um für ihre Produkte und Dienstleistungen zu werben, ihre Markenidentität und Kundenbeziehungen aufzubauen oder Kunden durch eine Handlungsaufforderung zu bewegen.

Während das Crawlen von Inhalten für die Suche in den Anfängen des Internets entstand, funktionieren LLM-basierte Apps wie ChatGPT auf grundlegend andere Weise. Suchmaschinen stellen Zusammenfassungen mit Links zurück zum Originalinhalt bereit und schaffen so einen Mehrwert, indem sie den Inhalt auffindbar machen. Umgekehrt bieten chatbasierte Apps auf Basis von LLMs nicht unbedingt Links zurück zum ursprünglichen Inhalt. Vielmehr laden sie die Benutzer ein, im Chat zu bleiben und durch weitere Eingabeaufforderungen mehr zu erfahren. Dadurch wird dem Unternehmen, das den Inhalt erstellt hat, jeglicher Wert entzogen.

Organisationen können sich nicht ausschließlich auf die Datei „robots.txt“ verlassen , die es Organisationen ermöglicht, einen Umfang für Crawler zu deklarieren, da nicht alle Organisationen, die nach Inhalten für das Training von LLMs crawlen, die Datei „robots.txt“ respektieren. Es ist umstritten , ob LLMs Inhalte lediglich kopieren und reproduzieren oder wie jeder andere Ersteller Inhalte synthetisieren. Die Bedeutung des Urheberrechts für das LLM-Scraping wird derzeit vor Gericht diskutiert . Es lässt sich schwer vorhersagen, wie sich Gesetze und Normen entwickeln werden, doch Unternehmen sollten schon jetzt darüber nachdenken, wie sie die Inhalte schützen können, auf die sich ihr Geschäft stützt.

Das Kratzen kann gemildert werden, wenn auch nicht einfach. Tatsächlich handelt es sich hierbei kaum um ein neues Problem. Scraper haben versucht, durch das Scraping von Flugpreisen, Preisen und Tarifen Wettbewerbsdaten zu Fluggesellschaften , Einzelhandelsketten und Hotels zu sammeln. Diese Unternehmen wollen nicht nur den Verlust von Daten der Konkurrenz vermeiden, sondern die Datenverkehrslast der Scraper – insbesondere derjenigen, die nach den aktuellsten Daten suchen – kann in manchen Fällen bis zu 98 % des gesamten Datenverkehrs einer Site ausmachen, was sich auf die Leistung auswirkt und sogar zum Absturz von Sites führen kann.

Scraper verwenden Bots, um die Datenerfassung zu automatisieren. Leider sind herkömmliche Mechanismen zur Abwehr von Bots, wie etwa CAPTCHAs und IP-Adress-Sperrlisten, gegen Scraper-Bots wirkungslos . Da Scraping grundsätzlich als legal gilt, stehen zahlreiche Onlinedienste zum Umgehen von CAPTCHA zur Verfügung. Diese Dienste nutzen maschinelles Lernen oder Klickfarmen zum Lösen der CAPTCHAs , sind schnell und günstig und können diese lästigen Rätsel weitaus effizienter lösen als die meisten von uns. Die einfachste Alternative zu CAPTCHA, IP-Verweigerungslisten, ist aufgrund der für Scraper verfügbaren Dienste ebenfalls wirkungslos. Mithilfe dieser Dienste können Scraper ihre Anfragen über zig Millionen private IP-Adressen stellen – eine Zahl, die so groß ist und ständig weiter wächst, dass die Pflege von Sperrlisten völlig undurchführbar ist.

Sogar viele spezialisierte Bot-Management-Lösungen haben Probleme mit dem Scraping, da diese Lösungen zur Signalerfassung auf Instrumente angewiesen sind. Ein typisches Beispiel ist die Anmeldung. Der Browser gibt zunächst eine HTTP-GET-Anfrage aus, um eine Webseite mit einem Anmeldeformular abzurufen. Auf dieser Seite wird im Hintergrund JavaScript ausgeführt, das Daten über den Browser sowie die Tipp- und Mausbewegungsmuster des Benutzers sammelt. Wenn der Benutzer seine Anmeldeinformationen übermittelt, fügt JavaScript die Signaldaten in die HTTP-POST-Anfrage ein, die die Bot-Management-Lösung als Reverse-Proxy abfängt und analysiert, um zu bestimmen, ob es sich bei dem Agenten, der die Anfrage stellt, um einen Bot handelt.

Für viele Inhaltsseiten ist allerdings keine Kombination aus GET und POST erforderlich, um auf Inhalte zuzugreifen (unabhängig davon, ob es sich um Blogbeiträge, Nachrichten oder Preise handelt). Vielmehr gibt eine einzelne HTTP-GET-Anfrage alles zurück, was der Scraper benötigt, wodurch die Möglichkeit einer Instrumentierung ausgeschlossen wird.

Wir wissen, dass viele Bot-Management-Lösungen keinen Schutz vor Scraping bieten, da es mehrere Dienste gibt, die einen einfachen API-Zugriff auf Scraping-Inhalte ermöglichen. ZenRows listet beispielsweise die Anti-Bot-Anbieter auf, die sie umgehen können.

Glücklicherweise löst F5 Distributed Cloud Bot Defense dieses Problem durch eine Technik namens „Interstitial“ – eine Seite, die schnell geladen wird, schnell Daten sammelt und dann den Inhalt der angeforderten Seite lädt. Im Laufe mehrerer Jahre, in denen F5 die größten Fluggesellschaften und Einzelhändler vor Scraping geschützt hat, hat das Unternehmen seine Technik verfeinert und sie zu einer schnellen, effizienten und effektiven Methode gemacht. Das Interstitial wird nur einmal pro Benutzersitzung ausgeführt, da, sobald ein Agent als Mensch identifiziert wurde, weitere Prüfungen nicht mehr erforderlich sind, außer zum Schutz vor Replay-Missbrauch.

Als effektivste verfügbare Bot-Management-Lösung bietet Distributed Cloud Bot Defense Inhaltserstellern den besten Schutz gegen das Scraping ihrer Inhalte zum Erstellen von LLM-Modellen. Für Organisationen, die ihre Inhalte und ihr Geschäft schützen möchten, ist Distributed Cloud Bot Defense die beste Option.