Imaginez être un expert qui vend des informations pour gagner sa vie ; les gens paient pour vous poser des questions. Soudain, une machine aspire cette expertise de votre esprit, apprend à répondre aux questions plus vite que vous et vous prive de vos moyens de subsistance. Avec l’ essor de l’IA générative , les entreprises dont les modèles commerciaux reposent sur le contenu sont précisément confrontées à ce dilemme.
Nous ne savons peut-être pas où l’IA de la génération actuelle nous mènera, mais il est clair qu’elle transformera notre façon de consommer du contenu et, ce faisant, perturbera les entreprises qui dépendent de la distribution de contenu, de la même manière qu’Internet a transformé notre consommation d’informations et de divertissements, dévastant de nombreux médias d’information traditionnels.
La disruption de la génération IA aura un impact sur les entreprises qui vendent du contenu, comme des médias, des actualités et des photos d'archives, ainsi que sur les entreprises qui s'appuient sur le contenu pour attirer les téléspectateurs vers des publicités payantes. Les perturbations auront également un impact sur les entreprises qui attirent des prospects pour promouvoir des produits et des services, pour renforcer l’identité de la marque et les relations avec les clients, ou pour faire bouger les clients avec un appel à l’action.
Alors que l’exploration de contenu à des fins de recherche est née aux débuts du Web, les applications basées sur LLM comme ChatGPT fonctionnent d’une manière fondamentalement différente. Les moteurs de recherche fournissent des résumés avec des liens vers le contenu d'origine, ajoutant de la valeur en rendant le contenu détectable. À l’inverse, les applications basées sur le chat et alimentées par des LLM ne fournissent pas nécessairement de liens vers le contenu d’origine ; elles invitent plutôt les utilisateurs à rester dans le chat, à en apprendre davantage grâce à d’autres invites, drainant toute valeur de l’entreprise qui a créé le contenu.
Les organisations ne peuvent pas s'appuyer uniquement sur le fichier robots.txt , qui leur permet de déclarer une portée pour les robots d'exploration, car toutes les organisations qui recherchent du contenu pour la formation des LLM ne respecteront pas le fichier robots.txt. On peut débattre de la question de savoir si les LLM se contentent de copier et de reproduire du contenu ou de synthétiser du contenu comme n’importe quel créateur. L’importance de la loi sur le droit d’auteur pour le scraping LLM fait désormais l’objet de discussions devant les tribunaux. Il est difficile de prédire comment les lois et les normes évolueront, mais les organisations doivent commencer dès maintenant à réfléchir à la manière de protéger le contenu sur lequel leurs activités s’appuient.
Le grattage peut être atténué, mais pas facilement. En fait, ce n’est pas vraiment un problème nouveau. Les scrapers ont cherché à collecter des données concurrentielles sur les compagnies aériennes , les chaînes de vente au détail et les hôtels par le biais du scraping des tarifs, des prix et des taux. Non seulement ces entreprises souhaitent éviter la perte de données concurrentielles, mais la charge de trafic des scrapers, en particulier ceux qui recherchent les données les plus récentes, peut représenter jusqu'à 98 % de tout le trafic vers un site dans certains cas, ce qui affecte les performances et même fait planter les sites.
Les scrapers utilisent des robots pour automatiser la collecte de données. Malheureusement, les mécanismes traditionnels de lutte contre les robots, tels que le CAPTCHA et les listes de refus d'adresses IP, sont inefficaces contre les robots scraper. Étant donné que le scraping est généralement considéré comme légal, de nombreux services en ligne sont disponibles pour contourner le CAPTCHA. En utilisant l’apprentissage automatique ou les fermes de clics pour résoudre les CAPTCHA , ces services sont rapides et bon marché, et bien plus efficaces que la plupart d’entre nous pour résoudre ces énigmes irritantes. L'alternative la plus simple au CAPTCHA, les listes de refus d'adresses IP, est également inefficace en raison des services disponibles pour les scrapers. Ces services permettent aux scrapers d’émettre leurs requêtes via des dizaines de millions d’adresses IP résidentielles, un nombre si important et croissant que le maintien de listes de refus est totalement impossible.
Même de nombreuses solutions de gestion de robots spécialisées ont du mal à effectuer le scraping, car ces solutions dépendent de l'instrumentation pour la collecte des signaux. Un exemple typique est la connexion. Le navigateur émet d’abord une requête HTTP GET pour récupérer une page Web contenant un formulaire de connexion. Sur cette page, JavaScript s’exécute en arrière-plan, collectant des données sur le navigateur et les habitudes de frappe et de déplacement de la souris de l’utilisateur. Lorsque l'utilisateur soumet ses informations d'identification, JavaScript insère les données du signal dans la requête HTTP POST, que la solution de gestion des bots, agissant comme un proxy inverse, intercepte et analyse pour déterminer si l'agent effectuant la demande est un bot.
Cependant, de nombreux sites de contenu ne nécessitent pas une combinaison de GET et POST pour accéder au contenu, qu’il s’agisse d’articles de blog, d’articles d’actualité ou de tarifs. Au lieu de cela, une seule requête HTTP GET renvoie tout ce que le scraper souhaite, éliminant ainsi le risque d'instrumentation.
Nous savons que de nombreuses solutions de gestion de robots ne parviennent pas à protéger le scraping, car il existe plusieurs services qui fournissent un accès API facile au contenu du scraping. ZenRows , par exemple, répertorie les fournisseurs d'anti-bots qu'ils peuvent contourner.
Heureusement, F5 Distributed Cloud Bot Defense résout ce problème grâce à une technique appelée interstitiel : une page qui se charge rapidement, collecte rapidement des données, puis charge le contenu de la page demandée. Au cours de plusieurs années de défense des plus grandes compagnies aériennes et des plus grands détaillants contre le scraping, F5 a affiné sa technique pour être rapide, efficace et efficiente. L'interstitiel ne s'exécute qu'une fois par session utilisateur, car une fois qu'un agent est identifié comme humain, d'autres vérifications sont inutiles, sauf pour se prémunir contre les abus de relecture.
En tant que solution de gestion de robots la plus efficace disponible, Distributed Cloud Bot Defense offre aux créateurs de contenu la meilleure défense contre le grattage de leur contenu pour la création de modèles LLM. Pour les organisations qui souhaitent protéger leur contenu et leur activité, Distributed Cloud Bot Defense constitue la meilleure option.