Imagínese ser un experto que vende información para ganarse la vida; la gente paga para hacerle preguntas. De repente, una máquina absorbe esos conocimientos de tu mente, aprende a responder preguntas más rápido que tú y te quita tu sustento. Con el auge de la IA generativa , las empresas con modelos de negocios dependientes del contenido enfrentan precisamente este dilema.
Puede que no sepamos adónde nos llevará la generación de IA, pero claramente transformará el modo en que consumimos contenidos y, al hacerlo, afectará a las empresas que dependen de la distribución de contenidos, de forma similar a cómo Internet transformó nuestro consumo de noticias y entretenimiento, devastando a muchos medios de comunicación tradicionales.
La disrupción de la generación AI afectará a las empresas que venden contenido, como medios, noticias y fotografías de archivo, así como a las empresas que dependen del contenido para atraer espectadores a anuncios pagos. La disrupción también afectará a las empresas que atraen clientes potenciales para promocionar productos y servicios, para construir una identidad de marca y relaciones con los clientes, o para conmover a los clientes con un llamado a la acción.
Si bien el rastreo de contenido para búsquedas nació en los primeros días de la web, las aplicaciones basadas en LLM como ChatGPT funcionan de una manera fundamentalmente diferente. Los motores de búsqueda proporcionan resúmenes con enlaces al contenido original, lo que agrega valor al hacer que el contenido sea detectable. Por el contrario, las aplicaciones basadas en chat impulsadas por LLM no necesariamente proporcionan enlaces al contenido original; más bien, invitan a los usuarios a permanecer en el chat y aprender más mediante indicaciones adicionales, lo que extrae todo el valor de la empresa que creó el contenido.
Las organizaciones no pueden confiar únicamente en el archivo robots.txt , que les permite declarar un alcance para los rastreadores, porque no todas las organizaciones que rastrean contenido para la capacitación de LLM respetarán el archivo robots.txt. Está en debate si los LLM simplemente copian y reproducen contenido o sintetizan contenido como cualquier creador. La importancia de la legislación sobre derechos de autor para el scraping de LLM se está debatiendo actualmente en los tribunales. Es difícil predecir cómo evolucionarán las leyes y las normas, pero las organizaciones deberían empezar a pensar ahora en cómo proteger el contenido del que dependen sus negocios.
El raspado se puede mitigar, aunque no fácilmente. En realidad, no es un problema nuevo. Los scrapers han buscado recopilar datos competitivos sobre aerolíneas , cadenas minoristas y hoteles a través del scraping de tarifas, precios y tarifas. Estas empresas no solo quieren evitar la pérdida de datos competitivos, sino que la carga de tráfico de los raspadores (especialmente aquellos que buscan los datos más actualizados) puede sumar hasta el 98 % de todo el tráfico a un sitio en algunos casos, lo que afecta el rendimiento e incluso provoca el colapso de los sitios.
Los scrapers utilizan bots para automatizar la recopilación de datos. Lamentablemente, los mecanismos tradicionales para mitigar los bots, como CAPTCHA y las listas de denegación de direcciones IP, son ineficaces contra los bots scraper. Dado que el raspado generalmente se considera legal, existen numerosos servicios en línea disponibles para evitar el CAPTCHA. Al utilizar aprendizaje automático o granjas de clics para resolver los CAPTCHA , estos servicios son rápidos y económicos, y mucho más eficientes que la mayoría de nosotros a la hora de resolver esos irritantes acertijos. La alternativa más sencilla a CAPTCHA, las listas de denegación de IP, también son ineficaces debido a los servicios disponibles para los raspadores. Estos servicios permiten a los scrapers emitir sus solicitudes a través de decenas de millones de direcciones IP residenciales, un número tan grande y creciente que mantener listas de denegación resulta completamente inviable.
Incluso muchas soluciones especializadas de gestión de bots tienen dificultades para realizar el scraping porque dependen de la instrumentación para la recopilación de señales. Un ejemplo típico es el inicio de sesión. El navegador primero emite una solicitud HTTP GET para recuperar una página web que contiene un formulario de inicio de sesión. En esa página, JavaScript se ejecuta en segundo plano, recopilando datos sobre el navegador y los patrones de escritura y movimiento del mouse del usuario. Cuando el usuario envía sus credenciales, JavaScript inserta los datos de la señal en la solicitud HTTP POST, que la solución de gestión de bots, actuando como un proxy inverso, intercepta y analiza para determinar si el agente que realiza la solicitud es un bot.
Sin embargo, muchos sitios de contenido no requieren una combinación de GET y POST para acceder al contenido, ya sean publicaciones de blogs, noticias o precios. En lugar de ello, una única solicitud HTTP GET devuelve todo lo que el raspador desea, eliminando la posibilidad de instrumentación.
Sabemos que muchas soluciones de gestión de bots no protegen contra el scraping porque hay varios servicios que brindan acceso API fácil para raspar contenido. ZenRows , por ejemplo, enumera los proveedores anti-bots que pueden eludir.
Afortunadamente, F5 Distributed Cloud Bot Defense resuelve este problema a través de una técnica llamada intersticial: una página que se carga rápidamente, recopila datos rápidamente y luego carga el contenido de la página solicitada. A lo largo de varios años defendiendo a las aerolíneas y minoristas más grandes del scraping, F5 ha perfeccionado la técnica para que sea rápida, eficiente y eficaz. El intersticial se ejecuta solo una vez por sesión de usuario porque una vez que un agente se identifica como humano, no es necesario realizar más verificaciones, excepto para protegerse contra el abuso de reproducción.
Como la solución de gestión de bots más eficaz disponible, Distributed Cloud Bot Defense ofrece a los creadores de contenido la mejor defensa contra el raspado de su contenido para la creación de modelos LLM. Para las organizaciones que desean proteger su contenido y su negocio, Distributed Cloud Bot Defense ofrece la mejor opción.