El scraping es el uso de herramientas automatizadas para recopilar grandes cantidades de datos de una aplicación con el fin de reutilizar o vender esos datos en otro lugar.
El scraping puede ser benigno o malicioso, dependiendo de la fuente, el objetivo y la frecuencia de las solicitudes. Por ejemplo, un bot de un motor de búsqueda que respete los índices de scraping definidos en el archivo robot.txt del sitio probablemente se considerará aceptable, mientras que el scraping de precios diario de un competidor no sea deseado.
Los atacantes aumentaban los costes de infraestructura de la aerolínea y perjudicaban su capacidad de gestionar los ingresos, por lo que el equipo de seguridad se planteó el uso de Shape.
Estudio de caso: Una aerolínea internacional lucha contra el scraping de tarifas
25 %
EL SCRAPING NO DESEADO SUPUSO EL 25 % DE TODO EL TRÁFICO DE BÚSQUEDA EN UNA SOLA URL.
Mediante el uso de herramientas automatizadas, scripts estándar o incluso proveedores de scraping como servicio, los atacantes pueden crear fácilmente scripts para descubrir y raspar el contenido del sitio web, incluyendo precios, promociones, artículos y metadatos.
El vicepresidente de Shape Intelligence muestra las técnicas que aprovechan los atacantes para imitar a los usuarios.
Las campañas de scraping pueden ser descaradas o sigilosas, dependiendo de las habilidades y los objetivos del atacante. La ejecución del script de scraping puede distribuirse entre cientos o miles de servidores para mezclarse con los patrones de tráfico de toda la población de usuarios de la empresa.
Su equipo de marketing puede ser el primero en experimentar los síntomas de los ataques de scraping, incluyendo la caída de las clasificaciones de búsqueda y la disminución de las tasas de conversión.
Los datos extraídos pueden venderse, utilizarse para sitios de comparación de precios o incluso para crear sitios de imitación con fines fraudulentos.
Incluso si el atacante es un socio, las empresas pueden preferir que la parte recupere los datos de una API especificada, en lugar de consumir recursos costosos solicitando datos directamente de los servidores web.