BLOG

Izados por nuestros propios petardos: Big Dirty Data

Miniatura de Lori MacVittie
Lori MacVittie
Publicado el 21 de agosto de 2017

Grandes datos. Petabytes generados cada hora para millones de sensores y monitores integrados en cosas a lo largo de la cadena de valor empresarial. Desde la fabricación hasta la entrega, desde el punto de venta hasta los consumidores, se generan datos en cantidades sin precedentes.

Esos datos por sí solos no tienen sentido. Los datos en sí son una colección de 1 y 0 en formaciones específicas que, cuando son interpretadas por una aplicación, se convierten en información. La información sólo se vuelve útil cuando se analiza y sólo adquiere valor cuando se actúa en consecuencia.

La gente no puede analizar eficazmente los datos que se generan hoy, y mucho menos los que se generarán en la próxima hora, día o semana. Y, sin embargo, cada vez es más necesario que las decisiones empresariales se tomen casi en tiempo real. Para lograr esto se necesitan computadoras y sistemas entrenados para reconocer las señales en medio de las enormes pilas de ruido que se recogen todos los días.

Esto no es una mera conjetura. En “ Aprendizaje automático: “El nuevo campo de pruebas para la ventaja competitiva ”, una encuesta realizada por MIT Technology Review Custom y Google Cloud, más del 60 % de los encuestados “ya han implementado estrategias de ML [aprendizaje automático] y casi un tercio consideró que sus iniciativas se encuentran en una etapa madura”. La razón detrás de su inversión no trivial en esta tecnología naciente es la ventaja competitiva. Según los encuestados, un beneficio clave del aprendizaje automático es la capacidad de obtener una ventaja competitiva, y el 26 % de quienes lo implementan actualmente consideraban que ya habían logrado ese objetivo.

Se prevé que los beneficios sean asombrosos.

Para una empresa típica de Fortune 1000, solo un aumento del 10% en el acceso a los datos resultará en más de $65 millones de dólares en ingresos netos adicionales.

Los minoristas que aprovechan todo el poder del big data podrían aumentar sus márgenes operativos hasta en un 60%.

Todo bien hasta ahora. Utilizamos datos para impulsar decisiones que permitan a las empresas tomar la iniciativa y crecer.

El peligro radica en no reconocer que toda dependencia conlleva un riesgo. Si dependo de un coche para ir al supermercado (porque no existe transporte público donde vivo), entonces existe el riesgo de que algo le pase a ese coche. Mucho riesgo. Si mi negocio depende de grandes volúmenes de datos para tomar decisiones (potencialmente para mí, si las predicciones de los expertos se toman al pie de la letra), entonces existe el riesgo de que algo les suceda a esos datos.

Ahora no estoy hablando de la pérdida evidente de datos o incluso de la corrupción de los mismos. Hablo de una amenaza más insidiosa que surge de la confianza que depositamos en la veracidad de esos datos.

Para tomar decisiones sobre cualquier dato, ya sea en nuestra vida personal o laboral, primero debemos confiar en la exactitud de esos datos.

Big Dirty Data

Los datos sucios no son nada nuevo. Debo confesar que de vez en cuando falsifico mi información personal cuando me la solicitan para acceder a un artículo o recurso en Internet. Pero los nuevos flujos de datos no están necesariamente en riesgo de este tipo de corrupción inocua. Están amenazados por la corrupción intencionada de actores maliciosos decididos a desviar su negocio del rumbo correcto.

Debido a que tomamos decisiones basadas en datos y sólo tendemos a cuestionarlos cuando aparecen valores atípicos obvios, somos casi ciegos a la amenaza de la corrupción gradual. Al igual que el ahora cliché tropo de robar centavos de las transacciones bancarias, el cambio sutil en los datos puede pasar desapercibido. Los aumentos graduales en la demanda del producto X en un mercado podrían verse como un éxito de los esfuerzos de marketing o promoción. La macroeconomía a menudo puede explicar una caída repentina en la demanda del producto Y en otros. Mi capacidad para impactar su negocio es significativa si tengo la paciencia y la determinación de ensuciar los datos sobre los cuales usted toma decisiones en fabricación o distribución.

¿Qué tan significativo? Según Ovum Research, la mala calidad de los datos supone una pérdida de alrededor del 30% de los ingresos. Analytics Week compiló una lista fascinante de grandes datos con consecuencias similares a las de los datos erróneos, entre ellos:

Los datos de mala calidad pueden costar a las empresas entre el 20% y el 35% de sus ingresos operativos.

Los datos incorrectos o de mala calidad cuestan a las empresas estadounidenses 600 mil millones de dólares al año.

¿Parece poco probable? El raspado web para recopilar inteligencia como parte de esfuerzos de espionaje corporativo es algo real y hay equipos dedicados a detenerlo. El uso de API hace que estos esfuerzos sean aún más fáciles y peores, a veces en tiempo real. Entonces, pensar que no va a existir la posibilidad de que alguien introduzca intencionalmente datos incorrectos en tu flujo es como ignorar deliberadamente la realidad de que los malos actores a menudo (generalmente) van dos pasos por delante de nosotros.

datos de redlock-csi

Nuestras prácticas de seguridad, particularmente en la nube, donde se espera que residan grandes cantidades de datos, amplifican esta amenaza. Un informe técnico de TDWI patrocinado por Information Builders tiene muchos más ejemplos del costo de los datos sucios. Si bien la mayoría se relacionan con problemas típicos de datos sucios que surgen de la integración de datos debido a adquisiciones o la típica información falsificada generada por los clientes, los modelos de costos son invaluables para comprender la amenaza a la que se enfrentan los negocios al confiar en datos que pueden estar corruptos y qué se puede hacer al respecto.

Confiar en configuraciones predeterminadas ha sido la causa de múltiples infracciones solo este año. ¿Recuerdas la debacle de MongoDB de enero ? ¿Aquel en el que las configuraciones predeterminadas dejaban las bases de datos abiertas a cualquiera en Internet que pudiera estar interesado en ellas? ¿O qué tal el estudio CSI de RedLock que encontró 285 instancias de consolas administrativas de Kubernetes completamente abiertas? No se requieren credenciales. El mismo informe descubrió que el 31% de las bases de datos no cifradas en la nube aceptaban conexiones entrantes desde Internet. Directamente. Es decir, nada entre tus datos y yo.

Cuando más de 27.000 bases de datos quedan expuestas y accesibles a través de Internet debido a que no se hizo ningún esfuerzo para protegerlas, es fácil imaginar que los flujos de datos podrían ensuciarse con facilidad. Cuando tenemos organizaciones que eliminan deliberadamente los controles de seguridad predeterminados en los servicios de almacenamiento en la nube para dejarlos completamente expuestos al descubrimiento y la corrupción, esta noción de actores maliciosos que insertan datos sucios pasa de ser posible a ser probable. Es responsabilidad de las organizaciones que dependen de datos (que hoy en día son prácticamente todos) cuidar no solo cómo protegen esos datos, sino también cómo verifican su precisión.

La seguridad en el futuro de los negocios basados en datos significa más que simplemente protegerse contra la exfiltración, también debe considerar la amenaza muy real de la infiltración y cómo combatirla.