BLOG

Aceleración del entrenamiento de modelos con datos sintéticos

Miniatura de Chris Ford
Chris Ford
Publicado el 13 de febrero de 2025

AI Data Fabric de F5 nos ayuda a acelerar el entrenamiento y la implementación de modelos de aprendizaje automático (ML) para una variedad de casos de uso. Uno de los desafíos clave que AI Data Fabric ayuda a resolver tiene que ver con la escasez de buenos datos de entrenamiento. En cualquier iniciativa de ML, la calidad, la diversidad y el volumen de los datos son fundamentales para construir modelos efectivos.  

Los datos del mundo real siempre han sido el recurso predilecto para entrenar algoritmos de ML. Sin duda, AI Data Fabric se beneficia de la huella tecnológica de la amplia base de clientes de F5 y del acceso a datos reales de alto calibre. Después de todo, F5 se encuentra en la ruta de datos de casi la mitad de las aplicações del mundo, y 550 petabytes fluyen a través de los productos F5 todos los días. 

Sin embargo, en los últimos años, los datos sintéticos han surgido como una fuente convincente de datos de entrenamiento y su importancia está creciendo rápidamente para nuestro ecosistema de ML.  

¿Qué son los datos sintéticos?

Los datos sintéticos se refieren a datos generados artificialmente que imitan las características de conjuntos de datos del mundo real. Después de aprender las propiedades y estructuras estadísticas de los datos reales, podemos generar datos artificiales que tengan las mismas propiedades que los datos auténticos. Utilizando estas técnicas, AI Data Fabric puede generar cantidades masivas de datos similares a los que recopilamos de los clientes.  

¿Por qué usar datos sintéticos?

El uso de datos sintéticos ofrece numerosas ventajas. En primer lugar, está la privacidad y el cumplimiento. Se pueden producir datos sintéticos sin información confidencial, lo que los convierte en una excelente opción para nuestros clientes que están sujetos a estrictas regulaciones de privacidad o políticas de seguridad. Al utilizar versiones sintéticas de conjuntos de datos confidenciales, podemos compartir y analizar datos sin poner en riesgo los datos de los clientes. También podemos estar seguros de que los modelos no se entrenan con datos de los clientes.

En segundo lugar, trabajar con datos del mundo real puede consumir mucho tiempo y ser costoso: recopilar y etiquetar cantidades masivas de datos es una verdadera carga que limita la velocidad de la innovación. La generación de datos reduce significativamente los costos y acelera el ciclo de vida del desarrollo de nuestro modelo.

Los datos del mundo real también pueden verse limitados por la disponibilidad. Los buenos datos de entrenamiento son escasos, especialmente para eventos raros. Los datos sintéticos ayudan a llenar vacíos y equilibrar las clases subrepresentadas en escenarios específicos. Por ejemplo, en un conjunto de datos para la detección de ataques, las transacciones rutinarias podrían superar ampliamente a las maliciosas. Con datos sintéticos, podemos superar esta escasez: nuestros equipos pueden probar casos extremos que no están representados en datos del mundo real y explorar situaciones hipotéticas más fácilmente.  

Por último, está la seguridad. Con datos sintéticos, podemos generar ejemplos adversarios que luego se utilizan para probar la seguridad del modelo contra ataques. Los datos sintéticos incluso ayudan a protegernos contra ataques como el envenenamiento de datos, donde los atacantes manipulan los datos de entrenamiento para corromper los modelos de IA.

Las desventajas de los datos sintéticos

Si bien los datos sintéticos ofrecen muchos beneficios, hay algunas precauciones que debemos tener en cuenta.  Por ejemplo, generar datos sintéticos requiere algoritmos avanzados y altos niveles de experiencia para que funcione. Los datos sintéticos también presentan desafíos en torno al realismo: los modelos entrenados exclusivamente con datos sintéticos pueden no funcionar bien en situaciones del mundo real. O bien los datos de entrenamiento pueden ser demasiado simplistas, careciendo de las complejidades y matices de los datos reales, o los modelos pueden sobreajustarse a patrones en datos sintéticos que podrían no estar presentes en escenarios reales.

A pesar de estas advertencias, los datos sintéticos pueden ser muy útiles en escenarios donde los datos reales son escasos, costosos o sensibles. Si entendemos sus limitaciones y las tenemos en cuenta en el proceso de desarrollo del modelo, la generación de datos sintéticos es una herramienta poderosa en el arsenal de aprendizaje automático de F5. Los datos sintéticos nos ayudan a ir más rápido y ofrecer resultados mucho mejores para nuestros clientes en forma de modelos de aprendizaje automático confiables.