BLOG

Accélération de la formation des modèles grâce aux données synthétiques

Miniature de Chris Ford
Chris Ford
Publié le 13 février 2025

L'AI Data Fabric de F5 nous aide à accélérer la formation et le déploiement de modèles d'apprentissage automatique (ML) pour une variété de cas d'utilisation. L’un des principaux défis que l’AI Data Fabric aide à résoudre concerne la rareté des bonnes données de formation. Avec toute initiative ML, la qualité, la diversité et le volume des données sont essentiels pour créer des modèles efficaces.  

Les données du monde réel ont toujours été la ressource de référence pour la formation des algorithmes ML. L’AI Data Fabric bénéficie certainement de l’empreinte technologique de la vaste base de clients de F5 et de l’accès à des données réelles de haut calibre. Après tout, F5 se trouve dans le chemin des données de près de la moitié des applications mondiales, avec 550 pétaoctets circulant dans les produits F5 chaque jour. 

Cependant, au cours des dernières années, les données synthétiques sont devenues une source convaincante de données de formation et gagnent rapidement en importance pour notre écosystème ML.  

Que sont les données synthétiques ?

Les données synthétiques font référence aux données générées artificiellement qui imitent les caractéristiques des ensembles de données du monde réel. Après avoir appris les propriétés statistiques et les structures des données réelles, nous pouvons générer des données artificielles qui ont les mêmes propriétés que les données authentiques. Grâce à ces techniques, l’AI Data Fabric peut générer des quantités massives de données ressemblant à celles que nous collectons auprès des clients.  

Pourquoi utiliser des données synthétiques ?

L’utilisation de données synthétiques présente de nombreux avantages. Tout d’abord, il y a la confidentialité et la conformité. Les données synthétiques peuvent être produites sans informations sensibles, ce qui en fait un excellent choix pour nos clients qui sont liés par des réglementations de confidentialité ou des politiques de sécurité strictes. En utilisant des versions synthétiques d’ensembles de données sensibles, nous pouvons partager et analyser des données sans mettre en danger les données des clients. Nous pouvons également être sûrs que les modèles ne sont pas formés avec des données clients.

Deuxièmement, travailler avec des données du monde réel peut prendre du temps et être coûteux : collecter et étiqueter des quantités massives de données constitue un véritable fardeau, qui limite la vitesse d’innovation. La génération de données réduit considérablement les coûts et accélère le cycle de vie de développement de notre modèle.

Les données du monde réel peuvent également être limitées par la disponibilité. Les bonnes données de formation sont rares, en particulier pour les événements rares. Les données synthétiques aident à combler les lacunes et à équilibrer les classes sous-représentées dans des scénarios spécifiques. Par exemple, dans un ensemble de données destiné à la détection d’attaques, les transactions de routine peuvent être largement plus nombreuses que les transactions malveillantes. Grâce aux données synthétiques, nous pouvons surmonter cette pénurie : nos équipes peuvent tester des cas extrêmes qui ne sont pas représentés dans les données du monde réel et explorer plus facilement des situations hypothétiques.  

Enfin, il y a la sécurité. Grâce aux données synthétiques, nous pouvons générer des exemples contradictoires qui sont ensuite utilisés pour tester la sécurité du modèle contre les attaques. Les données synthétiques aident même à se protéger contre des attaques telles que l’empoisonnement des données, où les attaquants manipulent les données de formation pour corrompre les modèles d’IA.

Les inconvénients des données synthétiques

Bien que les données synthétiques présentent de nombreux avantages, il convient de prendre en compte certaines précautions.  Par exemple, la génération de données synthétiques nécessite des algorithmes avancés et des niveaux élevés d’expertise pour fonctionner. Les données synthétiques présentent également des défis en matière de réalisme : les modèles formés exclusivement avec des données synthétiques peuvent ne pas fonctionner correctement dans des situations réelles. Soit les données de formation peuvent être trop simplistes, manquant des complexités et des nuances des données réelles, soit les modèles sont suradaptés aux modèles de données synthétiques qui peuvent ne pas être présents dans des scénarios réels.

Malgré ces précautions, les données synthétiques peuvent être très utiles dans les scénarios où les données réelles sont rares, coûteuses ou sensibles. Si nous comprenons ses limites et en tenons compte dans le processus de développement du modèle, la génération de données synthétiques est un outil puissant dans l’arsenal d’apprentissage automatique de F5. Les données synthétiques nous aident à aller plus vite et à fournir de bien meilleurs résultats à nos clients sous la forme de modèles ML fiables.