L’intelligence artificielle est arrivée : 96 % des organisations sondées pour le rapport F5 2025 State of Application Strategy déploient déjà des modèles d’IA.
Alors que l’IA vous aide à travailler plus intelligemment, plus vite et plus efficacement, elle soulève aussi des inquiétudes et des risques. Les systèmes d’IA, notamment ceux basés sur l’apprentissage automatique et les grands modèles de langage (LLM), tirent leur puissance de vastes volumes de données, utilisées pour entraîner et affiner les modèles d’IA et alimenter leurs moteurs. Ces données peuvent comprendre des informations sensibles telles que des identifiants personnels, des comportements, des données de localisation ainsi que des dossiers financiers et médicaux. Avec l’intégration croissante de l’IA dans les applications quotidiennes, le risque d’exposer ou d’abuser de données personnelles s’accentue : La protection de la confidentialité des données liées à l’IA est devenue une priorité essentielle.
Ce billet de blog analyse la notion de confidentialité liée à l’IA et détaille les risques que l’IA fait peser sur la protection des données. Il passe également en revue la réglementation sur la confidentialité de l’IA et vous guide pour assurer la protection des données dans vos applications d’IA.
La confidentialité de l’IA regroupe les pratiques qui protègent les données collectées, stockées et traitées par les systèmes d’IA. La confidentialité de l’IA concerne la confidentialité des données, qui repose sur le contrôle des données personnelles par leurs propriétaires, mais elle présente des spécificités qui en font un concept distinct.
Les systèmes d’IA exploitent une grande quantité de données. Plus ces systèmes traitent de données, plus ils deviennent précis et performants. Par exemple, on estime que ChatGPT-4 utilise environ 1,8 trillion de paramètres, et ce volume important de données collectées soulève des questions de confidentialité. Comme ces systèmes s’entraînent sur des ensembles de données très larges, souvent extraits d’Internet ou d’autres bases considérables, il est difficile de garantir qu’aucune donnée privée ou personnelle n’a été incluse, et si c’est le cas, que le consentement à leur utilisation a bien été donné.
De plus, les pipelines d’IA, depuis la collecte des données jusqu’à la livraison des applications, sont largement automatisés, ce qui complique la détection des problèmes de confidentialité, sauf si des garde-fous sont intégrés dès la conception. Vous devez anticiper les risques potentiels, car une négligence peut entraîner des conséquences majeures en matière de confidentialité, difficiles à résoudre par la suite. Si des données personnelles ont servi à entraîner un modèle et que leur propriétaire demande leur suppression, quel impact cela aura-t-il sur le modèle d’IA ?
L’IA excelle par nature à reconnaître des schémas, ce qui lui permet d’assembler des données disparates pour déduire avec précision des informations privées vous concernant. Elle ne se contente pas de mémoriser : elle identifie des corrélations, augmentant ainsi le risque que le modèle détermine votre identité via une combinaison de traits ou reconstitue des fragments pour révéler des informations sensibles.
Ces enjeux posent d’importantes questions éthiques et réglementaires, même lorsque les données utilisées par le système d’IA sont anonymisées.
Le public s'inquiète beaucoup pour sa vie privée, mais il manque aussi cruellement d'informations sur la façon de se protéger. Selon Pew Research, 70 % des Américains ne font pas confiance aux entreprises pour utiliser l'IA de manière responsable, et 81 % pensent que les organisations se serviront de leurs informations personnelles de façon gênante. L'enquête montre que 78 % des répondants jugent savant protéger leurs informations personnelles, pourtant 56 % acceptent souvent, presque toujours ou systématiquement les politiques de confidentialité en ligne sans les lire.
Les opinions publiques sur l’utilisation des données personnelles par l’IA varient fortement selon le contexte. D’après le même rapport Pew Research, seuls 28 % des sondés acceptent que l’IA détermine l’accès aux aides publiques, alors que 42 % ne s’inquiètent pas qu’un haut-parleur intelligent analyse les voix pour identifier les utilisateurs.
Vous devez prendre en compte les obligations réglementaires liées à l’IA et à la confidentialité des données, tout en étant attentif au ressenti et aux attentes du public sur l’utilisation des données personnelles.
Les systèmes d’IA présentent des risques pour la confidentialité des données à chaque étape du cycle de vie. Vous devez comprendre et gérer ces risques tout au long du développement et du déploiement pour garantir une utilisation éthique et sécurisée des données.
Les systèmes d’IA générative, comme les LLM utilisés pour produire du texte, des images, du code ou de l’audio, comportent des risques élevés pour la confidentialité des données. Nous entraînons la plupart des modèles d’IA sur des ensembles de données collectés depuis l’Internet public, souvent sans obtenir l’autorisation explicite ni le consentement éclairé de leurs sources ou créateurs. Par ailleurs, ces données peuvent inclure des informations personnelles identifiables que le système d’IA générative risque de divulguer lors de l’inférence.
Les applications d’IA générative, notamment les assistants d’écriture destinés au grand public, les chatbots et les générateurs d’images, fonctionnent généralement de manière interactive et sont accessibles via le web. Cela les expose aux injections de requêtes, par lesquelles des attaquants créent des données d’entrée visant à manipuler le comportement du modèle, contourner les contrôles ou inciter l’IA à produire des contenus restreints, offensants ou confidentiels. Par ailleurs, les utilisateurs peuvent coller des informations personnelles ou sensibles dans ces outils d’IA sans savoir que ces données sont souvent stockées dans le système et exploitées pour former ou ajuster des modèles futurs, ce qui peut entraîner une fuite accidentelle d’informations.
Ces deux facteurs génèrent ensemble des scénarios à haut risque, où un LLM entraîné sur du contenu non consenti ou sensible pourrait être sollicité pour recréer ce contenu et divulguer des informations personnelles, ou où vous pourriez soumettre involontairement des données sensibles dans les requêtes, les exposant à un accès non autorisé ou à une réutilisation.
Avec l’accélération de l’adoption de l’IA, les gouvernements élaborent ou actualisent des lois pour encadrer les risques liés à la confidentialité des données dans les systèmes d’IA, notamment ceux utilisant ou stockant des données personnelles ou sensibles. Aujourd’hui, 144 pays ont adopté des lois nationales sur la protection des données, tandis que d’autres, comme les États-Unis, disposent d’un ensemble hétérogène de lois locales. Ces réglementations ne ciblent pas toutes spécifiquement l’IA, mais la plupart des systèmes d’IA doivent s’y conformer.
Voici des exemples de lois sur la protection des données.
Le cabinet d'avocats White & Case publie AI Watch : Suivi mondial de la réglementation, une ressource fiable pour rester informé des règles relatives à la confidentialité de l'IA.
À mesure que la complexité et l’étendue des systèmes d’IA augmentent, vous devez protéger la confidentialité des données tout au long du cycle de vie de l’intelligence artificielle. Adoptez ces bonnes pratiques pour assurer votre conformité, renforcer la confiance des utilisateurs et minimiser les risques.
Une exigence commune aux réglementations spécifiques à l’IA consiste à classer les applications d’IA selon leur niveau de risque. Cette approche fondée sur les risques vous permet de mettre en place des protections et une surveillance adaptées à l’impact potentiel du système d’IA.
Les applications d’IA à risque élevé peuvent inclure :
Les États-Unis Le National Institute of Standards and Technology (NIST) a publié en 2023 un cadre de gestion des risques liés à l’intelligence artificielle (AI RMF) qui apporte des recommandations pratiques adaptées à plusieurs secteurs et usages. Ce cadre vous sera utile en tant que développeur d’applications IA, car il n’impose pas une classification large des applications à haut risque, mais vous guide pour évaluer les risques et définir les mesures pour les réduire.
Le noyau du RMF pour l’IA s’organise en quatre fonctions principales qui illustrent une gestion des risques liés à l’intelligence artificielle continue et cyclique :
Avec l’accélération de l’innovation en IA, il est crucial de préserver un équilibre entre le progrès technologique et la protection rigoureuse de la confidentialité des données. Les réglementations actuelles sur la confidentialité soulignent l’importance de favoriser l’innovation tout en assurant des protections solides pour la confidentialité et la sécurité des données.
Les lois générales sur la protection des données, comme le RGPD et le CCPA, posent une base essentielle pour gérer la confidentialité, même face à l’émergence de règles spécifiques à l’IA. Vous devez évaluer en continu les enjeux de confidentialité liés à vos systèmes d’IA, surtout lorsque leurs capacités évoluent ou que de nouveaux usages apparaissent.
Évaluez régulièrement les enjeux de confidentialité liés à l’IA dans votre organisation et mettez à jour vos politiques de gouvernance des données pour qu’elles restent en phase avec les évolutions technologiques, les exigences réglementaires et les attentes culturelles.