Sécurisation de l’IA : faut-il centraliser ou décentraliser ?
En quelques mots…
La collecte massive de données personnelles constitue un nouveau risque d’atteinte à la vie privée et les citoyens-consommateurs demandent de nouvelles garanties de sécurité à leurs représentants et leurs entreprises. Alors que les données personnelles ont été historiquement sécurisées en les anonymisant, ces méthodes s’avèrent souvent inefficaces lorsqu’on considère des modèles d’intelligence artificielle entraînés sur des données massives. De nouveaux cadres de sécurisation doivent être mis en place, qui peuvent s’appuyer soit sur la centralisation des données chez un tiers de confiance, soit sur la décentralisation des données chez une multitude d’acteurs.
Vers une sécurisation du partage de données.
Nous confions de plus en plus d’informations personnelles à des entreprises en échange d’un accès gratuit à des réseaux sociaux, des boîtes mail ou d’autres services. Les grandes entreprises du web, GAFAM en tête, ont ainsi accumulé en quelques années une masse considérable d’informations sur nous-mêmes qu’elles exploitent à l’aide d’algorithmes d’IA, parfois pour développer de meilleurs produits mais aussi pour nous surveiller et nous influencer. Les récents scandales tels que Cambridge Analytica ou les révélations d’Edward Snowden nous ont fait prendre conscience des dangers que représentait cette accumulation de données personnelles chez des acteurs que nous ne contrôlons pas ou peu. Le temps où le PDG de Facebook se permettait de dénigrer publiquement la vie privée de ses utilisateurs est révolu, et la protection de la confidentialité est revenue au centre des discours marketing et politiques. Répondant à ces attentes, l’Union Européenne a ouvert la voie à une plus grande régulation du commerce des données grâce à l’entrée en vigueur en 2018 du RGPD et elle a depuis été suivie par le Brésil, le Japon et la Californie. Nous sommes à un moment charnière: les citoyens-consommateurs demandent de meilleures régulations à leurs politiques et des garanties de sécurisation à leurs entreprises. Mais que signifie concrètement sécuriser le partage et l’utilisation de données ? Est-ce possible, ou la solution ne peut-elle être que l’arrêt de la collecte de données ? Cet article présente certaines difficultés liées au partage sécurisé de données, et s’intéresse en particulier à l’aspect (dé)centralisé de leur stockage.
Le partage des données avant les données massives et l’IA.
Partons d’un exemple instructif : la recherche sur données médicales avant la collecte massive de données numériques. La vie privée des patients est historiquement un souci majeur de la déontologie médicale, et chaque médecin doit jurer de la préserver pour avoir le droit d’exercer. Les recherches médicales sont donc soumises au contrôle de comités chargés de protéger la vie privée des patients, et les données pouvant être analysées sont souvent anonymisées ou pseudonymisées pour empêcher ou rendre difficile toute réidentification des patients. Lorsqu’une donnée a été parfaitement anonymisée, le médecin peut sans danger l’envoyer au chercheur et ne plus s’en soucier par la suite (approche “publier-et-oublier”). Dans ce cas, la combinaison de solutions organisationnelles - comités délivrant des autorisations -, et techniques - anonymisation - rend possible des recherches respectueuses de la vie privée.
Pourquoi les anciennes protections ne suffisent plus ?
Souvent, la collecte massive de données et leur analyse par des modèles d’IA ne peuvent malheureusement pas être sécurisées de la même manière que l’exemple évoqué précédemment. D’une part, l’entraînement d’un modèle d’IA implique souvent d’avoir accès à énormément de données de natures différentes, qui sont souvent détenues par des acteurs variés (entreprises, administrations, hôpitaux, patients etc.). Dans le cas médical, il est par exemple intéressant d’utiliser à la fois des données de l’assurance maladie, des données des dossiers médicaux et des données d’objets connectés, trois types de données détenues par des acteurs différents. D’un point de vue organisationnel, la question se pose alors de savoir quel comité serait chargé de valider une recherche impliquant tous ces acteurs. D’autre part, d’un point de vue technique, les modèles d’IA sont généralement pertinents pour détecter des “signaux faibles” dans une masse de données détaillées. L’anonymisation des données détaillées est difficile et quand elle est bien faite elle supprime souvent les “signaux faibles” qui peuvent être détectés par l’IA, rendant cette dernière inutile. Anonymisation et IA sont donc souvent incompatibles. La sécurisation de l’IA sur des données massives ne peut plus reposer sur l’anonymisation de celles-ci et il est nécessaire de développer de nouvelles techniques de protection.
Vers une nouvelle infrastructure sécurisée: centralisée ou décentralisée ?
Quelles nouvelles solutions pouvons nous alors adopter pour sécuriser le développement de l’IA tout en évitant l’anonymisation des données? Une solution intuitive pourrait être de confier toutes les tâches risquées à un seul tiers de confiance qui regrouperait toutes les données et réaliserait toutes les analyses en interne. La centralisation des données permettrait ainsi de concentrer les efforts de sécurisation et de contrôle pour créer un unique coffre-fort robuste. Cette solution centralisée n’a pas que des avantages, et elle présente également de nombreuses difficultés :
Le tiers de confiance présente un point de vulnérabilité important par lequel transitent les données, souvent massives, qui sont utilisées. Dans notre exemple médical, si toutes les données de tous les hôpitaux et de tous les objets connectés étaient regroupées chez un seul tiers de confiance, un piratage de celui-ci serait catastrophique. En 2014 le piratage de l’assurance santé Anthema a par exemple exposé des données 79 millions de patients américains.
Le tiers de confiance ayant à sa disposition une quantité importante d’informations sensibles, il faudrait que tous les acteurs aient confiance en lui. Construire une telle confiance n’est pas évident et peut nécessiter d’avoir recours à des procédures lourdes de contrôle, d’audit et d’un système de gouvernance complexe. En 1974 en France, la création d’une base administrative nationale regroupant de nombreuses données, appelée SAFARI, a par exemple rencontré l’hostilité de la société civile, conduisant à l’interdiction d’une telle centralisation et à la création d’une agence de contrôle: la CNIL.
Le tiers de confiance devrait regrouper énormément de compétences en interne. Le développement de l’IA nécessite des compétences de haut niveau en informatique, mathématiques, et des compétences métier (par exemple médicales). Ce monopole des activités de développement par un seul acteur monolithique pourrait être moins favorable à l’innovation, qui repose souvent sur une multitude d’initiatives lancées à petite échelle, par exemple par des start-ups ou des équipes de recherche académique.
A contrario, il est aussi possible de sécuriser l’analyse de données par la décentralisation. Tim Berners-Lee, l’un des pères du web, développe par exemple Solid, une solution permettant à chaque internaute de garder le contrôle de ses données en évitant leur centralisation par quelques grandes entreprises. La décentralisation ne résout pas tous les problèmes, et de nombreux défis lui sont propres :
Chaque acteur d’un système décentralisé doit être capable de maintenir un système informatique hautement sécurisé, ce qui représente un investissement conséquent en personnel et infrastructures.
Pour pouvoir analyser collaborativement des données décentralisées, il est nécessaire de mettre en place des flux d’informations importants entre les acteurs, flux qui doivent être analysés pour s’assurer qu’ils ne représentent pas une nouvelle vulnérabilité.
Dans un cadre décentralisé il est difficile de fusionner des données venant d’acteurs différents, mais cette opération peut parfois s’avérer nécessaire pour l’analyse.
Conclusion.
Les modèles centralisés et décentralisés ont chacun leurs mérites et leurs inconvénients. Quelle que soit l’option choisie, des risques résiduels devront être traités. Une batterie de nouvelles technologies protectrices de la vie privée sont actuellement développées pour répondre à ces défis, comme par exemple de nouveaux protocoles cryptographiques (homomorphic encryption, multi-party computation), l’ajout de bruit pour dissimuler les informations sensibles (differential privacy) et la technologie de registre distribué (souvent appelée Blockchain) pour assurer la traçabilité dans un cadre décentralisé. Ces techniques doivent être combinées entre elles et avec des techniques plus classiques (chiffrement, contrôles d’accès etc.) pour espérer fournir un cadre sécurisé à l’IA.
L’exploration de ces nouvelles solutions techniques et organisationnelles ne fait que commencer. Il faudra probablement encore de nombreuses années avant que des standards de sécurisation émergent, qui seront construits petit à petit par une riche communauté d’innovateurs, de chercheurs, d’administrations publiques et d’associations.