IA et données sensibles : une problématique de confiance
Donner accès à des données requiert un haut niveau de confiance
Aujourd'hui, partout dans le monde, quand un chercheur ou un data scientist veut utiliser un algorithme d'apprentissage machine pour créer un modèle de prédiction, il commence généralement par regrouper des données ou obtenir l'accès à un ensemble déjà constitué. Ensuite il observe ces données, consulte quelques statistiques descriptives, les manipule, etc. Un problème de confiance se pose alors : à partir du moment où on accède à des données, les seules protections qui subsistent contre une utilisation illégitime de ces données sont l'éthique et le droit - éthique du data scientist, droit des contrats ou accords qui encadrent l’utilisation des données. L’éthique et le droit, c’est-à-dire la confiance, qui est au cœur des travaux collaboratifs. Mais la confiance est-elle toujours suffisante ?
Le développement de l’IA ouvre d’immenses perspectives de progrès...
Tout d’abord, ça n'est plus un secret pour personne, les techniques d'intelligence artificielle sont en plein essor et permettent d'automatiser des analyses de données avec un niveau de performance de plus en plus élevé, jusqu'à dépasser parfois les capacités humaines sur certaines tâches précises ou les augmenter par des outils d'aide à la décision. Ces progrès ouvrent des perspectives immenses dans les domaines manipulant de grandes masses de données (e.g. diagnostics médicaux, prévisions de pannes sur des équipements, traductions de textes ou d'enregistrements audios, génération de designs…). Par exemple, dans la santé pour la première fois en 2018 la FDA a homologué des dispositifs médicaux basés sur des modèles prédictifs (exemples : Aidoc, acute intracranial hemorrhage, Imagen OsteoDetect, wrist fractures, IDx, diabetic retinopathy), ce qui marque le franchissement d’un cap très significatif.
… mais les données et les savoir-faire ne peuvent pas toujours se rencontrer !
Or toutes les organisations (selon leur place dans la chaîne de valeur de leur industrie, leur taille, etc.) ne sont pas en mesure seules de concevoir les algorithmes, de rassembler les données nécessaires, et d'entraîner les modèles prédictifs qui leur permettraient d'améliorer la qualité de leurs services, d'en réduire les coûts et les délais de production, d'innover pour leurs utilisateurs… Elles ont besoin de prestataires, de partenaires, d’outils. Des milliers d’entreprises spécialisées développent ainsi des logiciels d'IA ou des offres d’accompagnement pour tous les secteurs d'activité. On assiste à une véritable ruée vers l'or, sur toutes les couches de la chaîne de valeur, des processeurs aux applications métiers !
Mais les collaborations sur des sujets d’IA avec des acteurs spécialisés ne vont pas toujours de soi. Dans les domaines où les données manipulées sont des données très sensibles (par exemple : données médicales, photos de visages de certaines populations, données représentant l'actif stratégique d'une entreprise, données souveraines…) un problème se pose : comment entraîner des algorithmes d'IA sans donner accès à ces données très sensibles ? Les détenteurs des données (hôpitaux, administrations, entreprises…) ne peuvent pas confier celles-ci à un tiers sans créer un risque d'utilisation illégitime, volontaire ou involontaire. En pratique, il s’agit d’un risque de fuites, vols, expositions de données, générateurs de préjudices immenses pour les organisations responsables des données en question et pour les personnes concernées par ces données.
Comment faciliter les collaborations de data science sur des données sensibles ?
Pour revenir à notre question en introduction, bien souvent, dans le cas de figure de données très sensibles, la confiance entre organisations est donc bien sûr nécessaire, mais loin d’être suffisante, et l'organisation qui dispose de ces données sensibles ne les confie pas pour des projets de recherche ou de data science. De nombreux projets, de nombreuses recherches, de nombreuses découvertes potentielles ne voient donc pas le jour - on pourrait oser l’expression d’un “manque-à-savoir”.
Donc la question que nous posons est la suivante : comment faire pour que des organisations puissent, de manière plus systématique, engager des collaborations sur des données sensibles ? Pour cela, comment faire pour rendre la data science responsable et “de confiance” ?
L’enjeu c’est plus de projets, plus de découvertes et de connaissances, plus de services élaborés à partir de ces données qui constituent une matière première extraordinaire. Pour nous cet enjeu ne peut être abordé que :
de manière protectrice de la confidentialité des données : il faut notamment trouver le moyen de rendre les données à la fois disponibles et privées à la fois. Disponibles à l’échelle agrégée pour nourrir des analyses et entraîner des modèles, et privées à l’échelle de la donnée individuelle, granulaire, dans tous les cas où il s’agit de données personnelles ou confidentielles ;
et en garantissant la traçabilité des opérations de machine learning réalisées pour élaborer le modèle (transferts des algorithmes, apprentissage machine, évaluation des modèles, etc.). En créant ainsi une sorte de “généalogie” des modèles prédictifs, cela permettrait d’envisager des méthodes d’audit, de certification des modèles, de mesure des contributions respectives de différents datasets à la performance d’un modèle...
Substra Foundation est née pour explorer ces questions
Tenter de répondre à ces questions, c’est la raison d’être de Substra Foundation. Elle y contribue dans les projets de recherche HealthChain et Melloddy auxquels elle participe, en animant l’initiative open source Substra, et en prenant part aux travaux de la communauté “data science de confiance” qui émerge. Nous reviendrons dans les prochains articles sur tous ces sujets que nous n’avons que survolés ici ! D’ici là n’hésitez pas à nous faire parvenir vos remarques, questions ou idées, elles nous sont très précieuses.