Vers des approches responsable et de confiance de la data science

Data science responsable et de confiance

Les technologies d’IA requièrent des volumes de données importants pour atteindre de bons niveaux de performance, ce qui soulève des questionnements légitimes sur les risques de fuite de données sensibles. La manière dont les algorithmes sont entraînés et validés, ainsi que leurs niveaux de performance et leurs robustesses, sont également une source de préoccupation croissante pour de nombreux acteurs. Aujourd’hui, il est difficile d’avoir confiance dans l’IA.

Dans le même temps, le machine learning poursuit son expansion dans la recherche, les processus métiers, les produits et services, ou le marketing dans de nombreux secteurs. En tant qu’approches techniques ou déjà comme outils spécialisés, la data science est au cœur d’une quantité innombrable de projets qui visent à découvrir de nouvelles choses, optimiser l’existant ou ouvrir des possibilités innovantes. Le potential de l’IA est immense.

Les deux tendances décrites ci-dessus ne vont pas ralentir dans les années qui viennent. Nous pensons que les deux sont nécessaires, et qu’elles doivent être réconciliées, conjuguées ensemble. Des solutions techniques et organisationnelles nouvelles sont indispensables pour cela, pour créer la confiance qui manque encore, pour rendre possible des collaborations à grande échelle entre les entreprises, les institutions publiques et les citoyens. En un mot, il faut inventer l’IA de confiance ‘by-design’.

Aujourd’hui, il est difficile d’avoir confiance dans l’IA

Le potentiel de l’IA est IMMENSE

Il faut inventer l’IA de confiance BY-DESIGN

Nous sommes une organisation à but non lucratif indépendante, dédiée au développement d’écosystèmes de data science de confiance (Plus d’infos).

Approche et concepts clés de Substra

Différentes technologies de protection de la confidentialité (privacy-enhancing technologies) font l’objet de recherches et sont développées par la communauté ‘privacy’. Elles constituent une palette d’options pour renforcer la confidentialité des jeux de données et des modèles dans les projets de data science, et deviennent de plus en plus critiques.

Le framework Substra permet d’orchestrer des tâches de machine learning entre plusieurs partenaires, de manière sécurisée, traçable et distribuée. Il vient outiller les projets collaboratifs de data science. Il vise à être compatible avec un maximum de privacy-enhancing technologies afin de compléter leur usage et permettre la création de workflows de data science efficace, transparent, protecteur de la confidentialité des données. Son ambition est de permettre l’émergence de nouvelles collaborations scientifiques et industrielles en data science.

Données immobiles

Les jeux de données sont immobiles et restent dans les infrastructures des organisations qui les gèrent. Les algorithmes circulent sur le réseau sécurisé.

Confiance décentralisée

Toutes les tâches de ML sont orchestrées par un registre distribué (DLT). Il devient possible de se passer d'un tiers de confiance, la sécurité est construite au coeur de l'application décentralisée.

Traçabilité

Les traces des opérations effectuées sont enregistrées de manière immuable et incorruptible dans le registre distribué, permettant par exemple la certification de modèles.

Modularité

Différents régimes de permissions peuvent être configurés sur les objets (e.g. algorithmes, jeux de données...) afin de modéliser différents cas d'usage et les workflows de data science correspondants.

Projets collaboratifs de recherche (en cours)

IA sur données cliniques
Le consortium HealthChain rassemble des hôpitaux, des laboratoires de recherche, de jeunes entreprises innovantes et Substra Foundation dans l’objectif d’élaborer des modèles d’IA sur des données cliniques. L’entraînement et la validation de ces modèles sont réalisés grâce au framework Substra, afin de sécuriser l’exécution distante et distribuée des apprentissages machine sur les données de santé. Ce projet est une première preuve de concept du framework Substra et vise également à établir sa conformité au RGPD.

(9 partenaires, financement 10m€, juin 2018 - mai 2021)
Plus d'infos

Recherche pharmaceutique
Le projet Melloddy vise à développer une plateforme pour créer des modèles plus performants de prédiction du potentiel de composés chimiques dans le domaine de la recherche pharmaceutique. Il démontre un nouveau modèle de collaboration entre des industriels concurrents dans le domaine de la recherche pharmaceutique, et implique un volume de données de recherches sans précédent. La plateforme développée répond aux besoins exigeants de sécurité et de préservation de la confidentialité entre les industriels, tout en permettant un apprentissage collaboratif distribué à même d’améliorer la performance prédictive générale.

(17 partenaires, financement 18m€, juin 2019 - mai 2022)
Plus d'infos