Comment la blockchain permet une collaboration saine entre hôpitaux et acteurs privés sur les données de santé ?
Cet article a été originellement publié dans le numéro 28 de DSIH, et est inspiré par le projet HealthChain.
L'hôpital possède un nombre colossal de données
Chaque année, des millions de patients se font soigner dans les hôpitaux de France. Les données de ces patients sont naturellement conservées dans chacun des Systèmes d’Information (SI) des hôpitaux et constituent un matériau de base essentiel non seulement pour le soin mais aussi pour la recherche clinique.
L'hôpital regorge de données (données patients et diagnostic associé) dans de nombreux services : des mammographies et leurs diagnostics pour le cancer du sein, des données génomiques et les maladies associées, etc.
Comment exploiter ces données avec l’extérieur ?
Pour faire avancer la recherche et pour innover, il est important de collaborer entre entités ayant des compétences différentes. L’hôpital, et en particulier les CHU, tisse ainsi de nombreux liens avec des acteurs extérieurs : centres de recherche, laboratoires pharmaceutiques, start-up, etc.
Imaginons maintenant qu'une start-up souhaite développer un outil d’intelligence artificielle (IA) sur une pathologie donnée. Le plus simple pour la start-up serait de récupérer toutes les images des services de France concernés et de travailler sur son algorithme d’IA. Mais cette approche « naïve » ne peut être mise en place pour deux raisons principales.
D’une part, les données médicales doivent être transférées dans le respect de la réglementation et selon leur type (données nominatives, données pseudonymisées, etc). Cette obligation induit de nombreuses barrières pour le traitement et le transfert de ces données.
D’autre part, la collecte a nécessité un effort humain et financier très important de l'hôpital sur de nombreuses années. En effet, il s'agit de s'assurer de la qualité des données et du diagnostic, de respecter le même protocole sur plusieurs années et de conserver ces données dans le SI de l'hôpital. Ainsi, le contribuable et les institutions concernées sont bien souvent légitimement réticents à ce qu’un acteur privé puisse tirer profit de cet investissement public.
En filigrane se trouve un problème de confiance entre l’hôpital porteur d’une mission de service public et l’acteur privé à but lucratif. Comment l’hôpital peut-il être sûr que les données récupérées par l’acteur privé ne seront pas détournées de leur finalité ? Dans un monde où la valeur de ces données médicales est encore inconnue et probablement sous-estimée, le partage des données à des entités tierces présente de trop gros risques.
Ces problèmes peuvent être en partie résolus par la mise à disposition d’un accès extérieur (par exemple un accès VPN) aux données de l’hôpital et la signature d’un contrat. Cependant, cette solution ne résout pas tout : elle ne garantit pas qu'un acteur malveillant ne puisse pas utiliser les données sans en informer l’hôpital. Comment l’hôpital peut-il véritablement s’assurer que les données ne seront pas détournées ?
IA sur données immobiles
La solution que nous présentons ici s'applique particulièrement à l'IA, où les algorithmes ont besoin de toujours plus de données pour être performants. La tendance est donc à la centralisation massive des données et implique une perte de contrôle et de traçabilité pour les hôpitaux.
Substra est un outil logiciel open source qui va à l'encontre de cette centralisation. Il permet aux données patients de rester à l'hôpital tout en laissant la possibilité aux algorithmes de se déplacer et ce, sans connection VPN. Seuls les algorithmes sont échangés et accèdent aux données et non pas les acteurs privés eux-mêmes.
Rôle de la blockchain dans Substra : garantir le contrôle des données par l'hôpital
Il est crucial que l'hôpital puisse autoriser explicitement ou non l'acteur extérieur à exploiter ses données et ce, pour une finalité précise. L’utilisation classique d’un VPN sous-entend une relation de confiance entre acteurs, ce qui n’est pas toujours le cas. Sans blockchain, ceci peut être résolu en introduisant un tiers de confiance qui administrera la plateforme, mais cela nécessite un acteur supplémentaire.
Substra utilise une blockchain qui permet de se passer de ce tiers de confiance. En effet, la gestion des permissions d’accès aux données par les algorithmes ainsi que la traçabilité des opérations est confiée non pas à une personne morale ou physique mais à un automate distribué incorruptible : la blockchain.
Contrairement à Bitcoin, cette blockchain est privée: seules les institutions autorisées peuvent s’y connecter. Le type de blockchain utilisé ici s'appelle registre distribué (DLT : Distributed Ledger Technology en anglais). Ce registre est une base de données avec des propriétés particulières. Il est décentralisé : chaque ordinateur du réseau possède son propre registre mais tous les registres sont identiques et toujours synchronisés. L’ajout d’information dans le registre est simultanément enregistré, validé et synchronisé sur le réseau d'ordinateurs.
Il n'y a pas de registre ayant de la priorité par rapport aux autres, pas de notion de registre maître/esclave. Ce système n'a donc besoin ni d'administrateur central ni de base de données centralisée.
Si l'hôpital veut collaborer avec une start-up, il peut indiquer dans le registre distribué qu'il donne la permission à la start-up d'envoyer un algorithme sur ses données. Quand la start-up veut lancer un entraînement d’algorithme sur les données de l’hôpital, elle doit indiquer cette tâche dans le registre, qui est validée ou non, par l’ensemble des parties prenantes conformément aux permissions indiquées dans le registre. Un algorithme illégitime sera donc rejeté immédiatement.
Collaboration entre un acteur extérieur et plusieurs hôpitaux : l'apprentissage fédéré
Imaginons maintenant que deux autres hôpitaux (B et C) ont des données similaires au premier hôpital A et veulent participer au projet de recherche avec la start-up.
L'algorithme doit donc apprendre à la fois sur les données de l'hôpital A, de l'hôpital B et du C. C'est ce qu'on appelle l'apprentissage fédéré.
Les deux nouveaux hôpitaux doivent tout d'abord rejoindre le réseau privé puis donner la permission à la start-up (via le registre distribué) d'entraîner un algorithme sur leurs données, cf. figure ci-dessous :
Sans blockchain, un des acteurs du réseau, vraisemblablement l’acteur privé, aurait dû gérer une base de données maître rassemblant les permissions sur les données des hôpitaux. Il aurait ainsi eu des droits particuliers qui n’ont pas lieu d’être.
Le registre distribué permet d'avoir une traçabilité complète des actions sur le réseau
Le registre distribué est aussi utilisé pour tracer toutes les actions entreprises par les différents acteurs du réseau. Cette traçabilité amène de la transparence : on sait quel acteur a travaillé sur quelles données. Elle permet aussi d'amener de la confiance sur les modèles utilisés pour faire de la prédiction : on sait précisément sur quelle(s) base(s) de données les modèles ont été entrainés et sur quelle(s) base(s) de données ils ont été évalués.
Dans le cas où la startup valorise le modèle créé (vente ou utilisation SaaS par exemple), les hôpitaux dont les données ont servi à l’apprentissage, touchent un pourcentage du revenu généré par la startup. Ce pourcentage peut être négocié auparavant ou être proportionnel à la contribution en données de chacun des hôpitaux. Grâce à la technologie de traçabilité avancée de Substra, il sera même possible de quantifier à quel point un jeu de données a été utile à l’amélioration de la performance d’un algorithme donné. Ainsi la véritable valeur ajoutée des données pour cet algorithme peut être quantifiée.
Vers une valorisation contrôlée des données médicales
Le registre distribué permet d'utiliser les données de santé dans un but de recherche et d’innovation, en garantissant la sécurité des données et la traçabilité. Ces caractéristiques, essentielles à une collaboration saine et transparente, en font un outil de choix dans le domaine de l'exploitation des données de santé. Menée à bien, cette technologie permettra l’émergence d’un réseau d’hôpitaux accessible aux acteurs extérieurs tout en restant sous contrôle étroit des DSI et pourra faire émerger un nouveau mode plus fluide de valorisation des données médicales.