Challenges de machine learning sur données sensibles
Les challenges de machine learning font partie structurante du paysage de la science des données.
La plateforme, la plus connu, Kaggle (propriété de Google) présente depuis 2010, a une communauté de plus d'un million d'utilisateurs et offre des prize-pool pouvant dépasser les 100 000$.
Ces challenges possèdent un double intérêt, pour les entreprises comme pour les data scientists participants aux challenges.
Pour les gestionnaires de données…
Ces challenges permettent aux gestionnaires de données (entreprises, centre de recherches, etc.) de bien poser leurs problèmes, de récolter de nouvelles idées et d'estimer quelle est la meilleure performance possible avec les techniques de l'état de l'art.
Pour les data scientists…
Pour les data scientists compétiteurs, ces challenges permettent de se former au machine learning, de pouvoir de travailler sur de vraies données et démontrer leurs capacités à développer des algorithmes de machine learning.
Les limites aux challenges…
Cependant beaucoup de fournisseurs de données ne peuvent pas mettre à disposition publiquement des données sensibles (données stratégiques, données personnelles, etc.), à moins de les transformer en profondeur (anonymisation, normalisation des valeurs, réduction de dimensionnalité, etc.) ce qui fait perdre l'intérêt de travailler sur des données réelles.
Le framework Substra permet de résoudre ce problème et rend ainsi possible des challenges de machine learning sur des données sensibles
Aucune donnée partagée
Le fournisseur de données héberge un nœud Substra où il dépose ses données. Il est le seul à pouvoir accéder et visualiser les données.
Une disponibilité offerte
Les data scientists compétiteurs peuvent ensuite développer des algorithmes, puis envoyer ces algorithmes s'entraîner sur le nœud du fournisseur de données.
Un contrôle de la performance
La traçabilité intrinsèque au framework permet de tracer les performances de tous les algorithmes qui ont été envoyés sur la plateforme.
Il est temps d’exploiter tous les talents…
Avec Substra, les barrières tombent. Vous pouvez désormais permettre aux meilleurs data scientists, où qu’ils soient, de travailler sur vos données sans jamais avoir à y donner accès.