Challenges de machine learning sur données sensibles
Les challenges de machine learning font partie structurante du paysage de la science des données.
La plateforme, la plus connu, Kaggle (propriété de Google) présente depuis 2010, a une communauté de plus d'un million d'utilisateurs et offre des prize-pool pouvant dépasser les 100 000$.
Ces challenges possèdent un double intérêt, pour les entreprises comme pour les data scientists participants aux challenges.
Pour les gestionnaires de données…
Ces challenges permettent aux gestionnaires de données (entreprises, centre de recherches, etc.) de bien poser leurs problèmes, de récolter de nouvelles idées et d'estimer quelle est la meilleure performance possible avec les techniques de l'état de l'art.
Pour les data scientists…
Pour les data scientists compétiteurs, ces challenges permettent de se former au machine learning, de pouvoir de travailler sur de vraies données et démontrer leurs capacités à développer des algorithmes de machine learning.
Le framework Substra permet de résoudre ce problème et rend ainsi possible des challenges de machine learning sur des données sensibles
Aucune donnée partagée
Le fournisseur de données héberge un nœud Substra où il dépose ses données. Il est le seul à pouvoir accéder et visualiser les données.
Une disponibilité offerte
Les data scientists compétiteurs peuvent ensuite développer des algorithmes, puis envoyer ces algorithmes s'entraîner sur le nœud du fournisseur de données.
Un contrôle de la performance
La traçabilité intrinsèque au framework permet de tracer les performances de tous les algorithmes qui ont été envoyés sur la plateforme.