Challenges de machine learning sur données sensibles

Les challenges de machine learning font partie structurante du paysage de la science des données.

La plateforme, la plus connu, Kaggle (propriété de Google) présente depuis 2010, a une communauté de plus d'un million d'utilisateurs et offre des prize-pool pouvant dépasser les 100 000$.

Ces challenges possèdent un double intérêt, pour les entreprises comme pour les data scientists participants aux challenges.

david-werbrouck-5GwLlb-_UYk-unsplash (1).jpg

Pour les gestionnaires de données…

Ces challenges permettent aux gestionnaires de données (entreprises, centre de recherches, etc.) de bien poser leurs problèmes, de récolter de nouvelles idées et d'estimer quelle est la meilleure performance possible avec les techniques de l'état de l'art.

Pour les data scientists…

Pour les data scientists compétiteurs, ces challenges permettent de se former au machine learning, de pouvoir de travailler sur de vraies données et démontrer leurs capacités à développer des algorithmes de machine learning.

Les limites aux challenges…

Cependant beaucoup de fournisseurs de données ne peuvent pas mettre à disposition publiquement des données sensibles (données stratégiques, données personnelles, etc.), à moins de les transformer en profondeur (anonymisation, normalisation des valeurs, réduction de dimensionnalité, etc.) ce qui fait perdre l'intérêt de travailler sur des données **réelles**.

Le framework Substra permet de résoudre ce problème et rend ainsi possible des challenges de machine learning sur des données sensibles

Aucune donnée partagée

Le fournisseur de données héberge un nœud Substra où il dépose ses données. Il est le seul à pouvoir accéder et visualiser les données.

Une disponibilité offerte

Les data scientists compétiteurs peuvent ensuite développer des algorithmes, puis envoyer ces algorithmes s'entraîner sur le nœud du fournisseur de données.