Challenges de machine learning sur données sensibles

Les challenges de machine learning font partie structurante du paysage de la science des données.

La plateforme, la plus connu, Kaggle (propriété de Google) présente depuis 2010, a une communauté de plus d'un million d'utilisateurs et offre des prize-pool pouvant dépasser les 100 000$.

Ces challenges possèdent un double intérêt, pour les entreprises comme pour les data scientists participants aux challenges.

david-werbrouck-5GwLlb-_UYk-unsplash (1).jpg

Pour les gestionnaires de données…

Ces challenges permettent aux gestionnaires de données (entreprises, centre de recherches, etc.) de bien poser leurs problèmes, de récolter de nouvelles idées et d'estimer quelle est la meilleure performance possible avec les techniques de l'état de l'art.

B2.jpeg

Pour les data scientists…

Pour les data scientists compétiteurs, ces challenges permettent de se former au machine learning, de pouvoir de travailler sur de vraies données et démontrer leurs capacités à développer des algorithmes de machine learning.

B3.jpeg

Les limites aux challenges…

Cependant beaucoup de fournisseurs de données ne peuvent pas mettre à disposition publiquement des données sensibles (données stratégiques, données personnelles, etc.), à moins de les transformer en profondeur (anonymisation, normalisation des valeurs, réduction de dimensionnalité, etc.) ce qui fait perdre l'intérêt de travailler sur des données réelles.

Le framework Substra permet de résoudre ce problème et rend ainsi possible des challenges de machine learning sur des données sensibles

photo-1554904780-9ac4bdfa6a69.jpg

Aucune donnée partagée

Le fournisseur de données héberge un nœud Substra où il dépose ses données. Il est le seul à pouvoir accéder et visualiser les données.

B5.jpg

Une disponibilité offerte

Les data scientists compétiteurs peuvent ensuite développer des algorithmes, puis envoyer ces algorithmes s'entraîner sur le nœud du fournisseur de données.

B6.jpg

Un contrôle de la performance

La traçabilité intrinsèque au framework permet de tracer les performances de tous les algorithmes qui ont été envoyés sur la plateforme.

B7.jpg

Il est temps d’exploiter tous les talents…

Avec Substra, les barrières tombent. Vous pouvez désormais permettre aux meilleurs data scientists, où qu’ils soient, de travailler sur vos données sans jamais avoir à y donner accès.