Comment l'évaluation a-t-elle été élaborée ?

  • Elle est le fruit d'un travail participatif initié mi-2019 et mené par l'association Labelia Labs (ex Substra Foundation). Cette démarche est décrite dans cet article de blog que nous vous recommendons !

    Reprenons tout de même ici quelques éléments de contexte décrits dans l'article. Tout d'abord, notre constat est que l'on observe une tension grandissante, entre d’un côté le potentiel et l’intérêt des techniques d’IA, et de l’autre la difficulté à faire confiance à ces techniques ou à leurs mises en oeuvres (que ce soit par des acteurs privés comme Apple avec l'Apple Card, Tesla dans cet exemple étonnant, ou par des acteurs publics comme les Etats, cf. COMPAS sur les libérations conditionnelles aux USA, les controverses chaque année sur Parcoursup en France, les allocations chômage aux Pays-Bas, et bien d’autres). Et dans ce contexte, il devient de plus en plus délicat pour une organisation de mettre en œuvre des approches de data science dans ses produits et services et de l’assumer publiquement.

    Evidemment cette tension ne date pas d’hier, certains risques sont bien réels, et il nous semble que règne une forme de consensus général sur le fait qu’il faille faire émerger des cadres structurants et rassurants. Il suffit de taper IA et éthique ou “IA responsable dans un moteur de recherche pour voir le foisonnement d’initiatives dans ce domaine, et on trouve donc beaucoup de choses en la matière. Cependant, beaucoup sont des listes de principes cardinaux, et n’offrent pas d’accroche concrète, opérationnelle. Comment se positionner ? Comment évaluer son organisation ? Sur quoi travailler pour se mettre en conformité avec ces principes ?

    C'est à partir de cette réflexion que nous avons souhaité élaborer un outil qui soit à destination des praticiens, utile et actionnable dès que possible. Essayez et dites-nous ce que vous en pensez !

À qui s'adresse cette évaluation ?

  • L'outil d'auto-évaluation a été élaboré pour convenir (et, on l'espère, apporter quelque chose !) à toutes les organisations (entreprises, laboratoires universitaires, start-ups, consultants spécialisés…) ayant des activités de data science, IA, ML, etc. Un data scientist, un responsable d'équipe, ou un directeur technique par exemple peuvent compléter l'évaluation. L'outil permet d'ailleurs de s'y atteler à plusieurs utilisateurs pour une même organisation, pour se répartir les sujets par exemple.

Comment est structurée l'évaluation ?

  • Elle est composée de 6 sections thématiques. Nous avons choisi de ne pas reprendre ici les 7 thèmes du rapport du high-level expert group de l'UE ou de son outil ALTAI, mais de leur préférer un découpage que nous espérons plus pragmatique, visant à se rapprocher du cycle de vie d'un projet de data science. À voir à l'usage !

L'évaluation est-elle figée ou allez-vous la faire évoluer avec le temps ?

  • Oui elle va continuer à évoluer. Dès le début de ce projet il était clair que ce serait une démarche itérative, car il paraissait inimaginable de travailler pendant une période, publier ce travail et passer à autre chose. Le domaine évolue vite, les perspectives sont multiples (grande entreprise, organisation publique, petite start-up, consultants spécialisés, régulateurs…), il allait falloir démarrer quelque part et améliorer au fil du temps. Maintenant que la plateforme est en ligne, il ne s'agit cependant pas d'apporter des évolutions toutes les semaines, sans quoi les évaluations en cours ou juste terminées seront sans cesse obsolètes. On se fixe donc une constante de temps de l'ordre du trimestre ou du semestre. Pour accompagner ces mises à jour et en faire quelque chose de positif pour les utilisateurs et les organisations s'étant déjà évalués, la plateforme comprend une fonctionnalité de migration. Cela consiste à migrer une évaluation donnée vers la version plus récente du référentiel d'évaluation : toutes les réponses à des éléments inchangés seront conservés.

 
 

Score

Le score synthétique est sur un total de 100 points maximum théoriques pour l'ensemble de l'évaluation. Il offre une indication sur le niveau de maturité de l'organisation quant à une approche responsable et de confiance de la data science. À fin 2020, le seuil de 50/100 peut être considéré comme un niveau de maturité très avancé.

Le mécanisme de calcul du score est relativement simple :

  • avec chaque version de l'évaluation nous définissons un nombre de points pour chaque item de réponse de chaque élément d'évaluation, ainsi qu'une pondération dite pondération d'importance calibrée pour assurer que le total maximal théorique est bien 100 exactement.

  • pour les éléments à réponse unique, le nombre de point de l'item sélectionné est retenu, alors que pour les éléments à réponses multiples, les nombres de points de tous les items sélectionnés sont sommés.

  • le score total obtenu est la somme des nombres de points de chaque élément, pondérée par la pondération d'importance.

Il y a toutefois une subtilité dans les cas de figure où l'on est non concerné par certains éléments d'évaluation et par les univers de risques leurs correspondant. En effet, il serait illogique de priver l'organisation qui n'est pas concernée par un risque d'un certain nombre de points que les autres organisations concernées par ce risque peuvent obtenir. Mais de même, il serait illogique d'obtenir immédiatement tous les points possibles, au risque sinon d'avoir automatiquement un score très élevé dès lors que l'on ne fait en fait pas grand chose. Le mécanisme pour traiter ce point est le suivant :

  • Lorsque l'on est non concerné par un élément d'évaluation, on se voit attribuer automatiquement la moitié du nombre de points maximal de l'élément. L'autre moitié vient abonder une variable temporaire, le nombre de points qui ne peuvent pas être obtenus.

  • Une fois que tous les éléments d'évaluation par lesquels on n'est pas concerné ont été traités, on calcule un score intermédiaire en sommant les points pour chaque élément. Ce score intermédiaire n'est donc pas sur 100, mais sur un maximum intermédiaire = (100 - le nombre de points qui ne peuvent pas être obtenus).

  • Ce score intermédiaire est ensuite dilaté pour être ramené sur 100 ; dilaté d'un facteur (100 / maximum intermédiaire).

  • Ce mécanisme est un compromis visant à assurer : (i) que le fait de ne pas être concerné par certains risques est pris en compte ; (ii) que le score de n'importe quelle évaluation est toujours sur 100.

Enfin, voici quelques compléments d'information sous forme de réponses à des questions souvent posées :

  • Pourquoi ne voit-on pas durant l'évaluation la valeur de chaque élément de réponse ? En étudiant plusieurs systèmes d'évaluation de pratiques professionnelles dans différents secteurs, il nous est apparu que c'était une bonne pratique de ne pas montrer ces valeurs pendant une évaluation. Notre objectif est de donner la priorité au contenu et de limiter le risque de pertubation ou d'influence de l'utilisateur en montrant des éléments chiffrés qui pourraient le conduire à chercher à optimiser ses réponses.