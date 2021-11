Selon une nouvelle analyse, les ensembles de données d’images de peau publiques qui sont utilisés pour former des algorithmes pour détecter les problèmes de peau n’incluent pas suffisamment d’informations sur le teint de la peau. Et dans les ensembles de données où les informations sur le teint de la peau sont disponibles, seul un très petit nombre d’images sont de peau plus foncée. Les algorithmes construits à l’aide de ces ensembles de données peuvent donc ne pas être aussi précis pour les personnes qui ne sont pas blanches.

L’étude, publiée aujourd’hui dans The Lancet Digital Health, a examiné 21 ensembles de données librement accessibles d’images d’affections cutanées. Ensemble, ils contenaient plus de 100 000 images. Un peu plus de 1 400 de ces images contenaient des informations sur l’origine ethnique du patient, et seulement 2 236 contenaient des informations sur la couleur de la peau. Ce manque de données limite la capacité des chercheurs à repérer les biais dans les algorithmes formés sur les images. Et de tels algorithmes pourraient très bien être biaisés : parmi les images contenant des informations sur le teint de la peau, seules 11 provenaient de patients appartenant aux deux catégories les plus sombres de l’échelle de Fitzpatrick, qui classe la couleur de la peau. Il n’y avait pas d’images de patients d’origine africaine, afro-caribéenne ou sud-asiatique.

Les conclusions sont similaires à celles d’une étude publiée en septembre, qui a également révélé que la plupart des ensembles de données utilisés pour la formation les algorithmes de dermatologie n’ont pas d’informations sur l’origine ethnique ou le teint de la peau. Cette étude a examiné les données sous-jacentes à 70 études qui ont développé ou testé des algorithmes et a constaté que seulement sept décrivaient les types de peau dans les images utilisées.

« Ce que nous voyons dans le petit nombre d’articles qui rendent compte de la distribution des tons de peau, c’est que ceux-ci montrent une sous-représentation des tons de peau plus foncés », explique Roxana Daneshjou, chercheuse clinique en dermatologie à l’Université de Stanford et auteur de l’article de septembre. Son article a analysé bon nombre des mêmes ensembles de données que la nouvelle recherche du Lancet et est parvenu à des conclusions similaires.

Lorsque les images d’un ensemble de données sont accessibles au public, les chercheurs peuvent passer en revue et examiner les tons de peau qui semblent être présents. Mais cela peut être difficile, car les photos peuvent ne pas correspondre exactement à ce à quoi ressemble le teint de la peau dans la vie réelle. « La situation la plus idéale est que le teint de la peau soit noté au moment de la visite clinique », explique Daneshjou. Ensuite, l’image du problème de peau de ce patient pourrait être étiquetée avant d’être introduite dans une base de données.

Sans étiquettes sur les images, les chercheurs ne peuvent pas vérifier les algorithmes pour voir s’ils sont construits à l’aide d’ensembles de données avec suffisamment d’exemples de personnes ayant différents types de peau.

Il est important d’examiner ces ensembles d’images, car ils sont souvent utilisés pour créer des algorithmes qui aident les médecins à diagnostiquer les patients atteints d’affections cutanées, dont certaines – comme les cancers de la peau – sont plus dangereuses s’ils ne sont pas détectés tôt. Si les algorithmes n’ont été entraînés ou testés que sur une peau claire, ils ne seront pas aussi précis pour tout le monde. « La recherche a montré que les programmes formés sur des images prises uniquement sur des personnes ayant un type de peau plus claire pourraient ne pas être aussi précis pour les personnes ayant une peau plus foncée, et vice versa », déclare David Wen, co-auteur du nouvel article et chercheur au Université d’Oxford.

De nouvelles images peuvent toujours être ajoutées aux ensembles de données publics, et les chercheurs souhaitent voir plus d’exemples de conditions sur une peau plus foncée. Et l’amélioration de la transparence et de la clarté des ensembles de données aidera les chercheurs à suivre les progrès vers des ensembles d’images plus diversifiés qui pourraient conduire à des outils d’IA plus équitables. « J’aimerais voir plus de données ouvertes et plus de données bien étiquetées », déclare Daneshjou.