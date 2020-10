Microsoft a développé un nouvel algorithme de sous-titrage d’images qui dépasse la précision humaine dans certains tests limités. Le système d’IA a été utilisé pour mettre à jour l’application d’assistant de l’entreprise pour les malvoyants, Seeing AI, et sera bientôt intégré à d’autres produits Microsoft tels que Word, Outlook et PowerPoint. Là, il sera utilisé pour des tâches telles que la création de texte alternatif pour les images – une fonction particulièrement importante pour augmenter l’accessibilité.

«Idéalement, tout le monde inclurait du texte alternatif pour toutes les images dans les documents, sur le Web, dans les médias sociaux – car cela permet aux personnes aveugles d’accéder au contenu et de participer à la conversation», a déclaré Saqib Shaikh, responsable de l’ingénierie logicielle chez Microsoft. L’équipe AI dans un communiqué de presse. «Mais, hélas, les gens ne le font pas. Il existe donc plusieurs applications qui utilisent le sous-titrage des images pour remplir le texte alternatif lorsqu’il est manquant. »

Le nouvel algorithme est deux fois plus performant que son prédécesseur dit Microsoft

Ces applications incluent Seeing AI de Microsoft, que la société a lancée pour la première fois en 2017. Seeing AI utilise la vision par ordinateur pour décrire le monde vu à travers une caméra de smartphone pour les malvoyants. Il peut identifier les articles ménagers, lire et scanner du texte, décrire des scènes et même identifier des amis. Il peut également être utilisé pour décrire des images dans d’autres applications, y compris des clients de messagerie, des applications de médias sociaux et des applications de messagerie comme WhatsApp.

Microsoft ne divulgue pas les numéros d’utilisateurs de Seeing AI, mais Eric Boyd, vice-président d’entreprise d’Azure AI, a déclaré à The Verge que le logiciel était «l’une des principales applications pour les personnes aveugles ou malvoyantes». Seeing AI a été élue meilleure application ou meilleure application d’assistance trois années de suite par AppleVis, une communauté d’utilisateurs iOS aveugles et malvoyants.

Le nouvel algorithme de sous-titrage d’images de Microsoft améliorera considérablement les performances de Seeing AI, car il est capable non seulement d’identifier les objets, mais également de décrire plus précisément la relation entre eux. Ainsi, l’algorithme peut regarder une image et non seulement dire quels éléments et objets elle contient (par exemple, «une personne, une chaise, un accordéon») mais comment ils interagissent (par exemple, «une personne est assise sur une chaise et jouer de l’accordéon »). Microsoft affirme que l’algorithme est deux fois plus performant que son précédent système de sous-titrage d’images, utilisé depuis 2015.

L’algorithme, qui a été décrit dans un article de pré-impression publié en septembre, a obtenu les scores les plus élevés jamais obtenus sur un référentiel de sous-titrage d’images connu sous le nom de «nocaps». Il s’agit d’un tableau de bord leader du secteur pour le sous-titrage d’images, bien qu’il ait ses propres contraintes.

Le benchmark nocaps se compose de plus de 166 000 légendes générées par l’homme décrivant quelque 15 100 images tirées du jeu de données Open Images. Ces images couvrent une gamme de scénarios, des sports aux photos de vacances en passant par la photographie culinaire et plus encore. (Vous pouvez vous faire une idée du mélange d’images et de légendes en explorant le jeu de données nocaps ici ou en regardant la galerie ci-dessous.) Les algorithmes sont testés sur leur capacité à créer des légendes pour ces images qui correspondent à celles des humains.

Il est important de noter, cependant, que les benchmarks nocaps ne capturent qu’une infime partie de la complexité du sous-titrage d’images en tant que tâche générale. Bien que Microsoft affirme dans un communiqué de presse que son nouvel algorithme «décrit les images aussi bien que les gens», cela n’est vrai que dans la mesure où il s’applique à un très petit sous-ensemble d’images contenues dans nocaps.

“Le dépassement des performances humaines sur les nocaps ne signifie pas que le sous-titrage des images est un problème résolu”

Comme Harsh Agrawal, l’un des créateurs de l’indice de référence, a déclaré à The Verge par courrier électronique: «Le dépassement des performances humaines sur les nocaps n’est pas un indicateur que le sous-titrage d’images est un problème résolu.» Argawal a noté que les métriques utilisées pour évaluer les performances sur les nocaps «ne sont que grossièrement en corrélation avec les préférences humaines» et que le benchmark lui-même «ne couvre qu’un petit pourcentage de tous les concepts visuels possibles».

«Comme pour la plupart des benchmarks, [the] Le benchmark nocaps n’est qu’un indicateur approximatif de la performance des modèles sur la tâche », a déclaré Argawal. «Le dépassement des performances humaines sur les nocaps n’indique en aucun cas que les systèmes d’IA surpassent les humains en termes de compréhension d’image.»

Ce problème – en supposant que les performances sur un benchmark spécifique peuvent être extrapolées en tant que performances sur la tâche sous-jacente plus généralement – est un problème courant lorsqu’il s’agit d’exagérer la capacité de l’IA. En effet, Microsoft a été critiqué par des chercheurs dans le passé pour avoir fait des déclarations similaires sur la capacité de ses algorithmes à comprendre le mot écrit.

Néanmoins, le sous-titrage d’images est une tâche qui a connu d’énormes améliorations ces dernières années grâce à l’intelligence artificielle, et les algorithmes de Microsoft sont certainement à la pointe de la technologie. En plus d’être intégrée à Word, Outlook et PowerPoint, l’IA de sous-titrage d’images sera également disponible en tant que modèle autonome via la plate-forme cloud et AI Azure de Microsoft.