Facebook recherche des systèmes d’IA qui voient, entendent et se souviennent de tout ce que vous faites

Facebook consacre beaucoup de temps et d’argent à la réalité augmentée, notamment en construisant ses propres lunettes AR avec Ray-Ban. À l’heure actuelle, ces gadgets ne peuvent enregistrer et partager que des images, mais à quoi la société pense-t-elle que ces appareils seront utilisés à l’avenir ?

Un nouveau projet de recherche mené par l’équipe d’IA de Facebook suggère l’ampleur des ambitions de l’entreprise. Il imagine des systèmes d’IA qui analysent constamment la vie des gens en utilisant la vidéo à la première personne ; enregistrer ce qu’ils voient, font et entendent afin de les aider dans leurs tâches quotidiennes. Les chercheurs de Facebook ont ​​décrit une série de compétences qu’il souhaite que ces systèmes développent, notamment la « mémoire épisodique » (répondre à des questions telles que « où ai-je laissé mes clés ? ») et la « diarisation audiovisuelle » (se souvenir de qui a dit quoi quand).

« il est possible que nous exploitions ce type de recherche en cours de route »

À l’heure actuelle, les tâches décrites ci-dessus ne peuvent être réalisées de manière fiable par aucun système d’IA, et Facebook souligne qu’il s’agit d’un projet de recherche plutôt que d’un développement commercial. Cependant, il est clair que l’entreprise considère de telles fonctionnalités comme l’avenir de l’informatique en RA. « Certainement, en pensant à la réalité augmentée et à ce que nous aimerions pouvoir en faire, il est possible que nous tirions parti de ce type de recherche », a déclaré Kristen Grauman, chercheuse sur Facebook AI, à The Verge.

De telles ambitions ont d’énormes implications en matière de confidentialité. Les experts en confidentialité s’inquiètent déjà de la façon dont les lunettes AR de Facebook permettent aux utilisateurs d’enregistrer secrètement des membres du public. De telles préoccupations ne seront exacerbées que si les futures versions du matériel enregistrent non seulement des images, mais les analysent et les transcrivent, transformant les utilisateurs en machines de surveillance ambulantes.

La première paire de lunettes AR commerciales de Facebook ne peut qu’enregistrer et partager des vidéos et des images, pas les analyser. Photo par Amanda Lopez pour The Verge

Le nom du projet de recherche de Facebook est Ego4D, qui fait référence à l’analyse de la vidéo à la première personne, ou « égocentrique ». Il se compose de deux composants principaux : un ensemble de données ouvert de vidéo égocentrique et une série de points de repère auxquels Facebook pense que les systèmes d’IA devraient être en mesure de s’attaquer à l’avenir.

Facebook a aidé à collecter 3 205 heures de séquences à la première personne du monde entier

L’ensemble de données est le plus grand du genre jamais créé, et Facebook s’est associé à 13 universités du monde entier pour collecter les données. Au total, quelque 3 205 heures de séquences ont été enregistrées par 855 participants vivant dans neuf pays différents. Les universités, plutôt que Facebook, étaient responsables de la collecte des données. Les participants, dont certains étaient rémunérés, portaient des caméras GoPro et des lunettes AR pour enregistrer des vidéos d’activités non scénarisées. Cela va des travaux de construction à la pâtisserie en passant par les jeux avec des animaux de compagnie et la socialisation avec des amis. Toutes les images ont été dépersonnalisées par les universités, ce qui comprenait le floutage des visages des passants et la suppression de toute information personnellement identifiable.

Grauman dit que l’ensemble de données est le « premier du genre en termes d’échelle et de diversité ». Le projet comparable le plus proche, dit-elle, contient 100 heures de séquences à la première personne entièrement tournées dans des cuisines. « Nous avons ouvert les yeux de ces systèmes d’IA sur bien plus que des cuisines au Royaume-Uni et en Sicile, mais [to footage from] Arabie saoudite, Tokyo, Los Angeles et Colombie.

Le deuxième composant d’Ego4D est une série de points de repère, ou de tâches, que Facebook souhaite que les chercheurs du monde entier essaient de résoudre à l’aide de systèmes d’IA formés sur son ensemble de données. La société les décrit comme :

Mémoire épisodique: Que s’est-il passé quand (par exemple, « Où ai-je laissé mes clés ? ») ?

Prévision: Que suis-je susceptible de faire ensuite (par exemple, « Attendez, vous avez déjà ajouté du sel à cette recette ») ?

Manipulation des mains et des objets: Qu’est-ce que je fais (par exemple, « Apprends-moi à jouer de la batterie ») ?

Journalisation audiovisuelle: Qui a dit quoi quand (par exemple, « Quel était le sujet principal pendant le cours ? ») ?

Interaction sociale: Qui interagit avec qui (par exemple, « Aidez-moi à mieux entendre la personne qui me parle dans ce restaurant bruyant » ?) ?

À l’heure actuelle, les systèmes d’IA trouveraient incroyablement difficile de résoudre l’un de ces problèmes, mais la création d’ensembles de données et de références sont des méthodes éprouvées pour stimuler le développement dans le domaine de l’IA.

En effet, la création d’un ensemble de données particulier et d’un concours annuel associé, connu sous le nom d’ImageNet, est souvent crédité du démarrage du récent boom de l’IA. Les ensembles de données ImagetNet se composent d’images d’une grande variété d’objets que les chercheurs ont entraîné des systèmes d’IA à identifier. En 2012, l’entrée gagnante du concours a utilisé une méthode particulière d’apprentissage en profondeur pour faire exploser ses rivaux, inaugurant l’ère actuelle de la recherche.

L’ensemble de données Ego4D de Facebook devrait aider à stimuler la recherche sur les systèmes d’IA capables d’analyser les données à la première personne. Image : Facebook

Facebook espère que son projet Ego4D aura des effets similaires pour le monde de la réalité augmentée. La société affirme que les systèmes formés sur Ego4D pourraient un jour être utilisés non seulement dans des caméras portables, mais également dans des robots assistants à domicile, qui s’appuient également sur des caméras à la première personne pour naviguer dans le monde qui les entoure.

«Le projet a la chance de vraiment catalyser les travaux dans ce domaine d’une manière qui n’a pas encore été vraiment possible», explique Grauman. « Pour faire passer notre domaine de la capacité d’analyser des piles de photos et de vidéos prises par des humains dans un but très spécial, à ce flux visuel fluide et continu à la première personne que les systèmes AR, les robots, doivent comprendre dans le contexte de activité. »

Le développement de systèmes de surveillance par IA par Facebook inquiétera beaucoup

Bien que les tâches que Facebook décrit semblent certainement pratiques, l’intérêt de l’entreprise pour ce domaine en inquiétera beaucoup. Le bilan de Facebook en matière de confidentialité est épouvantable, couvrant des fuites de données et des amendes de 5 milliards de dollars de la FTC. Il a également été démontré à plusieurs reprises que l’entreprise valorise la croissance et l’engagement avant le bien-être des utilisateurs dans de nombreux domaines. Dans cet esprit, il est inquiétant que les références de ce projet Ego4D n’incluent pas de garanties de confidentialité importantes. Par exemple, la tâche de « diarisation audiovisuelle » (transcrire ce que disent les différentes personnes) ne mentionne jamais la suppression des données sur les personnes qui ne souhaitent pas être enregistrées.

Interrogé sur ces problèmes, un porte-parole de Facebook a déclaré à The Verge qu’il s’attendait à ce que des garanties de confidentialité soient introduites plus tard. « Nous nous attendons à ce que, dans la mesure où les entreprises utilisent cet ensemble de données et ce référentiel pour développer des applications commerciales, elles développent des garanties pour ces applications », a déclaré le porte-parole. « Par exemple, avant que les lunettes AR puissent améliorer la voix de quelqu’un, il pourrait y avoir un protocole en place qu’ils suivent pour demander la permission aux lunettes de quelqu’un d’autre, ou ils pourraient limiter la portée de l’appareil afin qu’il ne puisse capter que les sons des personnes avec avec qui j’ai déjà une conversation ou qui sont dans mon voisinage immédiat.

Pour l’instant, de telles garanties ne sont qu’hypothétiques.

Share