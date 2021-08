L’année dernière a produit une succession de moments de style Black Mirror, mais l’un des plus mémorables a été l’arrivée d’un outil d’IA qui pourrait animer nos vieilles photos de famille avec un réalisme troublant.

Baptisé ‘Deep Nostalgia’, il a débarqué fin février et a charmé les réseaux sociaux par sa capacité à animer rapidement et de manière convaincante toutes sortes de visages : relations distantes, statues, tatouages ​​et, bien sûr, l’affiche de The Nightmare on Elm Street.

Comme à peu près tout, la technologie a divisé l’opinion sur Internet. Certains ont trouvé que c’était un code de triche réconfortant pour «rencontrer» d’anciennes relations qu’ils n’avaient jamais rencontrées. D’autres pensaient que cela confinait à la nécromancie. La plupart d’entre nous étions probablement dans un espace conflictuel quelque part entre les deux. Mais la grande nouveauté pour la photographie est qu’elle existe maintenant – et sous une forme qui a un énorme potentiel grand public.

(Crédit image : MyHeritage)

Mais comment exactement l’IA et l’apprentissage automatique réaniment-ils vos anciennes photos de famille ? Et où tout cela va-t-il ? « Deep Nostalgia » est venu de la société de généalogie MyHeritage, mais elle a en fait autorisé la technologie de la société israélienne D-ID (abréviation de « De-Identification »).

Nous avons eu une conversation fascinante avec le cofondateur et PDG de D-ID, Gil Perry, pour découvrir les réponses à ces questions – et pourquoi il pense que la plupart des médias visuels sur Internet seront « synthétiques » au cours de la prochaine décennie…

Films d’horreur

La technologie « Live Portrait » de D-ID est peut-être nouvelle, mais ses principes fondamentaux ne le sont pas. La réanimation faciale basée sur l’apprentissage automatique a été présentée dès 1997, tandis qu’en 2016, le programme Face2Face nous a donné des frissons de « Deep Nostalgia » en transformant George Bush et Vladimir Poutine en marionnettes numériques en temps réel.

Mais au cours des dernières années, la technologie a fait un saut crucial – des limites légèrement rassurantes des documents de recherche universitaires à nos smartphones. Avec des services gratuits comme Deep Nostalgia et Avatarify capables de créer des vidéos convaincantes à partir d’une seule photo fixe, la boîte réanimée de Pandora a été ouverte.

Depuis un certain temps maintenant, il est relativement facile pour les ordinateurs d’inventer une nouvelle personne sous forme de photo. en 2019.

Aucune de ces personnes n’existe. Ils ont été créés par un GAN (Generative Adversarial Network) sur cette personne n’existe pas. Utilisez le bouton dans le coin inférieur droit pour créer une nouvelle personne et regardez les heures s’écouler. (Crédit image : cette personne n’existe pas)

Ce qui est beaucoup plus difficile, c’est de générer de manière convaincante une personne en mouvement à partir d’une seule image fixe, y compris des informations qui n’y sont tout simplement pas. C’est ce que D-ID a apparemment réussi à déchiffrer. Comme Gil Perry nous l’a dit : “La partie difficile n’est pas seulement de transformer le visage et de l’animer. La science de fusée ici est de savoir comment le rendre 100% réel.”

Selon Perry, le plus grand défi que D-ID a dû surmonter avec ses « Portraits en direct » était le manque d’informations que vous obtenez à partir d’une seule photo. Les tentatives antérieures de réanimation faciale ont nécessité de nombreuses données d’entraînement et ont également eu du mal à « l’occlusion » (des parties du visage étant obstruées par les mains ou d’autres objets). Mais c’est quelque chose dans lequel D-ID a fait de grands progrès.

(Crédit image : MyHeritage)

“La partie difficile, c’est quand vous n’avez pas d’angles différents – par exemple, vous pouvez télécharger une photo très frontale et sans dents”, a-t-il déclaré. “Nos algorithmes savent comment prédire et créer les parties manquantes que vous n’aviez pas sur la photo – par exemple, les oreilles, les dents, l’arrière-plan. En gros, nous traversons ce que les gens appellent l’étrange vallée.”

La réponse mitigée d’Internet à ‘Deep Nostalgia’ (qui est basée sur la technologie de D-ID) montre peut-être qu’il n’a pas encore complètement franchi ce seuil, mais il fait certainement de bons progrès. Il a récemment ajouté de nouveaux « pilotes » ou animations, y compris la possibilité de faire en sorte que votre sujet envoie un baiser ou un hochement de tête approbateur. Et ce n’est que le début des ambitions de réanimation de D-ID.

Tu D-ID quoi ?

La raison pour laquelle la technologie « Live Portrait » de D-ID est si adaptable (elle est utilisée dans tout, des applications de musée aux réseaux sociaux) est que la flexibilité est intégrée à son processus. Alors, comment cela fonctionne-t-il exactement?

“La façon dont fonctionne le portrait en direct est que nous avons un ensemble de vidéos de pilotes”, explique Perry. « Nous avons environ 100 de ces mouvements. Lorsqu’un utilisateur télécharge une photo, l’entreprise utilise notre API. Ensuite, nos algorithmes savent transformer des points de repère, un ensemble de points sur le visage de l’image fixe, pour agir et se déplacer de manière similaire. chemin vers les points de repère ou les points sur le visage de la vidéo du conducteur.”

Surtout, les personnes et les entreprises qui licencient la technologie de D-ID ne sont pas limitées à sa propre bibliothèque de mouvements – elles peuvent également créer la leur. “Actuellement, nous avons suffisamment de pilotes, mais certains de nos clients travaillent pour créer eux-mêmes des pilotes”, a expliqué Perry. Cela alimente également un autre produit D-ID appelé « Talking Heads », qui transforme le texte ou l’audio en vidéos réalistes de personnes en train de parler.

La fonction “Talking Heads” de D-ID a des implications énormes pour les films et YouTube. En théorie, les YouTubers pourraient simplement scénariser des vidéos dans leur pyjama et laisser la présentation à leurs avatars virtuels. Mais pour la photographie, ‘Live Portraits’ est la grosse bombe – en particulier pour les sociétés de photos.

“Pour eux, cela peut vraiment changer la donne pour deux raisons”, a déclaré Perry. “Premièrement, nous pouvons transformer toutes leurs photos en vidéos. Deuxièmement, lorsqu’il cherche une photo, la plupart du temps l’utilisateur ne trouve pas exactement ce dont il a besoin. Nous pouvons changer l’expression – si vous voulez que la personne soit un un peu plus heureux ou regarder dans une direction différente, nous pouvons changer tout cela en un clic.”

C’est une chose d’impressionner Twitter ou TikTok avec une photo animée, mais c’en est une autre de convaincre les vétérans de la photo de stock qu’une expression faciale modifiée numériquement peut répondre à leurs normes rigoureuses. La technologie est-elle vraiment suffisamment cuisinée pour des professionnels comme ça ? “Oui, nous le faisons déjà”, a déclaré Perry. “Nous vendons aux photographes et progressons rapidement avec les plus grandes sociétés de séquences d’archives. Nous avons également ce mois-ci une autre société publique très réputée pour les albums photo et la numérisation de photos.”

En ce sens, la technologie de réanimation de D-ID remet en question la définition de ce qu’est réellement une photo. Plutôt qu’un moment figé dans le temps, les photos sont désormais un point de départ pour l’IA et l’apprentissage automatique pour créer des réalités alternatives infiniment modifiables. La photographie est sujette à manipulation depuis sa naissance, en particulier à l’ère post-Photoshop. Mais puisque créer des vidéos réalistes à partir d’une seule image fixe est un tout nouveau jeu de balle, n’y a-t-il pas un risque sérieux d’abus ?

Régulateur de vitesse

La plupart des grands réseaux sociaux, y compris Facebook et TikTok, ont interdit les deepfakes, qui diffèrent des « Deep Nostalgia » en ce qu’ils sont conçus pour tromper ou diffuser de fausses informations. Mais même des implémentations innocentes de la technologie, comme les « Portraits en direct » de D-ID, pourraient théoriquement devenir malveillantes entre de mauvaises mains.

Heureusement, c’est quelque chose que D-ID a envisagé. En fait, l’entreprise a commencé sa vie en 2017 en tant qu’innovateur dans le domaine de la technologie de la confidentialité qui s’est prémunie contre la montée en puissance de la reconnaissance faciale. Lorsque Perry a créé D-ID avec ses co-fondateurs Sella Blondheim et Eliran Kuta, ils ont créé un système de désidentification faciale (d’où le nom de l’entreprise) dont le but était d’être un pare-feu améliorant la confidentialité des photos et des vidéos.

Selon Perry, il s’agit d’un bloc de construction assez solide à partir duquel créer une technologie de visage d’IA sûre. “Lorsque nous avons décidé d’entrer sur ce marché, nous avons compris qu’il y avait un potentiel de faire de mauvaises choses avec une telle technologie”, a-t-il déclaré. “Cela se serait produit avec ou sans nous entrant. Nous avons décidé que nous allions entrer et nous assurer que nous prenions le marché dans la bonne direction. Notre mission était de protéger la vie privée contre la reconnaissance faciale. Nous avons le bon bagage et les bonnes connaissances.”

Mais il s’agit également de mettre en place des tampons pratiques pour s’assurer que les médias sociaux ne sont pas inondés de Tom Cruises malveillants (ou pire). Personne ne peut simplement utiliser la technologie de D-ID pour créer des vidéos comme celles ci-dessus, qui nécessitent encore des compétences avancées en VFX, même si celle-ci a été réalisée à l’aide de l’algorithme open source DeepFaceLab.

“Nous mettons des garde-fous autour de la technologie, vous ne pouvez donc pas vraiment lui faire beaucoup de mal”, a déclaré Perry. “Par exemple, vous pouvez voir dans ‘Deep Nostalgia’, ce ne sont que des mouvements nostalgiques et amusants. Nous avons fait beaucoup de tests pour nous assurer que cela apporte juste de bonnes émotions. Nous avons écrit un algorithme que nous avons parcouru sur Twitter et vérifié toutes les réponses pour voir s’ils sont positifs ou négatifs. Nous avons vu que 95% d’entre eux étaient positifs. “

En plus de cela, D-ID dit qu’il élabore un manifeste qui sera bientôt publié et travaille sur des moyens d’aider les organisations à détecter si une photo a été manipulée. “Nous insistons également, lorsque cela est possible, pour que nos clients ajoutent une marque qui indiquera clairement à l’observateur qu’il ne s’agit pas d’une vraie photo ou vidéo”, ajoute Perry.

Synthé pop

Tout cela est rassurant pour ceux qui peuvent à ce stade hyperventiler sur la disparition imminente de la réalité, ou du moins sur notre capacité à faire confiance à ce que nous voyons en ligne. Et D-ID considère certainement sa technologie comme assez innocente. « En gros, nous transformons toutes les photos du monde en vidéos – nous aimons dire que nous Harry Potter-isons le monde », dit Perry.

Mais il ne fait aucun doute également que la technologie comme celle de D-ID a de sérieuses répercussions sur notre consommation de médias en ligne. Photoshop a peut-être démocratisé la manipulation d’images en 1987, mais le monde en ligne s’est depuis longtemps tourné vers la vidéo.

Alors combien de temps faudra-t-il avant que la majorité des médias que nous voyons sur Internet soient des « médias synthétiques » ? “Je pense que dans 5 à 10 ans, la plupart des médias seront synthétiques”, déclare Perry. “Je crois que nous allons aider à faire en sorte que cela se produise dans cinq ans et nous assurer que cela se passe bien.”

Il y a beaucoup à régler entre-temps, mais à court terme, attendez-vous à voir ces vidéos «Deep Nostalgia» devenir encore plus animées. D-ID peut déjà animer des photos de famille à plusieurs visages, et affirme que l’animation du corps des gens est « dans la feuille de route ». Avec les récents “filtres neuronaux” de Photoshop qui se joignent également à la fête, la vie est sur le point de devenir très intéressante pour nos photos et vidéos – espérons simplement que c’est plus que Harry Potter que Nightmare on AI Street.