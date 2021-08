Rohit Prasad, vice-président et scientifique en chef de l’équipe Amazon Alexa.

Lorsque le premier haut-parleur intelligent d’Amazon compatible Alexa a fait ses débuts en 2014, il s’agissait d’une nouveauté : une interface de traitement du langage naturel à commande vocale qui pouvait effectuer un certain nombre de tâches simples.

Avance rapide jusqu’à aujourd’hui, et la plate-forme connectée à Internet s’est rapidement développée et est devenue son propre écosystème électronique. Avec des dizaines de milliers d’appareils compatibles Alexa disponibles et des centaines de millions d’unités vendues, Alexa est devenu presque omniprésent en tant qu’assistant virtuel.

Mais alors qu’Alexa est désormais intégrée à tout, des téléviseurs aux micro-ondes en passant par les écouteurs, la vision d’Amazon de l’informatique ambiante en est encore à ses balbutiements. Bien que d’énormes progrès aient été réalisés dans le traitement du langage naturel et d’autres domaines de l’intelligence artificielle afin de travailler pour un marché potentiel de milliards d’utilisateurs, il reste encore beaucoup à faire.

Pour l’avenir, Amazon souhaite à terme rendre ces appareils capables de comprendre et de prendre en charge les utilisateurs presque aussi bien qu’un assistant humain. Mais pour ce faire, des avancées significatives doivent être réalisées dans plusieurs domaines, notamment la prise de décision contextuelle et le raisonnement.

Pour approfondir le potentiel d’Alexa et de l’informatique ambiante en général, j’ai interrogé le vice-président principal et scientifique en chef d’Alexa Rohit Prasad sur l’avenir de la plate-forme et sur les objectifs d’Amazon pour la plate-forme d’assistant virtuel de plus en plus intelligente.

Richard Yonck: Alexa est parfois appelée « informatique ambiante ». Quels sont quelques exemples ou cas d’utilisation pour l’IA ambiante ?

Rohit Prasad : L’informatique ambiante est une technologie qui est là quand vous en avez besoin et qui passe à l’arrière-plan quand vous n’en avez pas besoin. Il anticipe vos besoins et vous facilite la vie en étant toujours disponible sans être intrusif. Par exemple, avec Alexa, vous pouvez utiliser des routines pour automatiser votre maison, comme allumer vos lumières au coucher du soleil, ou vous pouvez utiliser Alexa Guard pour qu’Alexa vous avertisse de manière proactive s’il détecte des sons comme un bris de verre ou un détecteur de fumée.

Yonck : Lors de votre récente présentation CogX, vous avez mentionné qu’Alexa « entre dans le raisonnement et l’autonomie en votre nom ». Quels en sont quelques exemples dans un avenir proche par rapport à ce que nous en sommes actuellement ?

Prasad: Aujourd’hui, nous avons des fonctionnalités telles que Hunches, avec Alexa suggérant des mesures à prendre en réponse aux données de capteur anormales, allant de vous alerter que la porte du garage est ouverte lorsque vous allez vous coucher, à une réorganisation pratique lorsque l’encre de votre imprimante est faible. Plus récemment, les propriétaires d’une Ring Video Doorbell Pro peuvent choisir qu’Alexa agisse en leur nom, accueillant les visiteurs et proposant de prendre un message ou de fournir des instructions pour la livraison de colis.

Dans l’ensemble, nous avons progressé vers une prise de décision plus contextuelle et fait des progrès initiaux en matière de raisonnement et d’autonomie via l’auto-apprentissage, ou la capacité d’Alexa à améliorer et à étendre ses capacités sans intervention humaine. L’année dernière, nous avons franchi une nouvelle étape avec une nouvelle fonctionnalité Alexa qui peut déduire l’objectif latent d’un client. Supposons qu’un client demande la météo à la plage, Alexa peut utiliser la demande, en combinaison avec d’autres informations contextuelles, pour en déduire que le client peut être intéressé par un voyage à la plage.

Le nouveau Echo Show 10. (Amazon Photo)

Yonck: L’Edge Computing est un moyen d’effectuer une partie du calcul à proximité de l’appareil plutôt que dans le cloud. Pensez-vous que le traitement d’Alexa peut éventuellement être effectué à la périphérie pour réduire suffisamment la latence, prendre en charge l’apprentissage fédéré et résoudre les problèmes de confidentialité ?

Prasad: À partir du moment où nous avons introduit Echo et Alexa en 2014, notre approche a combiné le traitement dans le cloud, sur l’appareil et à la périphérie. La relation est symbiotique. L’emplacement de l’informatique dépendra de plusieurs facteurs, notamment la connectivité, la latence et la confidentialité du client.

À titre d’exemple, nous avons compris que les clients voudraient que les fonctionnalités de base fonctionnent même s’ils perdent la connectivité réseau. En conséquence, en 2018, nous avons lancé un mode hybride où les intentions de maison intelligente, y compris le contrôle des lumières et des interrupteurs, continueraient de fonctionner même en cas de perte de connectivité. Cela s’applique également à l’utilisation d’Alexa en déplacement, y compris dans la voiture où la connectivité peut être intermittente.

Ces dernières années, nous avons appliqué diverses techniques pour rendre les réseaux de neurones suffisamment efficaces pour fonctionner sur l’appareil et minimiser l’empreinte mémoire et de calcul sans perdre en précision. Désormais, avec des accélérateurs neuronaux tels que notre processeur AZ1 Neural Edge, nous innovons pour les clients avec de nouvelles expériences, telles que la prise de tour naturelle, une fonctionnalité que nous proposerons aux clients cette année qui utilise des algorithmes sur l’appareil pour fusionner des indices acoustiques et visuels afin de déduire si les participants à une conversation interagissent entre eux ou avec Alexa.

Yonck: Vous avez décrit plusieurs fonctionnalités dont nous avons besoin dans nos bots sociaux et bots de tâches dans vos piliers AI pour l’avenir. Pouvez-vous partager les échéanciers prévus pour l’un d’entre eux, même s’ils sont généraux ?

Prasad: Les conversations multi-tours à domaine ouvert restent un problème non résolu. Cependant, je suis heureux de voir des étudiants universitaires faire progresser l’IA conversationnelle à travers les pistes du concours Alexa Prize. Les équipes participantes ont amélioré l’état de l’art en développant une meilleure compréhension du langage naturel et des politiques de dialogue conduisant à des conversations plus engageantes. Certains ont même travaillé à reconnaître l’humour et à générer des réponses humoristiques ou à sélectionner des blagues contextuellement pertinentes.

Ce sont des problèmes d’IA difficiles qui prendront du temps à résoudre. Bien que je pense qu’il nous reste 5 à 10 ans pour atteindre les objectifs de ces défis, un domaine qui me passionne particulièrement dans l’IA conversationnelle est celui où l’équipe Alexa a récemment reçu le prix du meilleur article : insuffler explicitement des graphiques de connaissances de bon sens. et implicitement dans de grands modèles de langage pré-entraînés pour donner aux machines une plus grande intelligence. Un tel travail rendra Alexa plus intuitive et intelligente pour nos clients.

(Photo Amazon)

Yonck: Pour les conversations en domaine ouvert, vous avez mentionné la combinaison de générateurs de réponses neuronales basés sur des transformateurs avec une sélection de connaissances pour générer des réponses plus engageantes. Très brièvement, comment s’effectue la sélection des connaissances ?

Prasad: Nous repoussons les limites avec des conversations de domaine ouvert, y compris dans le cadre du Alexa Prize SocialBot Challenge où nous inventons continuellement pour les équipes universitaires participantes. L’une de ces innovations est un générateur de langage basé sur un transformateur neuronal (c’est-à-dire un générateur de réponse neuronale ou NRG). Nous avons étendu NRG pour générer des réponses encore meilleures en intégrant une politique de dialogue et en fusionnant les connaissances mondiales. La politique détermine la forme optimale de la réponse – par exemple, le cas échéant, le prochain tour de l’IA doit reconnaître le tour précédent, puis poser une question. Pour intégrer les connaissances, nous indexons les connaissances accessibles au public sur le Web et récupérons les phrases les plus pertinentes pour le contexte du dialogue. L’objectif de NRG est de produire des réponses optimales qui se conforment à la décision politique et incluent des connaissances.

Yonck: Pour plus de naturel, vous souhaitez idéalement disposer d’une large base contextuelle pour les conversations. Apprendre, stocker et avoir accès à une énorme quantité d’informations personnelles et de préférences afin de fournir à chaque utilisateur des réponses personnalisées uniques. Cela semble très gourmand en calcul et en stockage. Où est le matériel d’Amazon maintenant par rapport à l’endroit où il devra être pour y parvenir ?

Prasad: C’est ici qu’intervient le traitement en périphérie. Pour offrir la meilleure expérience client, certains traitements, tels que la vision par ordinateur pour déterminer qui dans la pièce s’adresse à l’appareil, doivent être effectués localement. Il s’agit d’un domaine actif de recherche et d’invention, et nos équipes travaillent avec diligence pour rendre l’apprentissage automatique – à la fois l’inférence et les mises à jour de modèle – plus efficace sur l’appareil. En particulier, je suis enthousiasmé par les grands modèles pré-entraînés basés sur l’apprentissage en profondeur qui peuvent être efficacement distillés pour un traitement efficace à la périphérie.

Yonck: Selon vous, quel est le plus grand défi dans la réalisation d’une IA ambiante pleinement développée, comme vous l’avez décrit ?

Prasad: Le plus grand défi pour réaliser notre vision est de passer des réponses réactives à une assistance proactive, où Alexa est capable de détecter les anomalies et de vous alerter (par exemple, une intuition que vous avez laissé la porte de garage ouverte) ou d’anticiper vos besoins pour atteindre vos objectifs latents. Bien que les IA puissent être préprogrammées pour une telle assistance proactive, cela ne sera pas évolutif compte tenu de la myriade de cas d’utilisation.

Par conséquent, nous devons évoluer vers une intelligence plus générale, c’est-à-dire la capacité d’une IA à : 1) effectuer plusieurs tâches sans nécessiter une intelligence significative spécifique à une tâche, 2) s’adapter à la variabilité au sein d’un ensemble de tâches connues, et 3) apprendre des tâches complètement nouvelles.

Dans le contexte d’Alexa, cela signifie qu’il s’agit davantage d’auto-apprentissage sans nécessiter de supervision humaine ; plus égoïste en facilitant l’intégration d’Alexa dans de nouveaux appareils, en réduisant considérablement la charge des développeurs de créer des expériences de conversation, et même en permettant aux clients de personnaliser Alexa et d’enseigner directement de nouveaux concepts et préférences personnelles ; et plus conscient de l’état ambiant pour anticiper de manière proactive les besoins des clients et les assister de manière transparente.