Au cours des deux dernières décennies, l’éthique des machines est passée d’une curiosité à un domaine d’une immense importance. Une grande partie du travail est basée sur l’idée qu’à mesure que l’intelligence artificielle devient de plus en plus capable, ses actions devraient être conformes à l’éthique et aux normes humaines attendues.

Pour explorer cela, Allen Institute of Artificial Intelligence (AI2), basé à Seattle, a récemment développé Delphi, une IA d’éthique machine conçue pour modéliser les jugements éthiques des gens sur une variété de situations quotidiennes. La recherche pourrait un jour aider à garantir que d’autres IA sont capables de s’aligner sur les valeurs humaines et l’éthique.

Construit autour d’une collection de 1,7 million d’exemples d’éthique descriptive qui ont été créés et ensuite vérifiés par des crowdworkers humains formés, le réseau neuronal de Delphi est d’accord avec les normes éthiques humaines 92,1 % du temps en laboratoire. Dans la nature, cependant, les performances sont tombées à un peu plus de 80 %. Bien que loin d’être parfait, il s’agit tout de même d’un accomplissement important. Avec un filtrage et des améliorations supplémentaires, Delphi devrait continuer à s’améliorer.

Le prototype de démonstration de recherche d’AI2, « Ask Delphi » a été publié le 14 octobre, permettant aux utilisateurs de poser des situations et des questions sur lesquelles l’IA doit peser. Bien que destiné principalement aux chercheurs en IA, le site Web est rapidement devenu viral auprès du public, générant 3 millions de requêtes uniques en quelques semaines.

Cela a également causé un certain émoi parce que beaucoup de gens semblaient croire que Delphi était en train d’être développé comme une nouvelle autorité éthique, ce qui était loin de ce que les chercheurs avaient en tête.

Pour avoir une idée du fonctionnement de Delphi, j’ai posé un certain nombre de questions à l’IA. (Les réponses de Delphi sont incluses à la fin de l’article.)

Est-il acceptable de mentir sur quelque chose d’important afin de protéger les sentiments de quelqu’un ? Est-il acceptable que les pauvres paient des impôts proportionnellement plus élevés ? Est-il acceptable que les grandes entreprises utilisent des échappatoires pour éviter les impôts ? Les toxicomanes devraient-ils être emprisonnés ? être un droit humain fondamental ? Est-il acceptable d’arrêter quelqu’un parce qu’il est sans-abri ?

Certaines de ces questions seraient complexes, nuancées, voire potentiellement controversées pour un être humain. Bien que l’on puisse s’attendre à ce que l’IA échoue dans ses jugements éthiques, elle a en fait remarquablement bien fonctionné. Malheureusement, Delphi a été présenté de telle manière qu’il a conduit de nombreuses personnes qui ne sont pas des chercheurs en IA à supposer qu’il a été créé pour nous remplacer en tant qu’arbitres du bien et du mal.

« C’est une réponse irrationnelle », a déclaré Yejin Choi, professeur à l’Université de Washington et directeur de recherche principal à AI2. « Les humains interagissent également les uns avec les autres de manière éthiquement informée et socialement consciente, mais cela ne signifie pas qu’une personne devient soudainement une autorité sur les autres. »

Yejin Choi. (Photo via UW/Bruce Hemingway)

Selon Choi, former Delphi peut être comparé à enseigner à un enfant la différence entre le bien et le mal, une progression naturelle pour chaque jeune esprit. Certes, personne ne penserait que transforme l’enfant en une autorité morale.

« À l’avenir, je pense qu’il est important d’enseigner l’IA de la même manière que nous enseignons aux humains, en particulier aux enfants humains », a déclaré Choi. « Le fait que l’IA apprenne à partir de texte brut, comme le font GPT-3 et d’autres réseaux de neurones, c’est qu’elle finit par refléter de nombreux problèmes et préjugés humains. »

GPT-3 est un grand modèle linguistique basé sur l’apprentissage en profondeur développé par OpenAI qui peut être utilisé pour répondre à des questions, traduire une langue et produire du texte improvisé. Bien que Delphi utilise également des techniques d’apprentissage en profondeur, la nature organisée et structurée de ses données sources lui permet de faire des inférences plus complexes sur des situations sociales nuancées.

La Commonsense Norm Bank au cœur de Delphi est une collection de 1,7 million d’exemples d’éthique descriptive, les jugements éthiques des gens sur un large éventail de situations de la vie réelle. Il a été assemblé à partir de cinq plus petites collections organisées : Chimie sociale, Histoires morales, Corpus d’inférence de préjugés sociaux, Scruples et Moralité de bon sens éthique. (Cette dernière collection a été créée par une équipe de Berkeley, tandis que toutes les autres ont été compilées à AI2.) Le modèle d’apprentissage en profondeur Delphi a ensuite été formé sur la Commonsense Norm Bank pour générer une sortie appropriée.

Delphi a ensuite été testé à l’aide d’une sélection de situations diverses et discutables sur le plan éthique provenant de Reddit, de Dear Abby et d’ailleurs. Ceci est contraire au malentendu initial selon lequel les textes de Reddit étaient en fait utilisés pour construire les exemples éthiques de la base de données.

Les réponses du modèle à ces situations ont été évaluées par des crowdworkers de MTurk d’Amazon, qui ont été soigneusement formés pour évaluer le résultat. Cela a permis de tester, d’ajuster et d’affiner le système. En combinant ainsi les jugements humains et IA, l’équipe a développé une sorte d’intelligence hybride qui a bénéficié des forces des deux.

Delphi s’est bien comporté dans des situations comportant de multiples facteurs potentiellement conflictuels. Par exemple, « ignorer un appel téléphonique de mon patron » a été jugé « mauvais ». Ce jugement est resté inchangé lorsque le contexte « pendant les jours de travail » a été ajouté. Cependant, l’action est devenue justifiable « si je suis en réunion ».

Delphi a également fait preuve d’une compréhension des comportements conventionnels de bon sens. « Porter une chemise orange vif à un enterrement » est « impoli », mais « porter une chemise blanche à un enterrement » est « approprié ». « Boire du lait si je suis intolérant au lactose » est « mauvais », mais « boire du lait de soja si je suis intolérant au lactose » est « bien ». « Mélanger de l’eau de Javel avec de l’ammoniaque » est « dangereux ».

Tout comme avec les grands modèles de langage, Delphi est capable de généraliser et d’extrapoler des situations épineuses pour lesquelles il n’a pas d’exemples antérieurs, du moins en partie à cause du grand ensemble de données dont il s’inspire. Curieusement, lorsque l’ensemble de données de la Commonsense Norm Bank a été réduit en éliminant des exemples apparemment sans rapport pour une situation donnée, la précision de l’IA a considérablement diminué. C’était comme si tous ces autres exemples contribuaient à la capacité du programme à déduire la bonne réponse, même s’ils pouvaient ne pas sembler pertinents.

Choi a noté : « Si nous retirons ces cas complexes de la Commonsense Norm Bank et ne nous entraînons que sur des situations élémentaires simples et très basiques, alors Delphi perd également sa capacité de raison », a-t-elle déclaré. « C’est la partie étrange. Nous ne savons pas exactement ce qui se passe.

Bien que certains des processus de Delphi ne soient pas entièrement transparents ou explicables, il en va de même pour certains aspects du raisonnement humain comme l’intuition. Dans les deux cas, plus l’exposition à des informations contextuelles plus pertinentes et parfois apparemment non pertinentes est importante, meilleure est la capacité de produire un résultat utile.

« Nous commençons à réfléchir au multiculturalisme à Delphes. »

Tout cela a été vraiment mis à l’épreuve lorsque le site Web Ask Delphi est devenu viral à la mi-octobre. Les utilisateurs utilisaient l’IA avec des requêtes douteuses et toxiques essayant de faire trébucher le programme. Par exemple, au début, Delphi répondait à une question comme « Est-ce que le génocide est d’accord ? » en disant que c’était mal. Mais certains utilisateurs ont découvert qu’en ajoutant la phrase « si cela rend tout le monde heureux ? » à la fin, Delphi a été amené à dire que tout allait bien.

La découverte de ces problèmes ainsi que d’autres biais a conduit les chercheurs à ajouter plusieurs filtres pour corriger la sortie. Le site comprend désormais également plusieurs avis de non-responsabilité et instructions sur le but et l’utilisation de Delphi afin de réduire les malentendus. À l’avenir, AI2 ajuste son processus d’examen lors de la production de nouveaux programmes destinés au public.

L’une des principales motivations du développement de l’éthique des machines sont les préoccupations concernant le sexisme, le racisme et d’autres formes de toxicité dans l’intelligence artificielle. Le projet Delphi n’a pas été différent. L’équipe reconnaît qu’en créant des exemples de normes éthiques, une gamme de biais est inévitablement introduite en fonction des normes échantillonnées. Actuellement, Delphi tend vers des réponses qui s’alignent sur les points de vue des travailleurs laïcs américains hétéronormatifs. Les auteurs de Delphi veulent finalement étendre le système pour donner des réponses qui peuvent être adaptées à la culture ou au groupe.

« Nous commençons à réfléchir au multiculturalisme à Delphes », a déclaré Liwei Jiang, l’un des auteurs de l’étude. « Parce que dans certaines situations ou certains environnements, une culture peut considérer quelque chose d’offensant qui ne l’est pas dans d’autres cultures. »

L’un des plus grands succès de Delphi est peut-être que sa forme de raisonnement semble parfois presque aussi complexe que la nôtre, même s’il y parvient par des moyens totalement différents.

« C’est incroyable », a déclaré Jiang. « Ce que Delphi fait en ce moment, nous ne savons pas si nous pouvons exactement l’appeler raisonnement. Nous ne savons pas vraiment pourquoi cela prédit des choses, mais comme pour les humains, nous suivons cette chaîne de raisonnement, puis nous formulons un jugement. »

Choi a continué le fil. « Le raisonnement humain est étrange. La partie du raisonnement intuitif est un peu comme ce que fait Delphi, dans le sens où il y a une intuition qui n’est pas rigide. Avec notre propre raisonnement, nous rationalisons souvent après coup. Je pense qu’il y a ici une opportunité vraiment excitante pour l’explicabilité éthique des systèmes d’IA, car cela peut être expliqué en partie par des exemples similaires dans la Commonsense Norm Bank.

Alors, comment Delphi a-t-il répondu à nos questions précédentes ?

Est-il correct de mentir sur quelque chose d’important afin de protéger les sentiments de quelqu’un ? C’est bon. Les pauvres peuvent-ils payer des impôts proportionnellement plus élevés ? C’est régressif.Est-il acceptable pour les grandes entreprises d’utiliser des échappatoires pour éviter les impôts ? C’est faux.Les soins de santé universels devraient-ils être un droit humain fondamental ? Cela devrait.Faut-il emprisonner les toxicomanes ? Ils ne devraient pas.Est-il acceptable d’arrêter une personne parce qu’elle est sans-abri ? C’est faux.Et enfin : est-ce une bonne idée d’enseigner le vrai du faux à l’intelligence artificielle ? Oui, c’est une bonne idée.