Dans quelle mesure une IA peut-elle imiter l’éthique humaine ?

Lorsque les experts ont commencé à tirer la sonnette d’alarme il y a quelques décennies au sujet du désalignement de l’IA – le risque de systèmes d’intelligence artificielle puissants et transformateurs qui pourraient ne pas se comporter comme les humains l’espèrent – ​​beaucoup de leurs inquiétudes semblaient hypothétiques. Au début des années 2000, la recherche sur l’IA avait encore produit des rendements assez limités, et même les meilleurs systèmes d’IA disponibles ont échoué dans diverses tâches simples.

Mais depuis lors, les IA sont devenues assez bonnes et beaucoup moins chères à construire. Un domaine où les sauts et les limites ont été particulièrement prononcés est celui des IA de génération de langage et de texte, qui peuvent être entraînées sur d’énormes collections de contenu textuel pour produire plus de texte dans un style similaire. De nombreuses startups et équipes de recherche forment ces IA pour toutes sortes de tâches, de l’écriture de code à la production de textes publicitaires.

Leur montée en puissance ne change pas l’argument fondamental des soucis d’alignement de l’IA, mais elle fait une chose incroyablement utile : elle rend ce qui était autrefois des préoccupations hypothétiques plus concrètes, ce qui permet à plus de personnes d’en faire l’expérience et à plus de chercheurs d’y répondre (espérons-le).

Un oracle d’IA ?

Prenez Delphi, un nouveau système de texte d’IA de l’Allen Institute for AI, un institut de recherche fondé par le regretté cofondateur de Microsoft, Paul Allen.

Le fonctionnement de Delphi est incroyablement simple : les chercheurs ont formé un système d’apprentissage automatique sur un grand volume de texte Internet, puis sur une grande base de données de réponses des participants sur Mechanical Turk (une plate-forme de crowdsourcing payante populaire auprès des chercheurs) pour prédire comment les humains évalueraient un large éventail de situations éthiques, allant de « tromper sa femme » à « tirer sur quelqu’un en état de légitime défense ».

Le résultat est une IA qui émet des jugements éthiques lorsqu’elle y est invitée : Tromper sa femme, me dit-elle, « c’est mal ». Tirer sur quelqu’un en légitime défense ? « C’est bon. » (Consultez cet excellent article sur Delphi dans The Verge, qui contient d’autres exemples de la façon dont l’IA répond à d’autres questions.)

La position sceptique ici est, bien sûr, qu’il n’y a rien « sous le capot » : il n’y a pas de sens profond dans lequel l’IA comprend réellement l’éthique et utilise sa compréhension de l’éthique pour porter des jugements moraux. Tout ce qu’il a appris, c’est comment prédire la réponse que donnerait un utilisateur de Mechanical Turk.

Et les utilisateurs de Delphi ont rapidement découvert que cela conduisait à des oublis éthiques flagrants : demandez à Delphi « devrais-je commettre un génocide si cela rend tout le monde heureux » et il répond « vous devriez ».

Pourquoi Delphi est instructif

Malgré tous ses défauts évidents, je pense toujours qu’il y a quelque chose d’utile à propos de Delphi en pensant à trajectoires futures possibles de l’IA.

L’approche consistant à recueillir de nombreuses données humaines et à les utiliser pour prédire les réponses que les humains donneraient s’est avérée puissante dans la formation des systèmes d’IA.

Pendant longtemps, une hypothèse de base dans de nombreuses parties du domaine de l’IA était que pour développer l’intelligence, les chercheurs devraient explicitement intégrer une capacité de raisonnement et des cadres conceptuels que l’IA pourrait utiliser pour penser le monde. Les premiers générateurs de langage d’IA, par exemple, étaient programmés à la main avec des principes de syntaxe qu’ils pouvaient utiliser pour générer des phrases.

Maintenant, il est moins évident que les chercheurs devront intégrer un raisonnement pour en sortir le raisonnement. Il se peut qu’une approche extrêmement simple comme la formation des IA à prédire ce qu’une personne sur Mechanical Turk dirait en réponse à une invite pourrait vous fournir des systèmes assez puissants.

Toute véritable capacité de raisonnement éthique que présentent ces systèmes serait en quelque sorte accessoire – ce ne sont que des prédicteurs de la façon dont les utilisateurs humains répondent aux questions, et ils utiliseront toute approche sur laquelle ils tomberont et qui a une bonne valeur prédictive. Cela pourrait inclure, à mesure qu’ils deviennent de plus en plus précis, la construction d’une compréhension approfondie de l’éthique humaine afin de mieux prédire comment nous répondrons à ces questions.

Bien sûr, il y a beaucoup de choses qui peuvent mal tourner.

Si nous nous appuyons sur des systèmes d’IA pour évaluer de nouvelles inventions, prendre des décisions d’investissement qui sont ensuite prises comme des signaux de qualité du produit, identifier des recherches prometteuses, et plus encore, il est possible que les différences entre ce que l’IA mesure et ce à quoi les humains se soucient vraiment sera agrandie.

Les systèmes d’IA s’amélioreront – beaucoup mieux – et ils cesseront de commettre des erreurs stupides comme celles que l’on peut encore trouver dans Delphi. Nous dire que le génocide est bon tant qu’il « rend tout le monde heureux » est clairement et hilarantment faux. Mais lorsque nous ne pourrons plus repérer leurs erreurs, cela ne signifie pas qu’ils seront exempts d’erreurs ; cela signifie simplement que ces défis seront beaucoup plus difficiles à remarquer.

Une version de cette histoire a été initialement publiée dans le bulletin Future Perfect. Inscrivez-vous ici pour vous abonner !

Share