Deepak P
Une simple imitation

L’IA générative a récemment déclenché l’euphorie du public : les machines ont appris à penser ! Mais à quel point l’IA est-elle intelligente ? Voici le dilemme que pose l’IA : avons-nous trouvé la voie du salut, un portail vers une ère de commodité et de luxe jusqu’alors inconnue ? Ou bien sommes-nous engagés dans une dystopie qui décimera la […]

L’IA générative a récemment déclenché l’euphorie du public : les machines ont appris à penser ! Mais à quel point l’IA est-elle intelligente ?

Voici le dilemme que pose l’IA : avons-nous trouvé la voie du salut, un portail vers une ère de commodité et de luxe jusqu’alors inconnue ? Ou bien sommes-nous engagés dans une dystopie qui décimera la société telle que nous la connaissons ? Ces contradictions sont au moins en partie dues à une autre contradiction, quelque peu latente. Nous sommes fascinés par les résultats de l’IA (le quoi) à un niveau superficiel, mais nous sommes souvent désenchantés si nous creusons un peu plus, ou si nous essayons de comprendre le processus de l’IA (le comment). Ce dilemme n’a jamais été aussi évident qu’à l’ère actuelle de l’IA générative. Nous sommes séduits par les résultats impressionnants des grands modèles de langage (LLM) tels que ChatGPT, tout en étant préoccupés par les récits biaisés et irréalistes qu’ils produisent. De même, nous trouvons l’art généré par l’IA très attrayant, tout en déplorant le manque de profondeur significative et en nous inquiétant des risques de plagiat des génies d’antan.

Le fait que les inquiétudes soient plus prononcées dans la sphère de l’IA générative, qui nous incite à nous engager directement avec la technologie, n’est pas une coïncidence. Les conversations entre humains comportent de multiples niveaux et types de significations. Même une simple question comme « Prenons-nous un café ? » contient plusieurs significations implicites liées à des informations partagées sur l’heure de la journée, à une intention latente d’avoir une conversation détendue, à des suppositions sur les préférences en matière de boissons, à la disponibilité de cafés à proximité, etc. Si nous voyons une œuvre d’art intitulée « Vietnam des années 1970 », nous nous attendons probablement à ce que l’artiste cherche à transmettre quelque chose sur la vie dans ce pays pendant la fin de la guerre et l’après-guerre — beaucoup de choses restent implicites dans nos interactions avec des humains et leurs créations. En revanche, les LLM nous confrontent à des réponses d’apparence humaine dépourvues de sens profond. La dissonance entre une présentation de type humain et une éthique de type machine est également au cœur du dilemme de l’IA.

Il serait pourtant erroné de penser que cette obsession de l’IA pour l’imitation superficielle est récente. Le paradigme de l’imitation est ancré au cœur de l’IA depuis le début de la discipline. Pour comprendre comment la culture contemporaine en est venue à applaudir une technologie axée sur l’imitation, nous devons remonter aux tout premiers jours de l’histoire de l’IA et retracer son évolution au fil des décennies.

Alan Turing (1912-54), largement considéré comme le père de l’intelligence artificielle, est crédité pour avoir développé les idées fondatrices de cette discipline. Bien que l’IA ait évolué de façon spectaculaire au cours des 70 années qui se sont écoulées depuis la mort de Turing, un aspect de son héritage reste fermement au cœur des débats contemporains sur l’IA. Il s’agit du test de Turing, un test conceptuel qui permet de déterminer si une technologie peut faire passer ses résultats pour ceux d’un être humain.

Imaginez une technologie engagée dans une conversation en ligne avec un humain : si la technologie parvient à faire croire à l’interlocuteur qu’il est en train de discuter avec un être humain, elle a réussi le test de Turing. L’interface de chat qu’utilisent aujourd’hui les LLM a fait resurgir l’intérêt pour le test de Turing dans la culture populaire. En outre, le test de Turing est tellement ancré dans la communauté scientifique contemporaine de l’IA comme étant le test ultime de l’intelligence qu’il peut même être scandaleux de remettre en question sa pertinence. Pourtant, c’est exactement ce que Turing avait prévu dans son article fondateur qui a introduit le test pour la première fois.

De toute évidence, Turing ne considérait pas le jeu d’imitation comme un test d’intelligence

Il convient de noter que Turing l’avait appelé le « jeu d’imitation ». Ce n’est que plus tard que la communauté de l’IA l’a baptisé « test de Turing ». Il n’est pas nécessaire d’aller au-delà du premier paragraphe de l’article de Turing intitulé « Computing Machinery and Intelligence » (1950) pour comprendre la divergence entre le « jeu d’imitation » et la question de savoir si une machine est intelligente. Dans le premier paragraphe de cet article, Turing nous demande de réfléchir à la question « Les machines peuvent-elles penser ? » et il admet sa perplexité.

Il se reprend après quelques divagations et termine le premier paragraphe de l’article en disant de manière définitive : « Je remplacerai la question par une autre, qui lui est étroitement liée et qui est exprimée en termes relativement peu ambigus ». Il décrit ensuite le jeu d’imitation, qu’il appelle la « nouvelle forme du problème ». En d’autres termes, Turing fait immédiatement remarquer que le « jeu d’imitation » n’est pas la réponse à la question « Les machines peuvent-elles penser ? », mais constitue la forme de la question reformulée.

La communauté IA a — malheureusement, c’est le moins que l’on puisse dire — apparemment (mal) compris le jeu d’imitation comme le mécanisme permettant de répondre à la question de savoir si les machines sont intelligentes (ou si elles peuvent penser ou faire preuve d’intelligence). Le fait d’avoir baptisé le « jeu d’imitation » « test de Turing » a sans doute conféré une aura d’autorité au test, et a peut-être enraciné une réticence chez des générations de chercheurs en IA à l’examiner d’un œil critique, étant donné l’immense popularité dont jouit Turing au sein de la communauté informatique. Aussi récemment qu’en 2023, des dirigeants de plusieurs nations se sont réunis au Royaume-Uni, à Bletchley Park — qui fut le lieu de travail de Turing — pour débattre de la sécurité de l’IA. Dans ce contexte, le fait que Turing n’ait manifestement pas considéré le jeu d’imitation comme un test d’intelligence devrait nous réconforter — et nous donner le courage — de l’aborder d’un œil critique.

Dans le contexte de la formulation du jeu d’imitation par Turing au début des années 1950 au Royaume-Uni, l’intérêt pour l’idée de machines pensantes grandissait de l’autre côté de l’Atlantique. John McCarthy, alors jeune professeur assistant en mathématiques au Dartmouth College dans le New Hampshire, obtint des fonds pour organiser un atelier de huit semaines durant l’été 1956. Cet atelier sera plus tard considéré comme l’« événement fondateur » de l’intelligence artificielle, et les archives suggèrent que la première utilisation substantielle du terme « intelligence artificielle » se trouve dans la proposition de financement de McCarthy pour l’atelier, soumise à la Fondation Rockefeller.

Oublions un instant l’« intelligence artificielle » telle qu’elle existe aujourd’hui et posons-nous la question suivante : quelles disciplines seraient naturellement impliquées dans la poursuite du développement de machines intelligentes ? Il semble naturel de penser qu’une telle quête devrait être centrée sur les disciplines impliquées dans la compréhension et la caractérisation de l’intelligence telle que nous la connaissons — les sciences cognitives, la philosophie, les neurosciences, etc. D’autres disciplines pourraient servir de véhicules de mise en œuvre, mais l’effort global devrait être fondé sur les connaissances issues des disciplines qui traitent de l’esprit. Ce n’est d’ailleurs pas une coïncidence si Turing a choisi de publier son article fondateur dans Mind, une revue de philosophie avec des recoupements importants avec les sciences cognitives. L’atelier de Dartmouth fut notamment financé par la division de la recherche biologique et médicale de la Fondation Rockefeller, ce qui montre que les spéculations ci-dessus ne sont peut-être pas hors de propos. Pourtant, la structure de l’atelier de McCarthy était radicalement différente.

Les chercheurs en mathématiques n’avaient plus à se sentir isolés en parlant de machines pensantes comme étant de la computation

L’atelier de Dartmouth fut dominé par des mathématiciens et des ingénieurs, y compris une participation substantielle d’entreprises technologiques telles qu’IBM ; les chercheurs d’autres disciplines étaient peu présents. Une histoire biographique comprenant des notes de Ray Solomonoff, un participant à l’atelier, et compilée par sa femme Grace Solomonoff, fournit de nombreuses preuves que le projet d’« intelligence artificielle » fut activement orienté vers l’ingénierie, au détriment de la direction neuro-cognitive-philosophique. En particulier, les notes de Solomonoff rapportent que l’un des principaux organisateurs, Marvin Minsky, qui deviendrait plus tard une figure clé de l’intelligence artificielle, s’est exprimé ainsi dans une lettre préparatoire à l’atelier :

Je parie qu’au moment où le projet démarrera, nous aurons tous conclu un accord sans précédent sur les questions philosophiques et linguistiques, de sorte que nous ne perdrons pas de temps sur de telles futilités.

Il se pourrait que d’autres participants aient partagé le point de vue de Minsky selon lequel les questions philosophiques et linguistiques sont des futilités qui font perdre du temps, sans les exprimer aussi explicitement (ou aussi abruptement).

Dans une description des discussions qui ont précédé l’atelier, l’historien des sciences Ronald Kline montre comment l’événement, initialement conçu en laissant une large place à des activités telles que la modélisation du cerveau, s’est progressivement orienté vers un projet de modélisation mathématique. Le principal résultat scientifique du projet, comme l’indiquent les comptes rendus de Solomonoff et de Kline, a été d’établir la manipulation de symboles mathématiques — ce que l’on appellera plus tard l’IA symbolique — comme la voie à suivre pour l’IA. Cela est évident lorsque l’on observe que, deux ans plus tard, lors d’une conférence de 1958 intitulée « Mécanisation des processus de pensée » (un titre qui pourrait faire penser à un symposium neuro-cognitif-philosophique), de nombreux participants de l’atelier de Dartmouth présentèrent des communications sur la modélisation mathématique.

Les titres des documents de l’atelier allaient de « programmation heuristique » à « ordinateur à probabilité conditionnelle ». Avec le recul, on peut estimer que l’atelier de Dartmouth a renforcé le développement des machines à penser en tant qu’entreprise relevant de l’ingénierie et des sciences mathématiques, plutôt qu’un projet guidé par des idées issues de disciplines cherchant à comprendre l’intelligence telle que nous la connaissons. Avec l’appui des savants de Dartmouth, les chercheurs en mathématiques n’avaient plus à se sentir isolés, apologétiques ou sur la défensive lorsqu’ils parlaient de machines pensantes comme étant de la computation — la mise à l’écart des sciences sociales dans le développement de l’intelligence synthétique avait été normalisée.

Pourtant, la question demeure : comment un groupe de personnes intelligentes a-t-il pu être convaincu que la recherche d’une « intelligence artificielle » ne devait pas perdre de temps avec la philosophie, le langage et, bien sûr, avec d’autres aspects tels que la cognition et les neurosciences ? Nous ne pouvons que spéculer, encore une fois avec le bénéfice du recul, que cela était en quelque sorte une retombée d’une interprétation étroite du test de Turing, une interprétation rendue possible par l’évolution de la pensée occidentale au cours de quatre ou cinq siècles. Si vous pensez que la « pensée » ou l’« intelligence » n’est possible qu’au sein d’un organisme incarné et vivant, il serait absurde de demander « Les machines peuvent-elles penser ? » comme l’a fait Turing dans son article fondateur.

Ainsi, le simple fait d’envisager l’intelligence synthétique comme une chose exige que l’on croie que l’intelligence ou la pensée peuvent exister en dehors d’un organisme incarné et vivant. René Descartes, le philosophe du XVIIe siècle, connu dans la culture populaire contemporaine par la citation omniprésente « Je pense, donc je suis », a postulé que le siège de la pensée dans le corps humain est l’esprit, et que le corps ne peut pas penser. Cette idée, appelée dualisme cartésien corps-esprit, établit une hiérarchie entre l’esprit (la partie pensante) et le corps (la partie non pensante), marquant ainsi une étape vers la localisation de l’intelligence au sein de l’organisme vivant.

Le projet de haut niveau d’intelligence synthétique ne dispose d’aucun critère naturel de succès

Peu de temps après Descartes, de l’autre côté de la Manche, un autre grand philosophe, Thomas Hobbes, écrira dans son opus majeur, le Léviathan (1651), que « la raison… n’est rien d’autre qu’un calcul ». Le calcul doit être interprété comme impliquant des opérations mathématiques telles que l’addition et la soustraction. Descartes et Hobbes avaient leurs désaccords de fond, mais leurs idées se complètent bien : l’un localise la pensée dans l’esprit, et l’autre caractérise de manière réductrice la pensée comme un calcul. La puissance de cette synergie est évidente dans les réflexions de Gottfried Leibniz, un philosophe probablement familier avec le dualisme de Descartes et le matérialisme de Hobbes alors qu’il était jeune adulte, et qui poussa encore plus loin la vision réductionniste de la pensée humaine. « Lorsqu’il y a des disputes entre personnes », écrivait-il en 1685, « nous pouvons simplement dire : “Calculons” et, sans plus tarder, voir qui a raison ». Pour Leibniz, tout peut se réduire à un calcul. C’est dans ce contexte de la pensée occidentale que Turing posera, trois siècles plus tard, la question : « Les machines peuvent-elles penser ? » Il est à noter que de telles idées ne sont pas sans détracteurs — la cognition incarnée a connu un regain d’intérêt récemment, mais reste encore marginale.

Si des siècles de substrat philosophique de ce type constituent un terrain fertile pour imaginer l’intelligence synthétique comme du calcul, un projet mathématique ou d’ingénierie visant à développer l’intelligence synthétique ne peut prendre son envol sans moyens de quantifier le succès. La plupart des recherches scientifiques et techniques viennent avec des critères de succès naturels. La mesure du succès dans le développement d’un avion est de voir s’il peut voler — combien de temps, à quelle hauteur, avec quelle stabilité — tout cela se prêtant à des mesures quantitatives. Cependant, le projet de haut niveau d’intelligence synthétique ne dispose d’aucun critère naturel de succès. C’est là que le « jeu de l’imitation » a fourni un point de départ indispensable ; il a affirmé que le succès du développement de l’intelligence artificielle peut simplement être mesuré en fonction de sa capacité à générer des résultats d’apparence intelligente pouvant passer pour ceux d’un être humain.

Tout comme les idées de Descartes suggéraient qu’il n’était pas nécessaire de se soucier du corps pour étudier la pensée, et dans un esprit réducteur similaire, la structure du « jeu d’imitation » suggérait que l’intelligence artificielle n’avait pas à se préoccuper du processus (le comment), mais pouvait simplement se concentrer sur le résultat (le quoi). On peut dire que ce dicton a façonné l’intelligence artificielle depuis lors : si une technologie peut bien imiter les humains, elle est « intelligente ».

Ayant établi que l’imitation est suffisante pour l’intelligence, la communauté de l’IA dispose d’un objectif naturel. Le test de Turing stipule que l’humain doit être trompé par la technologie et croire qu’il interagit avec un autre humain pour prouver son intelligence, mais ce critère est abstrait, qualitatif et subjectif. Certains humains peuvent être plus habiles que d’autres à déceler les signes subtils d’une machine, tout comme certains vérificateurs de faits contemporains ont le don de repérer la moindre preuve d’inauthenticité dans les deepfakes. La communauté de l’IA doit trouver des voies fiables pour développer des imitations technologiques qui pourraient être généralement considérées comme intelligentes par les humains — en termes simples, il doit y avoir une structure généralisable adéquate pour feindre l’intelligence de manière fiable. Cela est évident dans les propres mots de McCarthy en 1983, lorsqu’il caractérise l’IA comme « la science et l’ingénierie permettant aux ordinateurs de résoudre des problèmes et de se comporter d’une manière généralement considérée comme intelligente » — de ces deux choses, la première n’est pas nouvelle, la seconde l’est. Nous examinerons deux voies dominantes qui, des années 1960 aux années 1980, ont alimenté la quête de progrès de l’IA par la conception d’une technologie d’imitation.

Dans les années 1960, Joseph Weizenbaum a développé un simple chatbot dans le cadre de la psychothérapie Rogerienne, où l’idée est d’encourager le patient à réfléchir lui-même à sa condition. Le chatbot, appelé ELIZA, utilisait des règles de transformation simples, souvent dans le seul but de renvoyer la responsabilité à l’humain. Bien que très différent des grands modèles de langage (LLM) dans ses aspects internes, l’émergence de ces derniers a donné lieu à des récits comparant et opposant ces deux types d’outils.

Lorsqu’une partie d’un mécanisme est cachée à l’observation, le comportement de la machine semble remarquable

Un exemple de transformation, tiré de l’article de Weizenbaum sur le système, consiste à répondre à « Je suis (X) » en demandant simplement au chatbot « Depuis combien de temps es-tu (X) ? » Malgré la simplicité du traitement interne, les utilisateurs d’ELIZA, au grand amusement de M. Weizenbaum, l’ont souvent pris pour un être humain.

« Certains sujets ont été très difficiles à convaincre qu’Eliza (avec son script actuel) n’est pas humain », a écrit Weizenbaum (italiques d’origine) dans un article publié en 1966 dans Communications of the ACM, l’une des plus importantes revues d’informatique.

Cela rejoint une observation générale, qui pourrait sembler prophétique avec le recul, faite par Ross Ashby lors de la conférence de Dartmouth : « Lorsqu’une partie d’un mécanisme est cachée à l’observation, le comportement de la machine semble remarquable ».

Aujourd’hui, l’effet ELIZA est utilisé pour désigner l’erreur consistant à confondre la manipulation de symboles avec des capacités cognitives. Quelques années plus tard, le chercheur en sciences cognitives Douglas Hofstadter qualifiera l’effet ELIZA d’« indéracinable », suggérant qu’une crédulité inhérente à l’être humain pourrait suffire aux objectifs de l’IA. L’effet ELIZA — ou l’adéquation de la manipulation opaque de symboles pour paraître intelligente aux yeux des utilisateurs humains — allait propulser l’IA pendant les deux ou trois décennies à venir.

La vague d’IA symbolique a conduit au développement de plusieurs systèmes d’IA — souvent appelés « systèmes experts » — alimentés par des ensembles de règles de manipulation de symboles de taille et de complexité variables. L’une des principales réussites a été un système développé à l’université de Stanford dans les années 1970, appelé MYCIN, alimenté par environ 600 règles et conçu pour recommander des antibiotiques (dont beaucoup se terminent par -mycine, d’où le nom). L’une des principales réussites de l’IA au XXe siècle, la victoire de l’ordinateur joueur d’échecs Deep Blue d’IBM sur le champion du monde (humain) en titre en 1997, reposait également sur le succès de l’IA symbolique basée sur des règles.

Bien que l’IA symbolique opaque se soit beaucoup répandue, il existe un second mécanisme de haut niveau qui s’est avéré utile pour créer un semblant d’intelligence. Pour mieux comprendre cela, prenons un simple thermomètre ou un manomètre — ces dispositifs sont conçus pour mesurer la température et la pression. Ils n’ont évidemment rien à voir avec l’« intelligence » en tant que telle.

Mais connectons maintenant un simple mécanisme de décision au thermomètre : si la température dépasse un seuil prédéfini, il met en marche le climatiseur (et vice versa). Ces petits mécanismes de régulation, souvent appelés thermostats, sont omniprésents dans les appareils électroniques d’aujourd’hui, qu’il s’agisse de fours, de chauffe-eau, de climatiseurs, et sont même utilisés dans les ordinateurs pour éviter la surchauffe. La cybernétique, le domaine des dispositifs basés sur la rétroaction tels que les thermostats et leurs cousins plus complexes, était largement considérée comme une voie vers l’intelligence des machines. Grace Solomonoff note que « cybernétique » était un nom potentiel envisagé par McCarthy pour l’atelier de Dartmouth (au lieu de « intelligence artificielle »), l’autre étant « théorie des automates ». Le point essentiel ici est que le mécanisme d’autorégulation par détection-réponse utilisé dans des appareils tels que les thermostats pourrait s’apparenter à une forme d’intelligence. Nous ne pouvons que spéculer sur les raisons pour lesquelles nous pourrions penser ainsi ; peut-être est-ce parce que nous considérons que la perception est intrinsèquement liée à l’être humain (la perte de la capacité sensorielle — même la simple perte du goût, dont la plupart d’entre nous ont fait l’expérience au cours du COVID-19 — peut être très appauvrissante), ou parce que le corps maintient l’homéostasie, l’une des versions les plus complexes de l’autorégulation pour le maintien de la vie.

On a pu voir McCarthy parler des croyances d’un thermostat, et même étendre la logique aux guichets automatiques

Pourtant, nous ne risquons pas de confondre de simples thermostats avec des machines pensantes, n’est-ce pas ? À condition de ne pas penser comme McCarthy. Plus de vingt ans après l’atelier de Dartmouth, son organisateur pionnier écrira dans l’article « Ascribing Mental Qualities to Machines » (1979) que les thermostats avaient des croyances.

Il écrit : « Lorsque le thermostat estime que la pièce est trop froide ou trop chaude, il envoie un message en ce sens à la chaudière ». À certains moments de l’article, McCarthy semble reconnaître qu’il y aurait naturellement des critiques qui « considéreraient l’attribution de croyances à des machines comme une simple négligence intellectuelle », mais il poursuit en disant que « nous soutenons […] que cette attribution est légitime ».

McCarthy admet que les thermostats n’ont pas de formes de croyances plus profondes telles que les croyances introspectives, c’est-à-dire « il ne croit pas qu’il pense que la pièce est trop chaude » — une grande concession en effet ! Dans le monde universitaire, certains articles provocateurs ont tendance à être écrits juste par enthousiasme et commodité, surtout lorsqu’ils sont pris au dépourvu. Un lecteur qui a vu des épisodes d’enthousiasme injustifié déboucher sur des articles peut estimer raisonnable d’insister sur le fait que l’article de McCarthy ne devrait pas surinterpréter — il ne s’agissait peut-être que d’une argumentation ponctuelle.

Pourtant, l’histoire nous apprend que ce n’est pas le cas ; quatre ans plus tard, McCarthy écrira l’article « The Little Thoughts of Thinking Machines (Les Petites Pensées des Machines Pensantes) » (1983). Dans cet article, on le voit parler des croyances d’un thermostat, et même étendre la logique aux guichets automatiques, qui commençaient probablement à devenir un élément amusant d’automatisation à cette époque. Il écrit : « Le guichet automatique est un autre exemple. Il a des croyances telles que “Il y a suffisamment d’argent sur le compte” et “Je ne distribue pas autant d’argent” ».

Aujourd’hui, le mécanisme de détection-réponse alimente largement les robots, les robots humanoïdes dominant la représentation de l’intelligence artificielle dans l’imagerie populaire, comme on peut le constater en effectuant une rapide recherche d’images sur Google. L’utilisation de l’adjectif « intelligent » pour désigner les systèmes d’intelligence artificielle peut être considérée comme corrélée à une abondance de mécanismes de détection-réponse : les vêtements intelligents impliquent des capteurs déployés au niveau de la personne, les maisons intelligentes sont des maisons équipées de plusieurs capteurs interconnectés, et les villes intelligentes sont des villes dotées d’une surveillance abondante basée sur des capteurs. La nouvelle vague d’IA basée sur les capteurs, souvent appelée « internet des objets », repose sur ces capteurs.

L’IA symbolique opaque et la cybernétique pilotée par les capteurs sont des voies utiles pour concevoir des systèmes dont le comportement est généralement considéré comme intelligent, mais nous devons tout de même faire l’effort de concevoir ces systèmes. L’exigence de conception pose-t-elle des problèmes ? Cette question nous amène à la prochaine étape de la recherche en IA.

Le champ d’action de l’IA, en rapide expansion, a commencé à rencontrer des obstacles importants dans certaines tâches, vers les années 1980. Le livre Mind Children (1988) de Hans Moravec illustre parfaitement ce phénomène, connu sous le nom de « paradoxe de Moravec » :

Il est relativement facile de faire en sorte que les ordinateurs affichent des performances dignes d’un adulte lors de tests d’intelligence ou de jeux de dames, mais il est difficile, voire impossible, de leur donner les compétences d’un enfant d’un an en ce qui concerne la perception et la mobilité.

L’IA qui avait commencé à exceller aux dames et aux échecs grâce à des méthodes symboliques n’a pas été en mesure de progresser dans la distinction de caractères manuscrits ou l’identification de visages humains. Ces tâches peuvent entrer dans la catégorie des activités humaines (ou animales) innées, c’est-à-dire quelque chose que nous faisons instantanément et instinctivement sans pouvoir expliquer comment. La plupart d’entre nous peuvent reconnaître instantanément les émotions sur les visages des personnes avec un degré élevé de précision, mais ne seront pas enthousiastes à l’idée d’entreprendre un projet visant à élaborer un ensemble de règles pour reconnaître les émotions sur les images des personnes. Cela renvoie à ce que l’on appelle aujourd’hui le paradoxe de Polanyi : « Nous savons plus que nous ne pouvons dire » — nous nous appuyons sur des connaissances tacites qui ne peuvent souvent pas être exprimées verbalement, et encore moins être encodées dans un programme. Le train de l’IA s’est heurté à un mur.

Une analogie plutôt brutale (et volontairement provocante) pourrait être utile ici pour comprendre comment la recherche en IA à contourner ce dilemme. À l’école, chacun d’entre nous a dû passer et réussir des examens pour illustrer sa compréhension du sujet et l’atteinte des objectifs d’apprentissage. Pourtant, certains étudiants sont trop paresseux pour entreprendre ce travail difficile ; ils se contentent de copier les feuilles de réponses de leurs voisins dans la salle d’examen.

Nous appelons cela de la tricherie ou, en termes plus doux et plus sophistiqués, une faute professionnelle académique. Pour compléter l’analogie, notre protagoniste est le test de Turing, et les chercheurs en IA ne sont pas paresseux, mais ont épuisé les possibilités d’expansion pour s’attaquer à des tâches que nous effectuons grâce à un savoir tacite. Elle est tout simplement incompétente. Si le lecteur veut bien me pardonner ce ton insinuant, j’observe ici que l’IA a emprunté la même voie que l’étudiant paresseux : copier sur les autres — en l’occurrence, sur nous, les humains.

Les modèles rudimentaires sont des apprentis paresseux ; les modèles d’apprentissage profond sont des apprentis enthousiastes

Pour bien comprendre ce paradigme de la copie, considérons une tâche simple, celle d’identifier des visages dans des images. Pour les humains, c’est une tâche de perception facile. Nous voyons une image et reconnaissons instantanément le visage qui s’y trouve, le cas échéant — nous ne pouvons presque pas ne pas effectuer cette tâche chaque fois que nous voyons une photo (essayez). Cligner des yeux prendrait plus de temps.

Si vous confiez cette tâche à un ingénieur en IA aujourd’hui, il n’hésiterait pas à adopter une méthodologie axée sur les données ou l’apprentissage automatique. Il s’agit d’abord de rassembler un certain nombre d’images et de demander à des annotateurs humains de les étiqueter — chacune d’elles contient-elle un visage ou non ? On obtient ainsi deux piles d’images : l’une avec des visages, l’autre sans. Les images étiquetées seraient utilisées pour former les machines, et c’est ainsi que ces machines apprennent à faire la correspondance.

Cet ensemble d’images étiquetées est appelé données d’apprentissage. Plus le modèle d’apprentissage automatique est sophistiqué, plus il utilisera d’images, de règles et d’opérations pour décider si une autre image en face de lui contient un visage ou non. Mais le paradigme fondamental est celui de la copie à partir de données étiquetées par l’intermédiaire d’un modèle statistique, le modèle statistique pouvant être aussi simple qu’une similarité ou un ensemble de « paramètres » très complexes et soigneusement sélectionnés (comme dans les modèles d’apprentissage profond, qui sont plus à la mode actuellement).

Les modèles rudimentaires sont des apprentis paresseux, car ils ne consultent pas les données que lorsqu’une décision est demandée, alors que les modèles d’apprentissage profond sont des apprentis enthousiastes, car ils distillent les données d’apprentissage dans des modèles statistiques dès le départ, permettant ainsi de prendre des décisions rapidement.

Bien que les types de tâches et les modèles de prise de décision soient extrêmement complexes et variés, le principe fondamental reste le même : des objets de données similaires sont utiles à des fins similaires. Si l’apprentissage automatique avait une église, la façade pourrait arborer le dicton (en latin, comme on le fait pour les églises) : Similia objectum, similia proposita. Si vous êtes curieux de savoir ce que cela signifie, n’hésitez pas à consulter une IA pilotée par des données et spécialisée dans la traduction linguistique.

L’apparition des grands modèles de langage (LLM) avec la sortie de ChatGPT fin 2022 a suscité une vague mondiale d’euphorie autour de l’IA qui se poursuit encore aujourd’hui. Elle a souvent été perçue dans la culture populaire comme un moment décisif, ce qui pourrait effectivement être le cas au niveau social, puisque l’IA n’avait jamais imprégné l’imagination du public comme elle le fait aujourd’hui. Pourtant, sur le plan technique, les LLM reposent sur l’apprentissage automatique et génèrent technologiquement une nouvelle forme d’imitation — une imitation des données — qui contraste avec le paradigme conventionnel impliquant l’imitation de décisions humaines sur des données.

Grâce aux LLM, l’imitation a pris une forme plus récente et plus généralisée — elle est présentée comme une personne omnisciente, toujours disponible pour être consultée sur n’importe quel sujet. Pourtant, elle suit le même chemin de copie familier qui est ancré au cœur de l’apprentissage automatique. Comme le dirait Emily Bender, éminente chercheuse en IA, et d’autres éthiciens de l’IA, il s’agit de « perroquets stochastiques » ; alors que les perroquets qui répètent simplement ce qu’ils entendent sont impressionnants en soi, les reproductions aléatoires — ou stochastiques — dépendantes des requêtes et sélectives des données d’apprentissage ont été découvertes comme paradigme pour créer un semblant d’action (ou de volonté) et, donc, d’intelligence. Le lecteur se souviendra peut-être que l’heuristique de manipulation de symboles opaques et la cybernétique axée sur les capteurs ont connu leur heure de gloire dans les années 1960 et 1970 — aujourd’hui, c’est au tour de la copie aléatoire de données.

Il est évident que les biais et les hallucinations sont des caractéristiques, et non des bogues

La valeur très appréciée des LLM réside dans la production de résultats impeccables : des textes agréables et bien écrits. On peut se demander comment les LLM génèrent un texte bien formé alors qu’une grande partie du texte disponible sur le web n’est pas d’aussi bonne qualité, et on peut même penser qu’il s’agit là d’un mérite intrinsèque de la technologie. C’est là qu’il devient intéressant de comprendre comment les LLM s’appuient sur diverses formes de données humaines. Il a été noté que le LLM commercial le plus populaire, ChatGPT, a employé des milliers d’annotateurs faiblement rémunérés au Kenya pour évaluer la qualité des textes humains et, en particulier, pour exclure ceux qui sont considérés comme toxiques. Ainsi, la qualité supérieure observée du texte LLM est également un artefact et un résultat du paradigme d’imitation ancré au cœur de l’IA.

Une fois que l’on a compris cela, il est plus facile de comprendre pourquoi les LLM peuvent produire des résultats substantiellement biaisés, y compris en ce qui concerne les questions de sexe et la race, comme l’ont montré des recherches récentes. Le paradigme du copiage aléatoire de données implique de mélanger et de faire correspondre des motifs provenant de différentes parties des données d’entraînement — cela crée des récits qui ne s’accordent pas bien et qui produisent par conséquent des textes absurdes et illogiques embarrassants, souvent qualifiés d’« hallucinations ». Si l’on considère les LLM comme une imitation sous stéroïdes, il est évident que les biais et les hallucinations sont des caractéristiques, et non des bogues. Aujourd’hui, le succès des LLM s’est étendu à d’autres types de données, annonçant l’avènement de l’IA générative qui englobe la génération d’images et de vidéos, toutes infestées de problèmes de biais et d’hallucinations, comme on peut s’y attendre.

Adoptons une position contradictoire par rapport à ce qui a été dit jusqu’à présent. L’intelligence artificielle, telle qu’elle existe aujourd’hui, peut être conçue pour produire des imitations afin de feindre l’intelligence. Mais si elle fait son travail, pourquoi s’obséder à pinailler ?

C’est là que les choses se compliquent un peu, mais deviennent très intéressantes. Prenons l’exemple d’un radiologue formé pour diagnostiquer des maladies à partir de radiographies. Sa décision est largement influencée par sa connaissance de la biologie humaine. Nous pouvons faire appel à de nombreux radiologues experts pour étiqueter les radiographies avec un diagnostic. Une fois qu’il y a suffisamment de paires radiographie-diagnostic, celles-ci peuvent être canalisées dans une IA pilotée par les données, qui peut alors être utilisée pour diagnostiquer de nouvelles radiographies. Tout va bien. Le décor est planté pour que certains radiologues reçoivent des lettres de licenciement.

Les années passent.

Par malchance, le monde est frappé par COVID-27, une pandémie respiratoire aux proportions épiques, comme son prédécesseur. L’IA ne sait rien de la COVID-27 et ne peut donc pas diagnostiquer la maladie. Ayant poussé de nombreux radiologues vers d’autres secteurs, nous n’avons plus assez d’experts pour poser un diagnostic. L’IA ne connaît rien à la biologie humaine et ses « savoirs » ne peuvent pas être réutilisées pour le COVID-27 — mais il existe une abondance de radiographies étiquetées pour le COVID-27, avec toutes ses variantes, pour réentraîner le modèle statistique.

La même IA qui a chassé les radiologues de leur travail a maintenant besoin de ces mêmes personnes pour lui « apprendre » à imiter les décisions relatives à COVID-27. Même si COVID-27 n’arrive pas, les virus mutent, les maladies changent, le monde ne reste jamais statique. Le modèle d’IA risque toujours d’être périmé. Par conséquent, un approvisionnement continu en données étiquetées par l’homme est l’élément vital de l’IA pilotée par les données, si elle veut rester pertinente face aux changements. Cette dépendance complexe à l’égard des données est un aspect latent de l’IA, que nous sous-estimons souvent au risque de nous mettre en péril.

Les modèles statistiques de l’IA codifient nos préjugés et les reproduisent avec un vernis d’objectivité computationnelle

Remplacez la radiologie par le maintien de l’ordre, la notation des évaluations universitaires, l’embauche et même la prise de décisions sur des facteurs environnementaux tels que les prévisions météorologiques, ou par des applications d’IA générative telles que la génération de vidéos et la rédaction automatisée d’essais, et la logique de haut niveau reste la même. Le paradigme de l’IA — caractérisé de manière intéressante par la populaire critique de l’IA Cathy O’Neil dans Weapons of Math Destruction (2016) comme « projetant le passé dans l’avenir » — ne fonctionne tout simplement pas pour les domaines qui changent ou évoluent. À ce stade, nous ferions bien de nous souvenir d’Héraclite, le philosophe grec qui a vécu il y a 25 siècles — il disait en plaisantant que « le changement est la seule constante ».

Comme le dirait l’historien Yuval Noah Harari, croire que l’IA sait tout, qu’elle est vraiment intelligente et qu’elle est venue nous sauver, favorise l’idéologie du « dataïsme », qui est l’idée d’attribuer une valeur suprême aux flux d’informations. En outre, étant donné que l’étiquetage humain — en particulier dans la prise de décisions sociales telles que le maintien de l’ordre et l’embauche — est biaisé et truffé de stéréotypes de toutes sortes (sexisme, racisme, âgisme et autres), les modèles statistiques de l’IA codifient ces biais et les reproduisent avec un vernis d’objectivité computationnelle. L’élucidation de la nature des relations plus fines entre le paradigme de l’imitation et le problème des préjugés de l’IA est une histoire pour un autre jour.

Si les imitations sont si problématiques, à quoi servent-elles ? Pour comprendre cela, nous pouvons nous inspirer des travaux de Karl Marx sur la critique de l’économie politique du capital, le capital étant considéré comme l’éthique sous-jacente du système économique d’exploitation que nous appelons capitalisme. Selon Marx, le capital ne se préoccupe de l’utilité des objets que dans la mesure où ils ont la forme générale d’une marchandise et peuvent être échangés sur les marchés à des fins monétaires. En d’autres termes, pour accroître les profits, les efforts visant à améliorer la présentation — par le biais d’une myriade de moyens tels que l’emballage, la publicité et autres — seraient beaucoup plus importants que les efforts visant à améliorer la fonctionnalité (ou la valeur d’usage) de la marchandise.

La subordination du contenu à la présentation est donc, malheureusement, la tendance dans un monde capitaliste. Si l’on étend l’argument de Marx à l’IA, le paradigme de l’imitation intégré à l’IA est adéquat pour le capital. Sur la base de cette compréhension, l’interprétation du jeu d’imitation — euh, du test de Turing — comme un Saint Graal de l’IA est en harmonie avec le système économique capitaliste. De ce point de vue, il n’est pas difficile de comprendre pourquoi l’IA a créé une synergie avec les marchés et pourquoi l’IA est devenue une discipline dominée par les grands acteurs du marché, tels que les géants de la technologie de la Silicon Valley. Cette affinité de l’IA avec le marché a été illustrée dans un document qui montre comment la recherche sur l’IA a été de plus en plus corporatisée, en particulier lorsque le paradigme de l’imitation a pris son essor avec l’émergence de l’apprentissage profond.

La vague d’IA générative a déclenché un immense débat public sur l’émergence d’une véritable intelligence artificielle générale. Cependant, comprendre l’IA comme une imitation nous aide à voir clair au-delà de cette euphorie. Pour utiliser une analogie trop simpliste, mais instructive, les enfants peuvent voir une forme d’action (ou de volonté) dans des applications d’imitation comme My Talking Tom — pourtant, il est évident qu’un Talking Tom ne deviendra pas un vrai chat qui parle, quels que soient les efforts de l’enfant. Le marché peut nous offrir des imitations sophistiquées et intelligentes, mais ces améliorations sont structurellement incapables de faire le saut qualitatif de l’imitation à l’intelligence réelle. Comme l’a écrit Hubert Dreyfus dans What Computers Can’t Do (1972), « le premier homme à grimper à un arbre pourrait prétendre à un progrès tangible pour atteindre la lune » — pourtant, atteindre la lune requiert des méthodes qualitativement différentes de celles utilisées pour grimper à un arbre. Si nous voulons résoudre des problèmes réels et réaliser des progrès technologiques durables, il nous faudra peut-être bien plus qu’une obsession pour les imitations.

Deepak P est professeur associé à l’école d’électronique, d’ingénierie électrique et d’informatique de l’université Queen’s de Belfast, au Royaume-Uni, et membre auxiliaire de la faculté du département d’informatique et d’ingénierie de l’Institut indien de technologie de Madras, en Inde. Il est l’auteur de plusieurs publications de recherche, y compris des chapitres de livres et des livres, sur divers sujets liés à l’intelligence artificielle. Ses recherches portent sur l’analyse de l’économie politique de l’intelligence artificielle.

Texte original : https://aeon.co/essays/is-ai-our-salvation-our-undoing-or-just-more-of-the-same