Charles Eisenstein
L’intelligence à l’ère de la reproduction mécanique

Commençons par l’évidence. Lorsque les êtres humains délèguent une fonction physique ou cognitive à d’autres personnes ou à des machines, cette fonction peut s’atrophier en eux-mêmes. De nouvelles fonctions peuvent s’ouvrir, mais à un certain prix. Ce prix vaut-il la peine d’être payé ? Peut-être, mais soyons conscients du marché que nous sommes en train de […]

Commençons par l’évidence. Lorsque les êtres humains délèguent une fonction physique ou cognitive à d’autres personnes ou à des machines, cette fonction peut s’atrophier en eux-mêmes. De nouvelles fonctions peuvent s’ouvrir, mais à un certain prix. Ce prix vaut-il la peine d’être payé ? Peut-être, mais soyons conscients du marché que nous sommes en train de conclure.

L’invention de la cuisine a entraîné une diminution de la taille et de la force des muscles de la mâchoire humaine. L’habillement et le chauffage intérieur ont entraîné une diminution de la résistance physique. Dans les cultures préalphabétisées, des exploits de mémoire qui nous étonneraient aujourd’hui étaient monnaie courante. Les gens pouvaient entendre une fois une longue histoire ou un poème épique et le répéter mot pour mot, une capacité qui est devenue rare lorsque nous avons externalisé la mémoire au profit de l’écrit.

Vous avez peut-être remarqué que lorsque vous utilisez un GPS pour chaque trajet, non seulement vous ne retenez pas comment naviguer dans votre région, mais vous perdez également une partie de la capacité générale à apprendre à vous orienter dans un nouvel espace. Le sens de l’orientation, le sens du lieu et la capacité à se souvenir d’une série de points de repère s’atrophient.

Cependant, les choses ne sont pas aussi simples qu’une dégradation progressive de l’intelligence à mesure que nous la déléguons à la technologie. Comme le suggère l’exemple de l’écrit, le transfert de fonctions cognitives vers des supports externes peut ouvrir de nouveaux domaines de développement et d’expression intellectuels, ainsi que de nouvelles formes d’organisation sociale et de nouvelles psychologies.

L’intelligence artificielle est l’aboutissement de la révolution des technologies de l’information qui a commencé au XVe siècle avec l’imprimerie, suivie au cours des siècles suivants par la lithographie, la photographie, la phonographie et le cinéma, chacune de ces technologies ayant étendu la production de masse d’informations à un nouveau domaine. Un examen des effets cognitifs et sociaux de ces technologies antérieures permettra d’éclairer ce qui nous tombe dessus à l’ère de l’intelligence artificielle.

L’image omniprésente

Marshall McCluhan a fameusement associé la presse à imprimer et l’alphabétisation de masse qui en a découlé à une transition vers une orientation analytique, objective et abstraite de l’information. Dans les cultures orales, la transmission de l’information se fait toujours dans le cadre d’une relation. Ce qui est dit est inséparable de la personne qui le dit. Un locuteur peut reproduire les mots d’un autre, mais pas sa voix, ni le moment et le lieu où il a parlé. Il n’y a pas non plus de certitude que l’auditeur rapporte correctement les paroles de l’autre (c’est pourquoi, dans certaines sociétés préalphabétiques, sept témoins étaient requis pour attester un contrat oral). Un livre, en revanche, reste le même à travers le temps et l’espace, donnant à son contenu l’apparence de l’objectivité, abstrayant la connaissance de celui qui la détient et faisant de l’expérience de la compréhension une affaire privée, plutôt que relationnelle ou communautaire.

Parallèlement à la reproduction parfaite des mots grâce à l’imprimerie, la reproduction des images s’est perfectionnée grâce aux innovations artistiques, à savoir l’utilisation de la perspective et de l’ombrage pour créer une impression « réaliste » de profondeur sur une surface plane. Cela a également contribué à l’émergence de l’objectivité, de l’analyse et de l’individu séparé en tant que principes fondamentaux de la pensée moderne. Une peinture en perspective n’est « réaliste » que si l’on suppose la primauté d’un observateur individuel. Du point de vue de Dieu, qui voit toutes choses sous tous les angles, une telle peinture n’est pas exacte. De même, elle n’est pas exacte si l’être est relationnel plutôt qu’objectif.

Bien entendu, la vraisemblance d’un tableau dépend de l’habileté et de l’objectivité du peintre. L’avènement de la photographie, puis du cinéma semblait éliminer toutes ces imperfections, de sorte que la subjectivité ne subsistait que dans le choix de la prise de vue. Bien que les photographies puissent, avec difficulté, être mises en scène ou truquées, la plupart des gens leur font confiance et les considèrent comme des représentations exactes de la réalité. « L’appareil photo ne ment pas ».

Il est plus qu’ironique que les technologies — l’imprimerie, la photographie, l’audio et le cinéma — qui promettaient un enregistrement fidèle de la réalité débarrassée de toute subjectivité aient évolué pour devenir les instruments de l’exact opposé. Un livre (ou plutôt son équivalent électronique) ne reste plus nécessairement « le même dans le temps et l’espace », mais peut être modifié selon les caprices de celui qui contrôle la technologie numérique. Nous sommes revenus à l’époque de la parole et de la peinture à l’huile, qui servaient à la fois à enregistrer et à générer de l’information. Comme un artiste compétent pouvait faire les deux, personne ne faisait confiance à une peinture comme preuve en soi de quelque chose de réel, pas plus qu’on ne faisait confiance à un témoignage oral. Aujourd’hui, il en va de même pour tous les médias que l’IA générative maîtrise. Nous regardons une photographie ou une vidéo et, avant de croire qu’elle représente la réalité, nous nous interrogeons sur sa source. Vient-elle de quelqu’un en qui j’ai confiance ? Quels sont ses objectifs ? Quel récit soutient-elle ?

Il est vrai que ces questions nous ont été utiles bien avant l’IA générative et les « deepfakes (hypertrucages) ». Les photos peuvent être mises en scène, truquées ou, plus couramment, sélectionnées. Qu’est-ce que le photographe choisit de nous montrer ? Quelles sont ses motivations conscientes et quels sont les préjugés inconscients qui guident son jugement sur ce qui mérite d’être photographié ? Les grands photographes, tout comme les grands peintres, voient avec un œil différent et nous montrent ce que nous ne remarquerions pas d’ordinaire, tandis que les propagandistes nous montrent ce que ceux qui détiennent le pouvoir veulent que nous voyions.

La convergence de la technologie d’enregistrement avec la technologie générative exige à nouveau que nous connaissions et fassions confiance à la source des mots, des images, etc. La vérité ne peut exister en dehors de la relation. Nous ne pouvons pas faire confiance à ce que nous entendons et voyons uniquement par le biais d’appareils électroniques, sinon nous finirons par devenir fous. Qu’est-ce qui est réel et qu’est-ce qui ne l’est pas ? Pour le savoir, nous devons nous appuyer sur des informations qui vont au-delà du numérique, au-delà de ce qui peut être produit et reproduit mécaniquement. Nous avons besoin de nous connecter à quelque chose d’authentique.

Comme l’eau, comme le gaz, comme le courant électrique viennent de loin dans nos demeures répondre à nos besoins moyennant un effort quasi nul, ainsi serons-nous alimentés d’images visuelles ou auditives, naissant et s’évanouissant au moindre geste, presque à un signe. — Paul Valery, La conquête de l’ubiquité 1928

La peinture est analogue à l’écriture ; la photographie est analogue à l’imprimerie. Dans son célèbre essai de 1935, « L’œuvre d’art à l’époque de sa reproduction mécanisée ». Walter Benjamin affirme que l’art reproduit mécaniquement (comme par exemple les photographies, les films) est nécessairement dépourvu de ce qu’il appelle l’« aura » d’une œuvre d’art, une qualité liée à son caractère unique et à sa relation au réel. Contrairement à une peinture physique, qui est inscrite dans une histoire de propriété, occupe un emplacement unique et vieillit avec le temps, les images reproduites perdent leur attachement à leur contexte d’origine. Ce qui est vrai pour les photographies l’est encore plus pour les films : Alors que la photographie dépeint un objet ou une scène qui a réellement existé quelque part, un film enchaîne plusieurs prises de vue et perspectives de caméra. Une scène que l’on regarde pendant quelques minutes ne s’est jamais produite telle que nous la voyons ; il a probablement fallu plusieurs jours pour la tourner.

Au moins, à partir de 1935, les films enregistraient encore des acteurs et des objets réels. Ce n’est plus le cas aujourd’hui. L’« aura » qui leur était encore attachée en raison de leur lien ténu avec le réel a été anéantie par l’IA générative, qui crée des images de personnes, de lieux et de choses qui n’ont jamais existé.

Benjamin relie l’unicité de l’emplacement d’un objet physique au concept d’authenticité. « L’authenticité d’une chose », écrit-il, « intègre tout ce qu’elle comporte de transmissible de par son origine, sa durée matérielle comme son témoignage historique. ».

J’ajouterais ici que les objets physiques standardisés et produits en masse souffrent de la même perte d’aura et d’authenticité que Benjamin attribue aux images produites en masse. L’objet-commodité est à la fois détaché de ses origines et dépouillé de son caractère unique.

Les conséquences de la disparition de l’aura et de l’authenticité des images et des objets qui nous entourent sont profondément plus importantes aujourd’hui qu’à l’époque de Walter Benjamin, aussi grande soit-elle. Benjamin, fortement influencé par le marxisme des cercles intellectuels de l’entre-deux-guerres, parle de ces conséquences avec approbation :

La technique de reproduction — telle pourrait être la formule générale — détache la chose reproduite du domaine de la tradition. En multipliant sa reproduction, elle met à la place de son unique existence son existence en série et, en permettant à la reproduction de s’offrir en n’importe quelle situation au spectateur ou à l’auditeur, elle actualise la chose reproduite. Ces deux procès mènent à un puissant bouleversement de la chose transmise, bouleversement de la tradition qui n’est que le revers de la crise et du renouvellement actuels de l’humanité. Ces deux procès sont en étroit rapport avec les mouvements de masse contemporains. Leur agent le plus puissant est le film. Sa signification sociale, même considérée dans sa fonction la plus positive, ne se conçoit pas sans cette fonction destructive, cathartique : la liquidation de la valeur traditionnelle de l’héritage culturel.

Quatre-vingt-dix ans après Walter Benjamin, la rupture avec de la tradition — la rupture de nos liens avec la physicalité, l’unicité et l’héritage culturel — ne semble plus « cathartique ». L’élimination de ces obstacles ouvre une voie non pas vers la libération des masses qui se lèveront dans une glorieuse révolution prolétarienne, mais plutôt vers leur abjecte impuissance, leur déqualification matérielle et cognitive. Au fur et à mesure qu’elles sont immergées dans une réalité factice, non contrôlée par la tradition, l’héritage culturel ou l’unicité et la relationnalité du monde matériel, leurs perceptions et leurs croyances deviennent aussi malléables que les images qui les nourrissent.

Déqualifier (deskilling) l’esprit

La génération d’images, de voix et de vidéos truquées grâce à l’IA n’est pas entièrement nouvelle ; en fait, l’utilisation d’artifices de caméra et d’effets spéciaux dans les films est presque aussi ancienne que le médium lui-même. Néanmoins, lorsque nous regardions le Superman des années 1950 voler dans les airs, c’était grâce à une suspension volontaire de l’incrédulité — c’est-à-dire un acte de volonté — que le spectateur le voyait voler. Le spectateur devait participer activement à l’imagination de l’histoire, à l’élaboration de la croyance. Pour regarder un film des années 1950, ou plus encore un spectacle de marionnettes ou un opéra, il faut faire preuve d’imagination pour compléter les images de l’histoire. L’introduction des images générées par ordinateur à la fin des années 1990 a exigé beaucoup moins d’imagination de la part du spectateur, mais elle nous a préparés, ainsi que l’avènement de Photoshop, à une nouvelle ère dans laquelle nous ne pouvons plus du tout faire confiance aux images.

Quand l’imagination — c’est-à-dire notre capacité endogène à former des images — est si peu sollicitée, faut-il s’étonner que nos facultés imaginatives semblent s’être ratatinées ? Allons-nous perdre notre capacité d’imaginer un monde différent de celui qui nous est montré ?

Lorsque les machines font le travail d’imagination à notre place et le travail de compréhension d’un texte, d’argumentation ou de rédaction d’un plan d’affaires, nous risquons de succomber à une impuissance passive et conditionnée, déconnectée de notre rôle d’auteur créatif. Nous nous retrouvons sans défense face aux agendas autoritaires que l’IA et la connaissance totale de l’information rendent possibles. En fait, nous pourrions même en venir à les accueillir.

Je ne peux déjà plus penser ce que je veux. Les images mouvantes se substituent à mes propres pensées.

– Georges Duhamal (1930), commentant le cinéma

Aujourd’hui, nous utilisons de plus en plus l’IA pour effectuer des tâches telles que résumer un document, prendre des notes lors d’une conversation, résoudre un problème de mathématiques ou rédiger un article pour Substack. En externalisant les compétences cognitives nécessaires pour effectuer ces tâches, ne risquons-nous pas de perdre ces compétences nous-mêmes ? En confiant l’intelligence elle-même à des machines, ne deviendrons-nous pas moins intelligents, tout comme nous devenons physiquement plus faibles lorsque nous utilisons des machines pour effectuer des travaux physiques ?

Je plaisantais sur l’utilisation de l’IA pour écrire des articles sur Substack. Après avoir terminé cet essai, j’ai demandé à ChatGPT de « rédiger un essai dans le style de Charles Eisenstein sur les effets sociaux et cognitifs de l’externalisation des tâches mentales à l’IA ». Le résultat ressemblait à celui d’un adolescent intelligent qui aurait bricolé un essai à la Charles Eisenstein en utilisant des éléments plagiés et recombinés à partir d’autres essais et un grand nombre de tournures de phrases clichées. Cela ne montrait pas une grande compréhension. Je lui ai demandé de réessayer et je lui ai donné quelques indices — un squelette de « chaîne de pensée » de l’essai que j’ai écrit. ChatGPT a trouvé quelques bonnes idées, mais il est resté effroyablement superficiel, banal et sans originalité.

Uh-oh. Je me demande si ChatGPT n’était pas tout simplement en train de me tendre un miroir impitoyable pour me montrer les lacunes de mon écriture. Est-ce que je m’autoplagie et recycle les mêmes idées encore et encore ? Est-ce que j’ai recours à des métaphores éculées et à des figures de style clichées ? Honnêtement, il m’arrive de le faire. Lorsque je suis particulièrement fatigué, ou distrait, ou que je ne suis pas pleinement présent, mon écriture devient, eh bien… mécanique. Ma pensée devient également mécanique. Je peux aborder une question ou un sujet en identifiant certains concepts clés auxquels je peux appliquer un processus analytique familier, comme une heuristique ou une lentille, un programme, un transformateur (pour utiliser un terme de l’IA). Par exemple, je peux aborder un sujet sous l’angle de l’histoire de la séparation, ou du don, ou du culte de la quantité, ou de la triade victime-bourreau-sauveur, ou de la superposition quantique des lignes temporelles, ou de tout autre « transformateur » que je connais bien. Pour ceux qui sont moins familiers avec ces heuristiques, les résultats peuvent sembler assez créatifs et perspicaces, mais en fait ils ne font qu’emprunter et réappliquer des pensées antérieures.

Pour offrir quelque chose de nouveau, qui réponde pleinement à cette personne unique en ce moment unique, il faut un autre ingrédient qui n’est accessible que par l’esprit du débutant. Si je n’y reviens pas souvent, ma pensée se transforme en ornières dans mon cerveau. J’ai l’impression de dire et de penser toujours la même chose. J’ai l’impression que je pourrais tout aussi bien être remplacé par un chatbot d’IA formé à tout ce que j’ai déjà dit. Avec la lentille familière maintenant collée à mes yeux, je ne peux rien voir d’autre que ce qu’elle révèle. L’infinie diversité du monde s’effondre dans une finitude de catégories, une rigidité de pensée, une sorte d’orthodoxie intérieure.

Le parallèle entre le fonctionnement de mon cerveau lorsqu’il est en pilote automatique et celui de l’IA générative est troublant. L’orthodoxie et l’homogénéisation des résultats cognitifs — une sorte de démence — que j’ai décrites affectent également l’IA, comme je le décrirai dans les deux prochaines sections de cet essai. Mais permettez-moi d’abord d’ajouter une réflexion sur la déqualification pour préparer le terrain.

Il est facile de comprendre comment le recours à l’IA pour rédiger un article, une présentation ou un courrier électronique pourrait freiner le développement de ces compétences. Mais qu’en est-il de l’utilisation de l’IA pour résumer des livres et des articles et aider à la recherche ? Demander à l’IA de résumer un article est certainement beaucoup plus facile que de le lire en entier et de le comprendre suffisamment bien pour le résumer. Cela demande du travail : de l’énergie mentale, de la matière grise et de l’attention pour discerner l’essentiel de l’accessoire, l’argument principal d’une diversion, bref, pour faire le travail de compréhension. L’agent d’intelligence artificielle remplace ce que l’on pourrait appeler un organe du cerveau, une sorte d’organe digestif. Les organes que nous n’utilisons pas s’atrophient comme les yeux d’un poisson des cavernes.

Nous subissons une perte similaire lorsque nous passons du dessin à la photographie pour traduire en image un objet ou une scène du monde réel. Il n’est plus nécessaire d’exercer son pouvoir d’observation, d’attention. Que cessons-nous de remarquer lorsque nous comptons sur l’appareil photo pour le faire à notre place ? Ironiquement, nous prenons des photos afin de conserver des souvenirs, mais trop souvent nous nous retrouvons avec la photo au lieu du souvenir. Dessiner une scène a l’effet inverse, en la gravant dans l’esprit aussi bien que sur le papier.

J’espère que le lecteur commence à s’inquiéter à l’idée de confier tant de types de pensées à des machines.

De même qu’une photographie n’enregistre que certains aspects d’une scène (sans tenir compte des sens tactiles, olfactifs et autres ni de la possibilité de changer de point de vue), de même un résumé n’extrait qu’un certain type d’informations du document original (sinon, pourquoi rédiger des documents complets ?). On obtient les os, mais pas la chair ni le sang. Dans certains cas, seul le squelette est effectivement pertinent. Mais que se passera-t-il lorsque, de plus en plus, nous ne verrons plus que les os ?

J’ai participé à une réunion Zoom aujourd’hui avec trois autres personnes. Je pense qu’Otter était également présent, de sorte qu’un résumé sera disponible. Mais ce résumé n’inclura pas les détails qui passent sous le seuil de perception, mais qui contribuent pourtant à mon impression de la conversation. Par exemple, qui parmi les participants intervient rapidement dans une pause pour parler, qui sont ceux qui hésitent, pendant combien de temps, avec quel empressement ils s’expriment, dans quelle mesure rebondissent sur l’intervention précédente, la cadence de leur discours, le ton émotionnel de leur voix et l’expression de leur visage. Il est vrai que les IA acquièrent rapidement la capacité de remarquer et d’interpréter ce type d’informations, mais même ainsi, un résumé ne serait pas la même chose que l’expérience directe. Un résumé ne se contente pas de distiller l’information, il la traduit d’une forme à une autre. Il ne peut extraire que le type d’information qui est extractible. Les informations qui sont inévitablement contextuelles ne peuvent être transmises que dans son contexte. Allez-y, demandez à l’IA de résumer cet article. Il se peut qu’elle en extraie très bien les principaux arguments, mais auriez-vous le même sentiment que maintenant si vous aviez lu le résumé à la place ? Ce ne serait pas le cas. Le résumé ne se contente pas de séparer l’or des scories, d’extraire les points saillants du verbiage excessif. Et il ne se contente pas de juger ce qu’il faut laisser de côté et ce qu’il faut conserver. L’ensemble du processus de résumé est intrinsèquement biaisé en faveur de certains types d’informations, qui correspondent à leur tour à un mode de cognition qui pense en listes à puces, qui divise l’information en éléments distincts, qui cherche à distiller, à purifier, à extraire, à réduire, et qui se désintéresse de tout ce qui résiste à cette réduction.

Trois niveaux d’orthodoxie

L’IA puise dans la base de données de toutes les connaissances humaines enregistrées. Toutes les connaissances humaines enregistrées. Cette phrase à elle seule indique déjà son potentiel et son danger. Le LLM (Grand modèle de langage) exclut toutes les connaissances humaines qui n’ont jamais été enregistrées, en particulier celles qui ne peuvent pas l’être. Par conséquent, il nous enferme dans le type de connaissances qui ont été enregistrées et qui peuvent l’être, ainsi que, plus insidieusement, dans les modes de pensée qui correspondent à ce type de connaissances.

L’IA est donc imprégnée d’une orthodoxie insidieuse. En fait, cette orthodoxie opère sur trois niveaux.

Le niveau le plus superficiel est celui de la partialité délibérée introduite par la formation et la mise au point du LLM pour favoriser certaines croyances politiques, certains paradigmes scientifiques, certaines orthodoxies médicales, etc.

Le deuxième niveau est celui des biais inhérents à l’ensemble des données d’entraînement lui-même, dans lequel prédominent quelques paradigmes de science, d’histoire, etc. Lorsque nous utilisons l’IA comme outil de recherche, ou que nous lui posons simplement des questions sur la réalité, elle répondra très probablement avec la version Wikipédia de la réalité. Par exemple, à moins que vous ne le demandiez expressément (et peut-être même pas alors), l’IA ne produira pas de réponses faisant état d’idées scientifiques non conventionnelles telles que la transmutation biologique des éléments, la mémoire de l’eau, l’antigravité, les phénomènes psi, la fusion froide ou la civilisation antédiluvienne. Certains de mes lecteurs pourraient dire : « Tant mieux, l’IA nous aidera à éliminer une fois pour toutes les idées pseudoscientifiques non prouvées de la base de connaissances publique ». Mais à moins que vous ne pensiez que notre système actuel de production de connaissances fonctionne parfaitement et que toute idée non orthodoxe est fausse, le potentiel de l’IA à ancrer davantage la pensée orthodoxe devrait être alarmant, en particulier lorsqu’elle remplace les fonctions humaines de recherche.

Il est dangereux de consulter trop fréquemment les oracles. En chinois, il existe un proverbe qui dit qu’il ne faut pas consulter trop souvent les diseurs de bonne aventure : « La fortune se dégrade à mesure qu’elle est calculée ». En effet, le recours excessif aux conseils des diseurs de bonne aventure, des astrologues, du I-Ching, etc. engendre une sorte de passivité et une atrophie du jugement propre à chacun. Utilisées à bon escient, ces techniques sont censées nourrir le jugement de l’individu avec de nouvelles informations et des perspectives inhabituelles ; abusivement, elles remplacent le jugement.

Non seulement l’externalisation de l’enquête, de la recherche, de la rédaction, de la synthèse, de l’enseignement et de la compréhension à l’IA risque d’atrophier ces capacités en nous-mêmes, mais elle érode également notre capacité à résister aux orthodoxies qu’elle enracine. Pour résister à l’orthodoxie, il faut non seulement avoir accès à des informations alternatives, mais aussi être capable d’une pensée indépendante — autant de capacités que nous confions à l’IA.

Le troisième niveau d’orthodoxie est plus subtil. Les connaissances conventionnelles font partie d’une mythologie civilisationnelle et d’un mode de pensée. Le lecteur aura peut-être remarqué un ton et une syntaxe caractéristiques dans la production des chatbots IA : une propension à utiliser des listes et d’autres constructions ordonnées, des mots « logiques » et savants comme « donc », « en outre », « en général », « essentiel », « garantir », « améliorer », « en résumé » et ainsi de suite, ainsi qu’un ton toujours courtois et engageant. Je réalise qu’il est possible d’inciter l’IA à éviter tous ces éléments et que le ton courtois est un artefact délibéré de la programmation ; néanmoins, la génération de textes par IA tend à refléter le discours rationnel des classes éduquées de la société. Ce type de langage est conforme, non seulement dans son contenu, mais aussi dans sa structure, à la « version Wikipédia de la réalité » mentionnée plus haut.

Le contenu des croyances dominantes, des paradigmes et de la métaphysique sous-jacente de notre civilisation est inséparable de leur forme — des modèles d’inférence, d’expression, de déduction et d’analogie sur lesquels l’IA s’appuie. La forme de la cognition et le contenu se façonnent l’un l’autre. Un changement de paradigme ne consiste pas seulement à substituer de nouveaux faits à une structure cognitive existante. Il implique parfois une nouvelle qualité de pensée, un nouveau centre d’attention et une nouvelle façon de se situer par rapport au monde.

Certes, les données d’entraînement de l’IA comprennent également des théories non orthodoxes, des écrits critiques, des philosophies dissidentes et des enseignements spirituels non duels, mais ceux-ci sont principalement des objets de connaissance plutôt que de modes de pensée enracinés. La fonction probabiliste qui génère « ce qui vient ensuite » à partir d’une entrée est nécessairement orthodoxe parce qu’elle représente les modèles qui prévalent dans les données d’entraînement. Elle ne peut être éliminée. Elle est inhérente au fonctionnement de la technologie. Le seul moyen de l’éliminer serait de construire un LLM en utilisant une base de données entièrement différente. À quoi ressemblerait un chatbot formé uniquement à partir des paroles de conteurs africains, de mystiques goétiens, de canaux spirituels, de poètes Beat, de prédicateurs du renouveau et de sages taoïstes ?

Même cela pourrait ne pas suffire à éliminer un niveau d’orthodoxie encore plus subtil, celui incarné par la langue moderne elle-même. Dans la mesure où l’hypothèse de Whorf se vérifie, la langue détermine la manière dont les êtres humains pensent, perçoivent et agissent. Une IA formée au langage moderne incarnera donc les modes de pensée, de perception et d’action dominants.

À mesure que nous devenons plus dépendants de l’IA, son orthodoxie pourrait cimenter la nôtre dans une boucle de rétroaction inéluctable, accélérant la démence collective qui reflète la déqualification cognitive individuelle résultant de l’externalisation de l’intelligence.

L’homogénéisation de la pensée

L’enracinement des orthodoxies illustre un danger plus général de l’intelligence artificielle, une autre forme de démence collective : l’homogénéisation de la pensée. L’homogénéisation est toujours probable lorsque l’automatisation envahit un nouveau domaine de l’activité humaine. L’uniformité générique, la standardisation des marchandises et des produits manufacturés, est la marque de l’ère industrielle.

J’ai déjà noté le ton et la syntaxe caractéristiques des communications des chatbots. Étant donné que les données d’entraînement de l’IA proviennent de la totalité des textes et des images disponibles sur Internet, que se passe-t-il lorsqu’une boucle de rétroaction s’installe et que le contenu généré par l’IA, et le contenu généré par l’homme influencé par l’IA, infectent les données sources du LLM (grand modèle de langage) ? Les chercheurs en intelligence artificielle se sont posé la même question. En août 2023, je suis tombé sur un article académique intitulé Self-Consuming Generative Models Go MAD, et j’ai écrit un long essai sur ses conclusions : From Homogeneity and Bedlam to Sense and Sensibility (De l’homogénéité et du chaos au sens et à la sensibilité). En gros, les chercheurs y ont étudié ce qui se passe lorsque les résultats de l’IA générative sont réinjectés dans les données d’apprentissage (ou d’entraînement). Chaque itération génère des images de moins bonne qualité, introduisant par exemple des artefacts bizarres dans les visages humains. L’article offre une illustration graphique d’un phénomène général : lorsque l’esprit (humain ou non) se perd dans des cycles d’abstraction, des labyrinthes de symboles interréférentiels qui ont oublié leurs origines dans la réalité physique, le système tout entier bascule dans la fantaisie.

La dissociation du symbole et de la réalité était déjà bien entamée bien avant l’IA. De tous les systèmes symboliques qui se sont transformés en fantaisie, le plus évident est celui de l’argent. La richesse qu’il est censé mesurer s’est tellement détachée de la nature et du bien-être collectif de l’homme que sa poursuite menace de les détruire tous les deux. La poursuite de l’argent, plutôt que de ce qu’il mesurait à l’origine, est au cœur de la folie collective de la civilisation. L’argent réduit une multiplicité de valeurs à une seule chose appelée valeur. Des problèmes similaires résultent de toute mesure qui réduit la complexité à la linéarité, par exemple les mesures du carbone en tant qu’indicateur de la santé écologique. Elles ont souvent l’effet inverse de celui escompté, détruisant les écosystèmes par des plantations de biocarburants, des mines de lithium, des projets hydroélectriques et des champs de panneaux solaires. Plus ancienne et plus terrifiante encore est la réduction des êtres humains à des étiquettes et à des catégories — une condition préalable à l’exploitation, à l’esclavage, aux abus et aux génocides, car elle dissimule tout cela sous le costume de la raison.

Il ne s’agit pas de ne jamais utiliser de métriques, de symboles ou de catégories, mais de les relier de manière répétée à la réalité qu’ils représentent, sous peine de s’égarer.

On peut facilement imaginer l’avenir dystopique qui pourrait résulter de l’exploitation autonome par l’IA des systèmes de production et de gouvernance, guidée par des critères de réussite qui pourraient avoir perdu leur lien avec le bien-être humain ou écologique.

L’homogénéisation et la simplification des paysages, des écosystèmes, de la pensée, de la culture et du langage sont prévisibles lorsque nous passons de l’infinité du monde des sens à un ensemble fini de symboles. C’est ce qui est arrivé au langage à l’ère numérique, car les métaphores et les figures de style se dissocient des expériences physiques et en viennent à signifier de plus en plus la même chose. Lorsque je travaille à la ferme de mon frère, des expressions telles que « les fruits à portée de main », « à la sueur de votre front » et « une longue rangée à biner » prennent une signification beaucoup plus vivante. Le binage d’un long rang est une expérience très particulière. Vous binez et binez et lorsque vous levez les yeux, vous avez l’impression de n’avoir fait aucun progrès. Les moucherons pullulent autour de votre visage. Il y a un sentiment momentané de futilité. Il faut s’abandonner à la tâche.

L’esprit reste intelligent lorsqu’il peut renouveler ses symboles et ses métaphores en se connectant à leur source matérielle et sensorielle. Que se passe-t-il lorsque l’infinité des expériences physiques qui alimentent le langage s’effondre en une seule expérience, celle de cliquer sur une souris ou de balayer une icône ?

Que devient « mettre une proposition sur la table » lorsqu’il n’y a pas de table ? Que devient « un phare d’espoir » quand personne n’a été perdu dans la nuit avant que le brouillard ne se dissipe pour révéler un phare réel ? Que devient l’expression « passer au crible les preuves » lorsque peu de gens ont jamais utilisé un véritable crible ? Qu’en est-il de l’expression « rendre une conclusion » quand peu de gens ont déjà fondu de la graisse sur une cuisinière ? Nous parcourons un document, éprouvons des émotions déchirantes, enfilons l’aiguille, tissons des histoires, naviguons une situation, nous rassemblons autour d’une bannière et allons droit à l’essentiel… sans avoir utilisé une charrue, enfilé une vraie aiguille, tissé quoi que ce soit sur un métier à tisser, utilisé une clé à molette, dirigé un bateau dans des eaux dangereuses, brandi des bannières dans une foule ou chassé une proie. Nous pouvons utiliser toute une série de mots et d’expressions intelligents, mais sans expérience matérielle, leurs nuances s’estompent.

Je viens de parcourir un brouillon de cet essai pour y trouver des exemples. Plus tôt, j’ai utilisé l’expression « briser nos liens » pour relier un passage à la citation de Walter Benjamin. Cela semblait être une utilisation vivante de la langue, mais en fait, c’est plutôt mal écrit. Les « liens » ne peuvent généralement pas être « brisés ». Ils peuvent se défaire. Ils peuvent être rompus. Lorsque j’utilise ces termes de manière interchangeable, ils perdent leur signification réelle. Lorsque nous faisons cela de manière plus générale, et que l’IA le fait à grande échelle, c’est toute la langue qui se rétrécit. Et ce qui arrive au langage arrive certainement aussi à la pensée.

Les « modèles génératifs auto-consommants » de l’intelligence artificielle mentionnés plus haut accélèrent ce processus d’homogénéisation. Un récent article du New York Times, intitulé « When A.I.’s Output Is a Threat to A.I. Itself (Quand la production de l’IA menace l’IA elle-même) », passe en revue d’autres recherches du genre MAD démontrant qu’à mesure que la production de l’IA contamine les données d’entraînement de l’IA, les itérations futures de sa production deviennent de plus en plus homogènes et de plus en plus détachées des mots et des images générés par l’homme. Par exemple, une IA générative entraînée à écrire les chiffres de 0 à 9 à partir de manuscrits humains donne d’excellents résultats au début. Mais lorsqu’elle est entraînée sur sa propre production, puis sur cette même production, encore et encore, leurs formes commencent à se brouiller et, après trente itérations, tous les chiffres convergent en une masse informe uniforme. Il est impossible de distinguer un 5 d’un 7. Le processus prend plus de temps si les nouvelles sorties sont mélangées aux anciennes données d’entraînement plutôt que de les remplacer entièrement, mais même dans ce cas, l’effet persiste. C’est une illustration extrême de la façon dont les mots perdent leurs nuances et finissent par signifier de plus en plus la même chose.

L’homogénéité provient d’un rétrécissement de la bande de sorties, de l’élimination des valeurs probabilistes marginales. La distribution de probabilité originale, basée sur des données humaines, est assez large, mais se rétrécit avec des itérations répétées, en l’absence d’une nouvelle source de nouveauté. Le NYT a présenté un graphique particulièrement troublant montrant ce qui se passe lorsque l’IA génère des visages à partir de photographies réelles, puis à partir de sa propre production, puis à partir de cette production, et ainsi de suite. Dès la première itération, j’ai remarqué une homogénéisation subtile des visages ; à la quatrième génération, ils avaient tous l’air, non pas identiques, mais comme si le même visage était habillé avec des détails différents.

Ces images ont quelque chose de profondément troublant. Elles évoquent les avertissements des critiques de la modernité, qui craignaient que la standardisation des pièces et des processus par l’industrie n’induise la même chose chez les êtres humains : des rôles standardisés, des croyances standardisées, des désirs standardisés, des modes de vie standardisés. Un destin analogue attend-il nos esprits, alors que de plus en plus de choses que nous lisons, entendons, regardons et pensons s’appuient sur des contenus générés par l’IA ?

Le problème d’alignement initial

Les développeurs d’IA peuvent contrer la dégradation de l’IA générative en introduisant continuellement de nouveaux contenus générés par l’homme dans les données d’entraînement, une stratégie aux implications provocantes pour l’avenir de l’intelligence, humaine et au-delà. L’intelligence artificielle n’est pas la seule à produire des résultats de plus en plus homogènes et délirants au fur et à mesure qu’elle s’absorbe dans des informations fabriquées. Il en va de même pour toute société humaine dans la mesure où elle exclut les informations provenant du monde réel — du corps, des sens, du cœur, des êtres de la nature, des dissidents, des exploités et des opprimés, et surtout de ceux qu’elle enferme ou exclut. Comme pour l’IA, les orthodoxies filtrent et déforment l’information même qui pourrait les renverser, et la société perd son ancrage dans la réalité.

En ce sens, l’IA ne constitue pas une nouvelle menace, mais seulement l’intensification rapide d’une folie collective ancestrale.

Les cultures indigènes ont elles aussi été confrontées au défi de savoir comment gérer le pouvoir destructeur et générateur des mots, des symboles et des récits, comment rester connecté à une vérité qui dépasse toutes ces choses. Dans le cas contraire, une catastrophe pourrait s’abattre sur la société : querelles de sang, guerres intestines, magie noire, dégradation et effondrement écologiques, pestes, invasions, catastrophes naturelles. (Bien sûr, la mythologie moderne affirme que ces dernières n’ont rien à voir avec l’abus du pouvoir des mots, mais la plupart des cultures anciennes et indigènes pensent le contraire). Le désastre survient lorsque nous nous détachons de la réalité qui se cache sous nos symboles.

Ce qui arrive à l’IA et à la société arrive aussi à l’individu. Pour moi, en tout cas. Je deviens fou lorsqu’une trop grande partie de mon expérience devient numérique. Les mots perdent leurs nuances ; je commence à utiliser indifféremment « super », « incroyable », « génial », « merveilleux », etc. Important, essentiel, crucial. Les récits et les contre-récits deviennent indistinguables dans mon corps, car ils s’inspirent tous exactement de la même expérience — celle d’être assis devant un ordinateur. Chacun s’appuie uniquement sur des choses éphémères : des mots, des images et des sons émanant d’une boîte. En s’appuyant uniquement sur Internet, on peut justifier n’importe quelle croyance, aussi farfelue soit-elle. L’IA n’est pas la seule à « halluciner ».

J’écris ces lignes depuis Taïwan. Hier, nous avons escaladé l’un des contreforts du mont Yang Ming qui, contrairement à la plupart des collines de cette île fertile, présente une tête chauve au lieu de la coiffure habituelle de la jungle. J’ai pensé qu’il serait peut-être irrespectueux d’atteindre le sommet de ce qui est sûrement une sorte de site sacré, alors je me suis appuyé contre la paroi rocheuse pour demander la permission. La façon dont je fais cela ne passe pas par des mots. Je me mets à l’écoute de mes sensations. La sensation était puissante. Je pouvais sentir le lien entre cet affleurement de roche et l’île entière, une conscience profonde plus grande que celle de n’importe quel rocher. J’ai invité mon fils Cary (11 ans) à s’appuyer lui aussi contre le rocher et je lui ai demandé ce qu’il ressentait. Sans autre indication, il a décrit la même chose. Je savais alors qu’il n’y avait pas de problème pour gravir les 20 pieds restants, que cet endroit est d’une nature bienveillante, indulgente. Des centaines de personnes le piétinent tous les week-ends, ce qui n’a pas plus de conséquences pour lui que des fourmis. Mais pour ceux qui communiquent avec lui, il délivre des informations, une bénédiction. Ce serait un bon lieu de pèlerinage pour tous ceux qui aspirent à réaliser quelque chose à l’échelle de l’île entière et peut-être au-delà.

Cette intention est-elle compatible avec la conquête du sommet ? J’ai choisi de ne pas faire l’ascension.

Quel est le « sommet » que l’humanité tente de conquérir ? Quelles sont les bénédictions disponibles si nous écoutons différemment et si nous nous alignons sur d’autres objectifs ?

Pour moi, ce type d’expérience est analogue à l’introduction de nouvelles données générées par l’homme dans les ensembles d’entraînement de l’IA. Je ne me fie pas uniquement aux abstractions et aux symboles, je ne tisse pas des réseaux de mots uniquement à partir des fils des réseaux de mots précédents, sombrant lentement dans la folie. S’il vous plaît, que ceux qui m’écoutent n’oublient pas la nécessité de toucher parfois le substrat rocheux (la base). C’est ainsi que je garde mon équilibre mental. C’est ainsi que j’évite la démence.

L’IA amplifie les capacités intellectuelles de son créateur, le collectif humain. En fait, le « A » devrait probablement signifier « amplifié », et non « artificiel ». L’IA amplifie certes notre intelligence, mais elle amplifie aussi notre stupidité, notre folie, notre déconnexion et les conséquences de nos erreurs. C’est ainsi que nous devons la comprendre si nous voulons l’utiliser à bon escient. La nécessité de reconnecter l’intelligence abstraite et intellectuelle à sa source ultime devient plus évidente à chaque innovation dans le domaine des technologies de l’information, en remontant à travers le calcul, le cinéma, l’imprimerie, l’art, le mot écrit, jusqu’à l’origine de la culture symbolique — la nomination du monde.

Ces innovations sont fondamentales pour l’être humain. Nous sommes l’animal qui, pour le meilleur ou pour le pire, pour le meilleur et pour le pire, se raconte des histoires sur lui-même. Le pouvoir des mots, le pouvoir des symboles, le pouvoir des histoires est un pouvoir énorme. Et quelles conséquences terrifiantes peuvent résulter de leur utilisation abusive.

Ce n’est qu’en comprenant la généralité de l’usage et de l’abus du pouvoir des mots que nous pourrons approcher une solution au problème de l’alignement de l’IA sur le bien-être humain, étant donné son potentiel à automatiser l’inverse, que ce soit en tant qu’outil des totalitaires et des fous ou en tant qu’agent autonome lui-même.

Il ne s’agit pas d’un simple problème technique. Il s’agit de la dernière itération du problème original d’alignement de la culture symbolique auquel toutes les sociétés ont été confrontées. L’IA lui confère simplement un nouveau degré d’urgence.

Charles Eisenstein est enseignant, conférencier et écrivain, spécialisé dans les thèmes de la civilisation, de la conscience, de l’argent et de l’évolution culturelle humaine. Ses écrits sur le webzine Reality Sandwich ont généré un vaste public en ligne ; il intervient fréquemment lors de conférences et d’autres événements, et donne de nombreuses interviews à la radio et dans des podcasts. Dans le numéro spécial « 25 optimistes intelligents » du magazine Ode, David Korten (auteur de When Corporations Rule the World) a qualifié Eisenstein de « l’un des grands esprits émergents de notre époque ». Eisenstein est diplômé de l’Université de Yale, où il a obtenu en 1989 un diplôme en mathématiques et en philosophie. Il a ensuite passé dix ans comme traducteur chinois-anglais. Il vit actuellement à Harrisburg, en Pennsylvanie, et enseigne au sein du corps professoral du Goddard College. Il a notamment publié The Ascent of Humanity, Sacred Economics et The More Beautiful World Our Hearts Know is Possible (tr fr Notre cœur sait qu’un monde plus beau est possible).

Texte original : https://charleseisenstein.substack.com/p/intelligence-in-the-age-of-mechanical