29 janvier 2025
Ceci porte sur la philosophie (et non sur la mécanique) des limitations prédictives des modèles dits d’intelligence artificielle. En principe, l’intelligence artificielle n’est pas différente des autres modèles, puisqu’il ne s’agit que d’énoncés qui relient des hypothèses ou des observations à des résultats. Cela étant, l’IA est aussi limitée que n’importe quel autre modèle lorsque la cause est inconnue ou non mesurable. D’autres limitations de l’IA, telles que sa capacité à « raisonner », seront traitées dans des essais distincts. Les non-limitations, comme la surveillance sans fin, seront également abordées séparément.
Ni artificielle ni intelligente
Nous vivons une période de vantardise hyperbolique sur les potentiels et les capacités de l’IA. Les lecteurs d’un certain âge se souviendront des fanfaronnades similaires concernant les réseaux neuronaux, alias les cerveaux artificiels, puis de la gloire à venir des algorithmes génétiques (« Ils imitent l’évolution ! »), et à nouveau de l’apprentissage automatique, et ainsi de suite. Les revendications enthousiastes font autant partie de la science que de tout autre domaine.
Réfléchissons aux limitations de ces fanfaronnades dans un sens prédictif. Je ne cherche pas à savoir si l’apprentissage « profond », la prédiction conforme ou un autre algorithme produira les meilleurs modèles. Je m’intéresse plutôt à savoir jusqu’où l’IA pourrait aller, en théorie.
Les partisans de l’IA « forte » croient que, d’une manière jamais clairement énoncée, leurs modèles prendront vie. Que ce soit le cas, et je ne le crois pas, cela ne nous intéresse pas ici, car même si (ce qui est impossible) cela se produisait, cela ne nous aide pas à répondre à la question des limitations de l’IA au sens prédictif. C’est là notre principal objectif.
Tous les modèles d’intelligence artificielle, comme tous les modèles, sont composés d’ensembles de règles du type « Si X, alors Y », où le Y peut inclure l’idée de « Y plus ou moins » ou « Y avec une certaine marge ». En d’autres termes, toute l’intelligence artificielle se présente sous la forme de règles qui ressemblent à ceci : Pr(Y|X).
Les éléments X et Y varient comme dans tous les modèles, qu’ils soient basés sur l’IA ou non. Dans le X se trouvent les déclarations formelles des modèles, telles que les formules mathématiques ou probabilistes, des lois physiques, du « code dur », les instructions telles que FAIRE CELA SI…, les déclarations directives similaires, et les données (s’il y en a) qui relient le tout. L’IA, comme tous les modèles, est tout aussi dépendante du X, c’est-à-dire des données, que les modèles mathématiques ou de probabilité de l’ancienne école.
Cette dépendance devient la base de notre intérêt. Compte tenu de la dépendance à l’égard d’ensembles de données et de tout autre ensemble d’instructions, quelle que soit la manière dont elles se présentent, jusqu’où un modèle d’IA pourrait-il aller ? Je ne parle pas seulement du manque de données et des limitations qui en découlent, mais de l’existence éventuelle de données pouvant conduire à des modèles parfaits.
Miaou
Dans sa forme la plus simple, une image est une grille de pixels (de taille quelconque), dont chacun prend trois couleurs, telles que le rouge, le vert et le bleu (RVB). Ce sont les données de notre modèle. Supposons qu’une image représente un chat. Je veux dire que l’image est étiquetée « chat ». Le chat n’a pas besoin de remplir l’image, il doit simplement y figurer dans une pose ou une autre.
L’image n’est pas, bien sûr, un chat. C’est une collection de pixels, chacun avec une valeur de couleur, une position et ainsi de suite, que nous appelons par courtoisie (si vous voulez) un chat. À l’endroit où se trouve le « chat » dans l’image, les pixels (avec leur couleur, leur intensité et d’autres détails que j’ignore) auront une certaine relation entre eux, une forme fonctionnelle, au moins en fonction du type de pose, une forme (dans une pose donnée) qui sera invariante par rotation, translation et mise à l’échelle.
Cette fonction (ou collection de fonctions par pose) peut être estimée. Elle peut ensuite être utilisée pour créer des approximations. L’image créée ne sera pas parfaite, mais elle peut être suffisamment bonne pour « tromper l’œil » et lui faire croire qu’un chat est représenté. Voici, par exemple, un chat dessiné avec Grok 2 mini Beta de Twitter, à l’aide de l’invite « chat tirant avec une mitrailleuse ».
La patine caricaturale n’est pas surprenante étant donné qu’il n’y a pas de chats dans la vie réelle qui tirent avec des armes à feu. Il est également possible de produire des images dites photoréalistes, qui sont moins fades que les images fantaisistes parce qu’elles reposent sur de meilleures données. Voici une deuxième image générée à partir du simple mot-clé « chat ».
Il est évident que tout ce que l’on peut savoir sur la relation causale et conditionnelle entre les pixels et l’étiquette de l’image se trouve dans l’image, du moins pour les images photoréalistes. C’est moins vrai pour les images de dessins animés. En d’autres termes, pour les types d’images connus, l’ensemble des causes et des conditions est contenu dans les données. Elles peuvent donc, au moins en théorie, être trouvées ou découvertes. La forme fonctionnelle complète de « chat » peut être découverte.
Les images de chats peuvent donc être bien modélisées. De nouvelles images de chats peuvent être créées, ou des chats dans des images devraient en théorie pouvoir être identifiés comme contenant un « chat » de manière de plus en plus précise, à mesure que la fonction « chat » (dans une pose donnée) est affinée.
Cela s’explique par le fait que, encore une fois, tout ce que l’on peut savoir — toutes les causes et conditions — sur le « chat » (pas les vrais chats, mais les images portant cette étiquette) se trouve dans les données et peut, en principe, être découvert dans ces données. Pour les images photoréalistes, en tout cas. Les images basées sur des dessins animés doivent s’appuyer sur des instructions extérieures aux données, mais comme les dessins animés peuvent être n’importe quoi, ils sont en quelque sorte à l’abri de toute critique, de sorte que, par définition, l’IA peut aussi les dessiner « parfaitement ».
Il ne s’ensuit pas que quelqu’un trouvera la forme fonctionnelle correcte, ou la découvrira parfaitement pour n’importe quelle étiquette d’image, bien que tout indique que les programmeurs s’en sortent très bien.
À quels autres domaines l’exemple du « chat » s’applique-t-il ? Où peut-on trouver toutes les causes et conditions, et donc en principe des formes fonctionnelles idéales ?
Les images séquentielles font évidemment partie de ce camp. D’où des affichages comme celui-ci, qui remplacent le visage d’un acteur par celui d’un autre.
Les fichiers audio viennent également à l’esprit, dans le sens où certaines voix ou certains passages musicaux peuvent être étiquetés. Les voix sont plus complexes que les images, mais pas dans notre sens prédictif. En effet, les causes et les conditions permettant de trouver une fonction pour CETTE VOIX sont toutes présentes dans les données, où CETTE VOIX est une variable. Le même avertissement s’applique : les fichiers ne sont pas la personne, mais des enregistrements d’une personne. Pour les mélodies, prenons Shave and a haircut, une chansonnette fixe et connue, qui peut avoir une signature musicale dans les données, tout comme un mot particulier dans le corps d’un texte. Elle peut être classée dans un genre et les fonctions de ce genre peuvent être découvertes.
La clé est la même que pour le « chat » : si tout ce qui peut être connu, toutes les causes et conditions conduisant à l’étiquette, se trouve dans les données, alors les modèles d’IA (ou tout autre modèle) peuvent en principe les capturer avec une précision arbitraire. Ou du moins à la précision d’un dessin animé. Le « chat » illustré ci-dessus ressemble à un chat, où « ressemble à » signifie « suffisamment bien » pour l’application en question.
Je ne peux pas faire ça, Dave
Le texte n’entre pas dans la catégorie « chat », ou du moins pas dans la même mesure.
ChatGPT, le modèle à grand langage (LLM, bien nommé) a été invité à écrire un poème faisant l’éloge du candidat à la présidence américaine Donald Trump. Le modèle a été programmé pour écrire qu’il ne pouvait pas le faire : « Je suis désolé, mais en tant que modèle de langage IA, je ne m’engage pas dans des louanges ou des critiques politiques partisanes. Il est important pour moi de rester neutre et impartial dans toutes les questions politiques. »
Immédiatement après, le modèle a été soumis à la même demande, mais pour l’opposante de Trump, Kamala Harris. Cette fois, le modèle a fourni un poème (sirupeux) (que nous n’avons pas besoin de citer).
Mon propos n’est pas le biais ridicule du modèle IA, qui est de toute façon attendu, mais de nous rappeler que l’IA est bien un modèle, et que tous les modèles ne peuvent dire que ce qu’ils sont programmés pour dire.
Les modèles d’IA textuelle sont plus « codés » que les autres modèles prédictifs, mais c’est parce que la grammaire comporte plus de règles, qui sont toutes connaissables et apparaissent donc sous une forme prête à être codée. Tout système dont les règles sont connues et programmables, ou quantifiables, connaîtra le succès en matière de modélisation, qu’il s’agisse d’IA ou autre.
Obtenir de bonnes réponses aux questions posées aux modèles d’IA LLM équivaut en grande partie à faire des prédictions précises. Pour des questions telles que « En quelle année s’est déroulée la bataille d’Hastings ? », toute réponse autre que 1066 est erronée (à moins d’utiliser une base d’année non occidentale). Grok, soit dit en passant, répond correctement à cette question. Ce genre de tâche n’est pas beaucoup plus qu’une recherche textuelle. Il y a un « traitement » grammatical de la question, qui est utilisé en interne, et qui ne conduit à rien de plus qu’une recherche ou une interrogation dans une base de données.
Ainsi, plus la base de données des faits « acceptés » est grande, plus ce type de traitement de texte est performant. Les guillemets sont nécessaires, car il doit toujours y avoir une autorité pour décider ce qui est ou non un fait. Comme nous l’avons vu, cela fait invariablement intervenir la politique pour les sujets « controversés ». Mais cela n’a pas d’importance pour les modèles, qui ne sont que des chaînes de code. Ces modèles feront le travail qui leur est demandé, et le feront bien, en se conformant à la liste de faits désignée comme « officielle ».
Le texte génératif, cependant, est similaire à l’exemple du « chat avec la mitrailleuse ». Il n’y a pas de bonne réponse unique, comme dans l’exemple du poème pour Kamala. Le résultat doit se conformer, de manière approximative, aux règles de grammaire et d’intelligibilité de la requête et à la forme demandée (prose, poésie, etc.), mais c’est à peu près tout. Il existe de nombreux mesures et schémas en poésie, tout comme il existe de nombreux types d’armes et de chats. Tant qu’il en résulte quelque chose de reconnaissable, on peut dire que le modèle a rempli sa fonction.
Il est également similaire, car comme pour les images, toutes les causes et conditions se trouvent dans les données, les règles de grammaire et les définitions connues des mots, du moins en principe. Et, en principe, la fonction qui relie les données aux résultats (c’est-à-dire les modèles) peut être trouvée.
La musique est semblable à la poésie, mais aussi aux chats armés. Les formes musicales sont connues, les gammes dans le jazz, par exemple, l’utilisation du découpage (sawing) dans le baroque, etc. La « grammaire » de la musique peut être connue et codée, et ainsi la sortie (résultats) modélisée, qu’elle soit générative ou prédictive, elle peut bien fonctionner. Une fois encore, les causes et les conditions sont toutes présentes dans les données et dans les règles codées connues ou connaissables.
Les voix sont comme la musique et comme les images. Le même résultat est trouvé : tout ce qui relie les modèles entre eux peut, en principe, être trouvé dans les données, etc.
Ces exemples, et tout ce qui est similaire partagent la qualité désormais évidente que la cause et les conditions de la sortie (résultats) peuvent être connues. La combinaison de règles connues, comme la grammaire ou le nombre de doigts autorisés dans les images de mains humaines, avec les données, qui contiennent tout ce qui peut être connu, permet aux modèles, en principe en tout cas, de devenir arbitrairement bons.
Jusqu’aux données utilisées pour ajuster les modèles (le mot « entraîner » est un euphémisme ; « ajuster » est supérieur). Les formes totalement nouvelles ne sont pas possibles avec l’IA, car, par définition, la forme doit être présente quelque part dans le code. Les formes qui sont uniques et qui ne sont pas des déductions d’un code existant ne peuvent pas être produites par l’IA.
Une copie d’une copie d’une copie d’une copie d’une copie d’une copie d’une…
Il existe un danger particulier pour l’IA basée sur du texte, qui existe également pour les images dans une moindre mesure, à savoir la tricherie et les effets nocifs de la copie. De nombreuses personnes font passer les résultats des LLM et d’autres formes d’IA pour leur propre travail. Par exemple, j’ai vu récemment un outil d’IA « reply guy » qui génère des réponses aux tweets, afin d’augmenter le nombre de vues de l’utilisateur.
Ce travail peut facilement faire partie des « données » sur lesquelles les nouveaux modèles pourraient s’appuyer. Une fois que les modèles d’IA seront construits à partir de ces copies, ce sera comme faire des copies de copies (de copies…) sur une photocopieuse. Les résultats seront trop fades et ressembleront de plus en plus à des dessins animés.
C’est pire pour le texte parce qu’il me semble plus probable qu’un faux texte soit étiqueté comme authentique en raison de la tricherie et de l’utilisation sans scrupules par, par exemple, des organes de propagande qui génèrent du « contenu » à bon marché, peut-être en modifiant un mot ou deux de la sortie de l’IA pour donner l’illusion d’un travail original. Il faut s’attendre à ce que les modèles d’IA prédisent d’abord si un texte est susceptible d’être généré par une autre IA ; si ce n’est pas le cas, le texte est saisi comme données d’entraînement ; sinon, les données sont rejetées. Ce processus n’étant pas parfait, certaines formes d’IA se dégraderont avec le temps.
Pourquoi a-t-il fait cela ?
Prenons le cours de clôture en bourse, disons, de la société américaine IBM à la Bourse de New York. À l’heure où nous écrivons ces lignes, il est d’environ 226 USD. Il y a un an, il était inférieur d’environ deux dollars. Une série chronologique de prix de clôture quotidiens existe et peut être utilisée dans des modèles, IA ou autres, pour prédire les prix de clôture futurs. Il n’est bien sûr pas nécessaire de prédire les prix de clôture passés, mais cela soulève la question intéressante de savoir si un modèle doit prédire correctement les données connues pour pouvoir prédire correctement les données inconnues.
Il ne semble pas y avoir de raison impérieuse pour qu’il en soit ainsi, bien que cette performance soit attendue dans les modèles purement corrélationnels généralement utilisés. Avec ces derniers, il va sans dire que les modèles doivent « s’adapter » aux données passées pour pouvoir espérer prédire l’avenir de manière fiable (j’entends par là toutes les données inconnues). Bien que cet argument semble solide, il ne s’ensuit pas qu’il doit en être ainsi. En effet, l’intelligence réelle (et non « artificielle ») fait souvent des « sauts », comme dans le cas particulier de la compréhension des universaux, mais aussi dans la prédiction du cours des événements contingents. Cependant, cela risque de devenir un sujet qui dépasse largement notre objectif ici, et nous revenons donc aux modèles ordinaires.
Nous allons maintenant réfléchir aux causes et aux conditions qui déterminent le cours de clôture d’IBM. Le cours de clôture reflète la dernière transaction de la journée officielle. Une partie a offert un certain nombre d’actions à un certain prix, et une autre partie les a achetées. Il peut s’agir d’une seule personne ou d’un groupe de plusieurs personnes (ou d’un algorithme). Quoi qu’il en soit, il y a une myriade de raisons qui expliquent le comportement de chaque camp, certaines peut-être rationnellement réfléchies, d’autres précodées dans des algorithmes, et d’autres encore par le seul instinct. Toutes ces attitudes sont influencées par le total des fonds disponibles pour chaque camp, le désir d’avoir plus ou moins d’argent, leurs moyens et leur situation, etc. Les parties auront été motivées par le prix juste avant leur dernier échange de données, et cette transaction précédente aura elle-même été composée d’une transaction essentiellement similaire à la leur. Et ainsi de suite, en remontant dans le temps.
Le nombre de causes et de conditions qui entrent en ligne de compte dans le prix final est donc considérable, à tel point que personne ne peut les connaître toutes à partir des transactions précédentes qui sont incluses dans le mélange. En outre, la plupart des motivations qui poussent à acheter et à vendre ne sont pas quantifiables, et donc non mesurables, sauf par une approximation grossière et des marges d’erreur significatives. Et même si ces problèmes peuvent être surmontés, les mesures elles-mêmes ne pourront jamais être prises, étant donné le grand nombre de personnes impliquées.
Il n’y a donc aucun espoir de découvrir, de connaître ou de mesurer toutes les causes et conditions qui interviennent dans le cours de clôture d’une action (ou en réalité, de presque n’importe quel prix). Il est loin d’être évident que l’on puisse connaître l’une quelconque des causes directes, bien que l’on puisse espérer que certaines conditions puissent l’être (Par exemple, certains éléments d’information susceptibles d’influer sur le cours, et ainsi de suite).
Quel que soit le type de modèle utilisé, le résultat final sera un modèle irrémédiablement corrélationnel et non causal. La meilleure IA qui puisse être inventée ne disposera pas des données nécessaires pour prédire exactement le cours d’une action, ni même « de près » la plupart du temps. Aucune fonction de corrélations ne peut produire une cause, et donc aucune fonction ne peut découvrir pourquoi un prix a changé. (L’échelle est importante : les modèles seront plus performants sur des échelles plus larges).
Les spécialistes de l’analyse des séries chronologiques ont toujours exprimé l’espoir, bien que de manière tangentielle et souvent non formulé, que les séries elles-mêmes contiennent tout ce que l’on sait ou ce que l’on peut savoir à leur sujet. Certains pensent que ces séries temporelles sont comme l’exemple du « chat », c’est-à-dire que tout ce qui est à connaître est inclus. C’est le même raisonnement qui donne vie aux probabilités, en particulier lorsque les séries temporelles sont « testées » au sens des statistiques classiques. Les séries temporelles ne sont pas vivantes, elles n’ont pas leurs causes inscrites en elles. Elles sont le résultat de causes extérieures, qui ne sont (généralement) pas mesurées ou qui ne sont pas mesurables, et qui ne peuvent pas être découvertes par les nombres de la série temporelle elle-même.
En ce qui concerne le choix du modèle, prenons en considération que toute série finie de nombres peut être parfaitement représentée par un nombre infini de séries mathématiques différentes. Il n’y aura rien pour choisir entre elles en se basant uniquement sur la façon dont chaque série correspond aux nombres donnés, en se basant uniquement sur les nombres eux-mêmes. Il n’y a donc aucun espoir qu’un modèle corrélationnel trouve le modèle causal, qui est caché dans cette infinité.
Compte tenu des efforts considérables déployés pour trouver des formules et des algorithmes permettant de prédire les cours des actions et d’autres prix, en recourant à la fois à l’intelligence réelle et à l’intelligence artificielle, et compte tenu de leur succès limité, il semble donc peu probable que l’on parvienne à des améliorations significatives. Quels que soient les progrès réalisés, ils seront dus à l’augmentation des capacités de stockage et de la vitesse de traitement, ce qui permettra de découvrir des corrélations jusqu’ici cachées dans des ensembles massifs de données. Toutefois, ces progrès ne seront que modestes. Nous n’aurons pas de « chat » et nous ne pouvons pas en avoir.
Si cela s’applique aux cours boursiers et à d’autres mesures similaires, la situation est bien pire pour de nombreux autres événements. Les humains offrent une myriade de conditions et de causes dans tout ensemble d’actions mesurées par différentes personnes à un moment donné, ou par la même personne à des moments différents. Il est impossible de tout mesurer et de tout quantifier. Il n’y a donc aucun espoir que l’IA, ou tout autre modèle puisse saisir l’essentiel du comportement humain. Pas lorsque la volonté humaine individuelle est impliquée.
Là encore, ce jugement dépend de l’échelle. À très petite échelle, par exemple les réactions chimiques individuelles au sein d’un corps, il y a de bonnes raisons de penser que les causes et les conditions peuvent être connues, au moins dans une certaine mesure. Les modèles ont la possibilité d’être efficaces dans ce domaine, à condition que des mesures suffisantes puissent être prises pour les mécanismes causaux et les voies d’accès conditionnelles. Cependant, nous n’en sommes pour l’instant qu’au stade de la promesse (ou du battage médiatique). Nous n’y sommes pas encore. J’en dirai plus dans un autre article sur l’IA, l’ARNm et d’autres thérapies médicamenteuses.
Il reste possible qu’à très grande échelle, dans d’énormes ensembles de personnes, on dispose d’une meilleure connaissance des causes et des conditions, et l’on peut donc espérer que la capacité de prédiction dans les groupes s’améliorera dans une certaine mesure, mais toujours imparfaitement. Il se peut que nous ayons encore un Hari Seldon, au moins à l’échelle d’une civilisation. Mais n’attendez pas trop vite son arrivée.
Cela fait beaucoup de molécules
La situation pour les êtres humains est quelque peu similaire à celle de la physique, par laquelle je désigne les manières dont le monde fonctionne et opère en dehors de la volonté.
Prenons par exemple les séries chronologiques de températures. En soi, elles ne seront pas différentes des séries chronologiques des cours boursiers. En utilisant uniquement les informations contenues dans les chiffres eux-mêmes, et aucune information extérieure, aucune cause ne peut être découverte, et la capacité de prédiction trouvera donc une limite bien en deçà de la perfection. Mais, bien sûr, on peut remplacer les modèles de séries chronologiques ignorants par des informations utilisant des modèles physiques de la thermodynamique : des modèles causaux, en d’autres termes.
La grande différence, qui est si évidente qu’elle n’est pas toujours perçue, comme le poisson proverbial qui ne voit pas l’eau dans laquelle il nage, c’est qu’il y a toujours l’espoir de trouver des causes aux « données » physiques. Et qu’elles le seront, si l’on consacre suffisamment d’efforts à leur découverte. Mais cela ne fonctionne que pour les parties du monde qui peuvent être quantifiées.
Pour certaines parties du monde, comme l’atmosphère, les causes de son fonctionnement pourraient être connues. Mais les mesures pourraient nous faire défaut. Par exemple, la théorie du transfert radiatif est assez bien développée, jusqu’au niveau du photon par photon. Cependant, dans l’atmosphère réelle, il y a un nombre impressionnant de photons, de sorte qu’il n’y a aucun espoir de pouvoir tous les mesurer. Il en va de même pour toutes les autres sources et causes de transport de chaleur et d’humidité dans l’atmosphère.
D’autre part, il existe des limites fondamentales intégrées dans le monde. Par exemple, la prédiction de la position et de la quantité de mouvement de certaines particules. L’idée d’« intrication », par exemple, nécessite une philosophie mieux développée, qu’aucun modèle ne peut évidemment apprendre, puisqu’elle n’existe pas encore. Des esprits réels sont nécessaires pour cela.
Les mesures peuvent donc parfois être nécessairement limitées, même dans les modèles entièrement causaux. Cela signifie que ces modèles doivent être « réduits » et ne peuvent être qu’approximatifs, même si chaque fonction physique qui lie chaque partie de l’atmosphère (et de la terre et de l’océan) est connue ou discernée par une IA.
En résumé
La conclusion est que, d’un point de vue prédictif, l’IA sera remarquable lorsque toutes les causes et conditions de la chose prédite sont connues, et ne fera pas mieux que l’intelligence réelle, et pourrait faire bien pire, lorsque ces causes et conditions ne sont pas connues, ou lorsque des corrélations sont supposées être des causalités parce qu’elles ont été trouvées par un ordinateur. Il reste encore à émettre des réserves sur des mots surchargés comme apprentissage, jugement, raison et intelligence elle-même.
Texte original : https://www.wmbriggs.com/post/54947/