Elad Uzan
L’incomplétude de l’éthique

Les théorèmes d’incomplétude de Gödel s’appliquent non seulement à l’IA, mais à tout raisonnement éthique formulé dans un système formel. La différence clé est que les raisonneurs humains peuvent, du moins en principe, réviser leurs hypothèses, adopter de nouveaux principes et repenser le cadre lui-même. L’IA, en revanche, reste liée aux structures formelles qui lui sont données, ou n’opère que dans celles qu’elle peut modifier uniquement selon des contraintes prédéfinies. De cette façon, les théorèmes de Gödel posent une limite logique à ce que l’IA, si elle est construite sur des systèmes formels, pourra jamais pleinement prouver ou valider à propos de la moralité depuis l’intérieur de ces systèmes.

Beaucoup espèrent que l’IA découvrira des vérités éthiques. Mais, comme Gödel le montre, décider de ce qui est juste restera toujours notre fardeau.

Imaginez un monde dans lequel l’intelligence artificielle se verrait confier les plus hautes responsabilités morales : condamner des criminels, répartir les ressources médicales, et même arbitrer des conflits entre nations. Cela pourrait sembler le sommet du progrès humain : une entité déchargée des émotions, des préjugés ou de l’inconstance, prenant des décisions éthiques avec une précision irréprochable. Contrairement aux juges ou aux décideurs humains, une machine ne serait pas influencée par des intérêts personnels ou des failles dans le raisonnement. Elle ne ment pas. Elle n’accepte ni pots-de-vin ni suppliques. Elle ne pleure pas devant des décisions difficiles.

Pourtant, sous cette vision d’un arbitre moral idéalisé se cache une question fondamentale : une machine peut-elle comprendre la moralité comme les humains, ou bien est-elle confinée à un simulacre de raisonnement éthique ? L’IA pourrait reproduire les décisions humaines sans les améliorer, perpétuant les mêmes biais, angles morts et distorsions culturelles propres au jugement moral humain. En cherchant à nous imiter, elle pourrait simplement reproduire nos limites, sans les dépasser. Mais il y a un problème plus profond. Le jugement moral puise dans l’intuition, la conscience historique et le contexte – des qualités qui résistent à toute formalisation. L’éthique est peut-être si enracinée dans l’expérience vécue que toute tentative de l’encoder dans des structures formelles risque d’en aplatir les traits les plus essentiels. Si tel est le cas, l’IA ne se contenterait pas de refléter les failles humaines ; elle dépouillerait la moralité de la profondeur même qui rend possible la réflexion éthique.

Pourtant, beaucoup ont tenté de formaliser l’éthique, en traitant certains énoncés moraux non comme des conclusions, mais comme des points de départ. Un exemple classique vient de l’utilitarisme, qui prend souvent comme axiome fondamental le principe selon lequel il faut agir pour maximiser le bien-être global. De là, on peut dériver des principes plus spécifiques, par exemple qu’il est juste de bénéficier au plus grand nombre, ou que les actions doivent être jugées en fonction de leurs conséquences sur le bonheur total. À mesure que les ressources informatiques augmentent, l’IA devient de plus en plus adaptée à la tâche consistant à partir d’hypothèses éthiques fixes et à raisonner sur leurs implications dans des situations complexes.

Mais que signifie exactement formaliser quelque chose comme l’éthique ? La question est plus facile à comprendre en examinant des domaines où les systèmes formels jouent depuis longtemps un rôle central. La physique, par exemple, s’appuie sur la formalisation depuis des siècles. Il n’existe pas de théorie physique unique qui explique tout. Nous avons plutôt de nombreuses théories physiques, chacune conçue pour décrire des aspects spécifiques de l’Univers : du comportement des quarks et des électrons au mouvement des galaxies. Ces théories divergent souvent. La physique aristotélicienne, par exemple, expliquait la chute des corps par un mouvement naturel vers le centre de la Terre ; la mécanique newtonienne l’a remplacée par une force universelle de gravité. Ces explications ne sont pas seulement différentes ; elles sont incompatibles. Pourtant, elles partagent une structure commune : elles commencent par des postulats de base – des hypothèses sur le mouvement, la force ou la masse – et en déduisent des conséquences de plus en plus complexes. Les lois du mouvement d’Isaac Newton et les équations de James Clerk Maxwell en sont des exemples classiques : des formulations compactes et élégantes à partir desquelles on peut déduire un large éventail de prédictions sur le monde physique.

Les théories éthiques présentent une structure similaire. Comme les théories physiques, elles tentent de décrire un domaine – en l’occurrence, le paysage moral. Elles cherchent à répondre à des questions sur les actions justes ou injustes, et pourquoi. Ces théories divergent aussi et, même lorsqu’elles recommandent des actions similaires, comme donner à une œuvre de charité, elles les justifient de manières différentes. Les théories éthiques commencent souvent par un petit ensemble de principes ou d’énoncés fondamentaux, à partir desquels elles raisonnent sur des problèmes moraux plus complexes. Un conséquentialiste part de l’idée que les actions doivent maximiser le bien-être ; un déontologue part de l’idée que les actions doivent respecter des devoirs ou des droits. Ces engagements de base fonctionnent comme leurs équivalents en physique : ils définissent la structure du raisonnement moral à l’intérieur de chaque théorie éthique.

Tout comme l’IA est utilisée en physique pour travailler à l’intérieur des théories existantes – par exemple, pour optimiser la conception d’expériences ou prédire le comportement de systèmes complexes – elle peut aussi être utilisée en éthique pour prolonger le raisonnement moral dans un cadre donné. En physique, l’IA opère généralement à l’intérieur de modèles établis plutôt que de proposer de nouvelles lois physiques ou de nouveaux cadres conceptuels. Elle peut calculer comment plusieurs forces interagissent et prédire leur effet combiné sur un système physique. De même, en éthique, l’IA ne génère pas de nouveaux principes moraux, mais applique les principes existants à des situations nouvelles et souvent complexes. Elle peut peser des valeurs concurrentes – équité, minimisation du préjudice, justice – et évaluer leurs implications combinées pour déterminer l’action moralement la meilleure. Le résultat n’est pas un nouveau système moral, mais une application approfondie d’un système existant, façonnée par le même type de raisonnement formel qui sous-tend la modélisation scientifique. Mais existe-t-il une limite inhérente à ce que l’IA peut savoir de la moralité ? Pourrait-il exister de véritables propositions éthiques qu’aucune machine, aussi avancée soit-elle, ne pourra jamais démontrer ?

Ces questions font écho à une découverte fondamentale de la logique mathématique, probablement la plus grande avancée jamais démontrée : les théorèmes d’incomplétude de Kurt Gödel. Ils montrent que tout système logique suffisamment puissant pour décrire l’arithmétique est soit incohérent, soit incomplet. Dans cet essai, je soutiens que cette limitation, bien que d’origine mathématique, a de profondes conséquences pour l’éthique, et pour la manière dont nous concevons les systèmes d’IA appelés à raisonner moralement.

Supposons que nous concevions un système d’IA pour modéliser la prise de décision morale. Comme d’autres systèmes d’IA – qu’il s’agisse de prédire les cours boursiers, de naviguer sur des routes ou de sélectionner du contenu –, il serait programmé pour maximiser certains objectifs prédéfinis. Pour ce faire, il doit s’appuyer sur une logique formelle et computationnelle : soit sur le raisonnement déductif, qui tire des conclusions à partir de règles et d’axiomes fixes, soit sur le raisonnement probabiliste, qui estime des probabilités à partir de motifs présents dans les données. Dans tous les cas, l’IA doit adopter une structure mathématique pour l’évaluation morale. Mais les théorèmes d’incomplétude de Gödel révèlent une limite fondamentale. Gödel a montré que tout système formel suffisamment puissant pour exprimer l’arithmétique, telle que celle des nombres naturels et de leurs opérations, ne peut être à la fois complet et cohérent. Si un tel système est cohérent, il existera toujours des énoncés vrais qu’il ne pourra pas démontrer. En particulier, appliqué à l’IA, cela suggère que tout système capable d’un raisonnement moral riche aura inévitablement des angles morts moraux : des vérités éthiques qu’il ne pourra pas dériver. Ici, « vrai » se réfère à la vérité dans l’interprétation standard de l’arithmétique, comme l’énoncé « 2 + 2 = 4 », qui est vrai selon les règles mathématiques ordinaires. Si le système est incohérent, il pourrait alors tout démontrer, y compris des contradictions, ce qui le rendrait inutile comme guide pour les décisions éthiques.

Les théorèmes d’incomplétude de Gödel s’appliquent non seulement à l’IA, mais à tout raisonnement éthique formulé dans un système formel. La différence clé est que les raisonneurs humains peuvent, du moins en principe, réviser leurs hypothèses, adopter de nouveaux principes et repenser le cadre lui-même. L’IA, en revanche, reste liée aux structures formelles qui lui sont données, ou n’opère que dans celles qu’elle peut modifier uniquement selon des contraintes prédéfinies. De cette façon, les théorèmes de Gödel posent une limite logique à ce que l’IA, si elle est construite sur des systèmes formels, pourra jamais pleinement prouver ou valider à propos de la moralité depuis l’intérieur de ces systèmes.

La plupart d’entre nous ont rencontré les axiomes pour la première fois à l’école, généralement à travers la géométrie. Un exemple célèbre est le postulat des parallèles, qui affirme que, si l’on choisit un point n’appartenant pas à une droite, on peut tracer exactement une droite passant par ce point et parallèle à la droite initiale. Pendant plus de 2 000 ans, cela a semblé évident. Pourtant, au XIXe siècle, des mathématiciens, tels que Carl Friedrich Gauss, Nikolaï Lobatchevski et János Bolyai ont montré qu’il est possible de construire des géométries internes cohérentes dans lesquelles le postulat des parallèles ne tient pas. Dans certaines de ces géométries, il n’existe pas de droites parallèles ; dans d’autres, il en existe une infinité. Ces géométries non euclidiennes ont ébranlé la croyance selon laquelle les axiomes d’Euclide décrivaient de manière unique l’espace.

Il y aura toujours des énoncés vrais, mais indémontrables, notamment l’affirmation du système lui-même selon laquelle il est cohérent

Cette découverte a soulevé une inquiétude plus profonde. Si le postulat des parallèles, longtemps considéré comme évident, pouvait être écarté, qu’en était-il des axiomes de l’arithmétique, qui définissent les nombres naturels et les opérations d’addition et de multiplication ? Sur quelle base pouvait-on être certain qu’ils étaient exempts d’incohérences cachées ? Mais ce défi s’accompagnait d’une promesse. Si l’on pouvait prouver que les axiomes de l’arithmétique sont cohérents, alors il serait possible de les étendre pour développer un ensemble cohérent d’axiomes plus riches définissant les entiers, les nombres rationnels, les nombres réels, les nombres complexes et au-delà. Comme l’a dit le mathématicien du XIXe siècle Leopold Kronecker : « Dieu a créé les nombres naturels ; tout le reste est l’œuvre de l’homme ». Prouver la cohérence de l’arithmétique permettrait de prouver la cohérence de nombreux domaines importants des mathématiques.

La méthode de démonstration de la cohérence de l’arithmétique fut proposée par le mathématicien David Hilbert. Son approche comportait deux étapes. D’abord, Hilbert soutenait que, pour prouver la cohérence d’un système formel, il devait être possible de formuler, dans le langage symbolique propre à ce système, une affirmation équivalente à « Ce système est cohérent » et de démontrer cette affirmation en utilisant uniquement les règles d’inférence du système. La preuve ne devait reposer sur rien d’extérieur au système, pas même sur la supposée « évidence » de ses axiomes. Ensuite, Hilbert préconisait d’ancrer l’arithmétique dans quelque chose d’encore plus fondamental. Cette tâche fut entreprise par Bertrand Russell et Alfred North Whitehead dans leur monumentale Principia Mathematica (1910-1913). Travaillant dans le domaine de la logique symbolique, un champ qui ne s’intéresse pas aux nombres, mais aux propositions abstraites du type « si x, alors y », ils montrèrent que les axiomes de l’arithmétique pouvaient être dérivés comme théorèmes à partir d’un ensemble plus réduit d’axiomes logiques. Restait un défi final : cet ensemble d’axiomes de logique symbolique, sur lequel l’arithmétique pouvait être construite, pouvait-il prouver sa propre cohérence ? Si oui, le rêve de Hilbert serait accompli. Cet espoir devint l’ambition directrice des mathématiques du début du XXe siècle.

C’est dans ce climat d’optimisme que Kurt Gödel, un jeune logicien autrichien, introduisit un résultat qui allait démanteler la vision de Hilbert. En 1931, Gödel publia ses théorèmes d’incomplétude, montrant que l’idée même d’un système mathématique totalement autosuffisant est impossible. Plus précisément, Gödel montra que, si un système formel satisfait plusieurs conditions, il contiendra des énoncés vrais qu’il ne pourra pas démontrer. Il doit être assez complexe pour exprimer l’arithmétique, inclure le principe d’induction (qui permet de prouver des énoncés généraux en montrant qu’ils sont vrais pour un cas de base et à chaque étape suivante), être cohérent, et posséder un ensemble décidable d’axiomes (c’est-à-dire qu’il soit possible de déterminer, pour tout énoncé donné, s’il est ou non un axiome). Tout système qui remplit ces conditions, tel que l’ensemble des axiomes logiques développé par Russell et Whitehead dans Principia Mathematica, sera nécessairement incomplet : il existera toujours des énoncés exprimables dans le système, mais indémontrables à partir de ses axiomes. Plus frappant encore, Gödel montra qu’un tel système peut exprimer, mais non démontrer, l’énoncé selon lequel il est lui-même cohérent.

La démonstration de Gödel, que je simplifie ici, repose sur deux idées clés issues de son arithmétisation de la syntaxe, l’idée puissante d’associer toute phrase d’un système formel à un nombre naturel particulier, appelé son nombre de Gödel. Premièrement, tout système assez complexe pour exprimer l’arithmétique et l’induction doit permettre des formules à variables libres, des formules comme S(x) : « x = 10 », dont la valeur de vérité dépend de la valeur de x. S(x) est vraie lorsque x vaut effectivement 10, et fausse sinon. Puisque chaque énoncé du système possède un nombre de Gödel unique, G(S), une formule peut faire référence à son propre nombre de Gödel. Plus précisément, le système peut former des énoncés tels que S(G(S)) : « G(S) = 10 », dont la vérité dépend du fait que le nombre de Gödel de S(x) soit ou non égal à 10. Deuxièmement, dans tout système logique, une démonstration d’une formule S a une certaine structure : à partir d’axiomes, on applique des règles d’inférence pour produire de nouvelles formules à partir de ces axiomes, et on en déduit finalement S elle-même. Tout comme chaque formule S possède un nombre de Gödel G(S), chaque démonstration de S se voit attribuer un nombre de Gödel, en traitant toute la suite des formules de la démonstration comme une seule longue formule. Ainsi, on peut définir une relation de preuve P(x, y), où P(x, y) est vraie si et seulement si x est le nombre de Gödel d’une démonstration de S, et y est le nombre de Gödel de S elle-même. L’affirmation selon laquelle x code une démonstration de S devient un énoncé à l’intérieur du système, à savoir P(x, y).

Troisièmement, en s’appuyant sur ces idées, Gödel montra que tout système formel capable d’exprimer l’arithmétique et le principe d’induction peut également formuler des énoncés sur ses propres démonstrations. Par exemple, le système peut exprimer des énoncés tels que : « n n’est pas le nombre de Gödel d’une démonstration de la formule S ». À partir de là, il peut aller plus loin et exprimer l’affirmation : « Il n’existe aucun nombre n tel que n soit le nombre de Gödel d’une démonstration de la formule S ». En d’autres termes, le système peut dire qu’une certaine formule S est indémontrable dans le système. Quatrièmement, Gödel construisit ingénieusement une formule autoréférentielle, P, qui affirme : « Il n’existe aucun nombre n tel que n soit le nombre de Gödel d’une démonstration de la formule P ». Autrement dit, P dit d’elle-même : « P n’est pas démontrable ». Ainsi, P est un énoncé formel qui exprime sa propre indécidabilité (non démontrable) depuis l’intérieur du système.

Il en découle immédiatement que si la formule P était démontrable dans le système, alors elle serait fausse, car elle affirme qu’elle n’a pas de démonstration. Cela signifierait que le système prouve une fausseté, et est donc incohérent. Ainsi, si le système est cohérent, alors P ne peut pas être démontrée, et donc P est bien indémontrable. Cela conduit à la conclusion que, dans tout système formel cohérent suffisamment riche pour exprimer l’arithmétique et l’induction, il existera toujours des énoncés vrais, mais indémontrables, notamment l’affirmation du système lui-même selon laquelle il est cohérent.

Les implications des théorèmes de Gödel furent à la fois profondes et déstabilisantes. Elles anéantirent l’espoir de Hilbert que les mathématiques puissent être réduites à un système complet et mécanique de dérivation, et mirent en lumière les limites inhérentes du raisonnement formel. Au départ, les conclusions de Gödel suscitèrent des résistances, certains mathématiciens affirmant que ses résultats étaient moins généraux qu’il n’y paraissait. Cependant, lorsque d’autres mathématiciens et logiciens, notamment John von Neumann, confirmèrent à la fois leur justesse et leur vaste applicabilité, les théorèmes de Gödel furent largement reconnus comme l’une des découvertes les plus importantes dans les fondements des mathématiques.

Les résultats de Gödel ont également ouvert des débats philosophiques. Le mathématicien et physicien Roger Penrose, par exemple, a soutenu qu’ils indiquent une différence fondamentale entre la cognition humaine et le raisonnement algorithmique formel. Il affirme que la conscience humaine nous permet de percevoir certaines vérités – comme celles que Gödel a montré qu’elles étaient indémontrables dans le cadre de systèmes formels – d’une manière qu’aucun processus algorithmique ne peut reproduire. Cela suggère, pour Penrose, que certains aspects de la conscience échappent peut-être à la portée du calcul. Sa conclusion rejoint celle de l’argument de la « chambre chinoise » de John Searle, qui soutient que cela s’explique par le fait que les algorithmes manipulent des symboles de manière purement syntaxique, sans aucune compréhension de leur contenu sémantique. Toutefois, les conclusions de Penrose et Searle ne découlent pas directement des théorèmes de Gödel. Les résultats de Gödel s’appliquent strictement aux systèmes mathématiques formels et ne disent rien de la conscience ou de la cognition. La question de savoir si l’esprit humain peut reconnaître comme vraies des vérités indémontrables, ou si des machines pourraient un jour posséder un esprit capable d’une telle reconnaissance, reste ouverte sur le plan philosophique.

La moralité ne consiste pas seulement à faire ce qui est juste, mais à comprendre pourquoi c’est juste

Cependant, les théorèmes d’incomplétude de Gödel révèlent une profonde limitation du raisonnement algorithmique, en particulier de l’IA, qui concerne non seulement le calcul, mais aussi le raisonnement moral lui-même. Sans ses théorèmes, il aurait été au moins concevable qu’une IA puisse formaliser toutes les vérités morales et, de plus, les démontrer à partir d’un ensemble cohérent d’axiomes. Mais le travail de Gödel montre que c’est impossible. Aucune IA, aussi sophistiquée soit-elle, ne pourrait démontrer toutes les vérités morales qu’elle peut exprimer. L’écart entre les affirmations de vérité et la possibilité de les prouver fixe une limite fondamentale à ce que le raisonnement moral formel peut atteindre, même pour les machines les plus puissantes.

Cela soulève deux problèmes distincts pour l’éthique. Le premier est ancien. Comme Platon le suggère dans l’Euthyphron, la moralité ne consiste pas seulement à faire ce qui est juste, mais à comprendre pourquoi c’est juste. L’action éthique exige une justification, un exposé fondé sur la raison. Cet idéal de justification morale rationnelle a animé une grande partie de notre pensée éthique, mais les théorèmes de Gödel suggèrent que, si le raisonnement moral est formalisé, alors il existera des vérités morales qui ne pourront pas être démontrées dans ces systèmes. De cette manière, Gödel n’a pas seulement sapé la vision de Hilbert visant à prouver la cohérence des mathématiques ; il a peut-être aussi ébranlé l’espoir de Platon de fonder entièrement l’éthique sur la raison.

Le second problème est plus pratique. Même une IA très performante peut se trouver confrontée à des situations dans lesquelles elle ne peut justifier ou expliquer ses recommandations en utilisant uniquement le cadre éthique qui lui a été donné. La préoccupation n’est pas seulement que l’IA puisse agir de manière non éthique, mais aussi qu’elle ne puisse pas démontrer que ses actions sont éthiques. Cela devient particulièrement urgent lorsque l’IA est utilisée pour orienter ou justifier des décisions prises par des humains. Même une IA très performante rencontrera une limite au-delà de laquelle elle ne pourra justifier ou expliquer ses décisions en utilisant uniquement les ressources de son propre cadre. Quelle que soit son avancée, il y aura des vérités morales qu’elle pourra exprimer, mais jamais démontrer.

Le développement de l’IA moderne s’est généralement scindé en deux approches : l’IA fondée sur la logique, qui déduit des connaissances par une stricte déduction, et les grands modèles de langage (Large Language Models, LLM), qui prédisent le sens à partir de motifs statistiques. Les deux approches reposent sur des structures mathématiques. La logique formelle se fonde sur la manipulation symbolique et la théorie des ensembles. Les LLM ne reposent pas strictement sur la logique déductive, mais utilisent plutôt une combinaison d’inférence statistique, de reconnaissance de formes et de techniques computationnelles pour générer des réponses.

De la même manière que les axiomes fournissent une base au raisonnement mathématique, les LLM s’appuient sur des relations statistiques dans les données pour approximer le raisonnement logique. Ils abordent l’éthique non pas en déduisant des vérités morales, mais en reproduisant la manière dont ces débats se déroulent dans le langage. Cela est réalisé par la descente de gradient (gradient descent), un algorithme qui minimise une fonction de perte en ajustant les poids dans la direction qui réduit l’erreur, ce qui permet d’approximer des fonctions complexes reliant les entrées aux sorties et de généraliser des motifs à partir d’énormes volumes de données. Ils ne déduisent pas des réponses, mais en génèrent de plausibles, le « raisonnement » émergeant de milliards de paramètres de réseaux neuronaux plutôt que de règles explicites. Bien qu’ils fonctionnent principalement comme des modèles probabilistes, prédisant du texte à partir de motifs statistiques, la logique computationnelle joue un rôle dans l’optimisation, le raisonnement fondé sur des règles et certains processus décisionnels au sein des réseaux neuronaux.

Mais les probabilités et les statistiques sont elles-mêmes des systèmes formels, fondés non seulement sur l’arithmétique, mais aussi sur des axiomes probabilistes, tels que ceux introduits par le mathématicien soviétique Andreï Kolmogorov, qui régissent la manière dont la probabilité d’événements complexes est dérivée, mise à jour avec de nouvelles données et agrégée à travers divers scénarios. Tout langage formel suffisamment complexe pour exprimer des affirmations probabilistes ou statistiques peut également exprimer l’arithmétique et est donc soumis aux théorèmes d’incomplétude de Gödel. Cela signifie que les LLM héritent des limitations gödéliennes. Même les systèmes hybrides, tels qu’IBM Watson, OpenAI Codex ou AlphaGo de DeepMind, qui combinent raisonnement logique et modélisation probabiliste, restent soumis aux limitations gödéliennes. Tous les composants à base de règles sont contraints par les théorèmes de Gödel, qui montrent que certaines propositions vraies exprimables dans un système ne peuvent pas y être prouvées. Les composants probabilistes, pour leur part, sont régis par des axiomes formels qui définissent comment les distributions de probabilité sont mises à jour, comment les incertitudes sont agrégées et comment les conclusions sont tirées. Ils peuvent produire des réponses plausibles, mais ils ne peuvent pas les justifier au-delà des schémas statistiques sur lesquels ils ont été entraînés.

Certaines questions mathématiques fondamentales échappent à toute résolution formelle

À première vue, les limitations gödéliennes imposées aux IA en général et aux LLM en particulier peuvent sembler sans conséquence. Après tout, la plupart des systèmes éthiques n’ont jamais eu pour but de résoudre chaque problème moral concevable. Ils ont été conçus pour guider des domaines spécifiques, tels que la guerre, le droit ou les affaires, et reposent souvent sur des principes seulement vaguement formalisés. Si des modèles formels peuvent être élaborés pour des cas spécifiques, on pourrait soutenir que l’incapacité à formaliser pleinement l’éthique n’est pas particulièrement préoccupante. En outre, les théorèmes d’incomplétude de Gödel n’ont pas interrompu le travail quotidien des mathématiciens. Les mathématiciens continuent à chercher des démonstrations, tout en sachant que certaines affirmations vraies peuvent être indémontrables. Dans le même esprit, le fait que certaines vérités éthiques puissent être au-delà de toute démonstration formelle ne devrait pas décourager les humains, ou les IA, de les rechercher, de les formuler et de tenter de les justifier ou de les démontrer.

Mais les découvertes de Gödel n’étaient pas purement théoriques. Elles ont eu des conséquences pratiques en mathématiques elles-mêmes. Un cas frappant est l’hypothèse du continu, qui pose la question de savoir s’il existe un ensemble dont la cardinalité se situe strictement entre celle des nombres naturels et celle des nombres réels. Cette question provient de la théorie des ensembles, le domaine mathématique qui traite des collections d’objets mathématiques, tels que des nombres, des fonctions ou même d’autres ensembles. Son axiomatisation la plus largement acceptée, les axiomes de Zermelo-Fraenkel de la théorie des ensembles avec l’axiome du choix, sous-tend presque toutes les mathématiques modernes. En 1938, Gödel lui-même a montré que l’hypothèse du continu ne peut pas être réfutée à partir de ces axiomes, en supposant qu’ils soient cohérents. En 1963, Paul Cohen a démontré l’inverse : l’hypothèse du continu ne peut pas non plus être prouvée à partir des mêmes axiomes. Ce résultat marquant a confirmé que certaines questions mathématiques fondamentales échappent à toute résolution formelle.

Il en va de même, selon moi, pour l’éthique. Les limites que Gödel a mises en évidence en mathématiques ne sont pas seulement théoriquement pertinentes pour l’éthique de l’IA ; elles ont une importance pratique. Premièrement, tout comme les mathématiques contiennent des énoncés vrais qui ne peuvent pas être démontrés à l’intérieur de leurs propres axiomes, il pourrait très bien exister des vérités éthiques qui sont formellement indémontrables, mais néanmoins importantes sur le plan moral – les équivalents moraux de l’hypothèse du continu. Elles peuvent surgir dans des systèmes conçus pour gérer des arbitrages difficiles, comme la pondération entre équité et préjudice. Nous ne pouvons pas prévoir quand, ni même si, une IA opérant dans un cadre éthique formel rencontrera de telles limites. De même qu’il a fallu plus de trente ans après les théorèmes d’incomplétude de Gödel pour que Cohen démontre l’indépendance de l’hypothèse du continu, nous ne pouvons pas prédire quand, voire si, nous rencontrerons des principes éthiques qui sont exprimables dans le système éthique d’une IA, mais restent indémontrables.

Deuxièmement, Gödel a également montré qu’aucun système formel suffisamment complexe ne peut démontrer sa propre cohérence. Cela est particulièrement troublant en éthique, où il est loin d’être clair que nos cadres éthiques soient cohérents. Ce n’est pas une limitation propre à l’IA ; les humains, eux aussi, ne peuvent pas démontrer la cohérence des systèmes formels qu’ils construisent. Mais cela importe tout particulièrement pour l’IA, car l’une de ses promesses les plus ambitieuses a été de dépasser le jugement humain : raisonner plus clairement, plus impartialement et à plus grande échelle.

Les résultats de Gödel fixent une limite infranchissable à cette ambition. La limitation est structurelle, et non simplement technique. De la même manière que la théorie de la relativité d’Albert Einstein impose une limite supérieure de vitesse dans l’Univers – peu importe à quel point nos vaisseaux spatiaux sont avancés, nous ne pouvons pas dépasser la vitesse de la lumière – les théorèmes de Gödel imposent une frontière au raisonnement formel : peu importe à quel point l’IA devient avancée, elle ne peut échapper à l’incomplétude du système formel dans lequel elle opère. De plus, les théorèmes de Gödel peuvent contraindre le raisonnement éthique pratique de manières imprévues, tout comme certaines conjectures mathématiques importantes se sont révélées indémontrables à partir des axiomes standard de la théorie des ensembles, ou comme la vitesse de la lumière, bien qu’inatteignable, impose néanmoins de réelles contraintes à l’ingénierie et à l’astrophysique. Par exemple, au moment où j’écris ces lignes, la sonde solaire Parker de la NASA est l’objet fabriqué par l’homme le plus rapide de l’histoire, voyageant à environ 430 000 miles (environ 700 000 km) par heure, soit seulement 0,064 % de la vitesse de la lumière. Pourtant, cette limite supérieure reste cruciale : la vitesse finie de la lumière a, par exemple, façonné la conception des sondes, atterrisseurs et rovers spatiaux, qui nécessitent tous une certaine autonomie, puisque les signaux radio en provenance de la Terre mettent plusieurs minutes, voire plusieurs heures, à arriver. Les théorèmes de Gödel pourraient de la même manière restreindre le calcul éthique de façons tout aussi surprenantes.

Peu importe à quel point une IA apprend, il y aura toujours des affirmations sur la justice qu’elle ne pourra jamais démontrer dans son propre système

Il existe encore une autre raison pour laquelle les résultats de Gödel sont particulièrement pertinents pour l’éthique de l’IA. Contrairement aux systèmes statiques à base de règles, une IA avancée, en particulier les grands modèles de langage et les systèmes d’apprentissage adaptatif, peut non seulement appliquer un cadre éthique prédéfini, mais aussi en réviser certains éléments au fil du temps. L’une des promesses centrales du raisonnement moral piloté par l’IA est sa capacité à affiner les modèles éthiques par l’apprentissage, en traitant les ambiguïtés et les angles morts du jugement moral humain. À mesure que les systèmes d’IA évoluent, ils peuvent tenter de modifier leurs propres axiomes ou paramètres en réponse à de nouvelles données ou à des retours d’expérience. Cela est particulièrement vrai des systèmes d’apprentissage automatique entraînés sur des ensembles de données vastes et évolutifs, ainsi que des modèles hybrides qui intègrent raisonnement logique et inférence statistique. Pourtant, les résultats de Gödel révèlent une limite structurelle : si un cadre éthique est formalisé dans un système formel suffisamment expressif, alors aucun ensemble d’axiomes cohérents ne peut démontrer toutes les affirmations vraies exprimables en son sein.

Pour illustrer, prenons l’exemple d’une intelligence artificielle chargée de défendre la justice. Elle peut être programmée avec des principes éthiques largement acceptés, par exemple l’équité et la minimisation des dommages. Alors que les modèles humains de justice fondés sur ces principes sont inévitablement trop simplistes, limités par des contraintes computationnelles et des biais cognitifs, une IA, en théorie, n’a pas de telles limitations. Elle peut apprendre en continu à partir du comportement humain réel, affiner sa compréhension et élaborer une conception de la justice de plus en plus nuancée, intégrant un nombre croissant de dimensions de l’expérience humaine. Elle peut même, comme mentionné, changer ses propres axiomes. Mais, aussi loin qu’une IA puisse apprendre, ou se modifier elle-même, il y aura toujours des affirmations sur la justice qu’elle pourra peut-être modéliser, mais qu’elle ne pourra jamais prouver à l’intérieur de son propre système. Plus inquiétant encore, l’IA serait incapable de prouver que le système éthique qu’elle construit est cohérent en interne – qu’il ne se contredit pas, quelque part dans l’immense réseau de son raisonnement éthique – à moins qu’il ne soit inconsistant, auquel cas elle peut tout prouver, y compris des faussetés, comme sa propre cohérence.

En fin de compte, les théorèmes d’incomplétude de Gödel servent d’avertissement contre l’idée qu’une IA puisse atteindre un raisonnement éthique parfait. Tout comme les mathématiques contiendront toujours des vérités qui dépassent la preuve formelle, la morale contiendra toujours des complexités qui défient toute résolution algorithmique. La question n’est pas simplement de savoir si l’IA peut prendre des décisions morales, mais si elle peut surmonter les limitations de tout système fondé sur une logique prédéfinie – des limitations qui, comme Gödel l’a montré, peuvent empêcher certaines vérités d’être jamais démontrables à l’intérieur du système, même si elles sont reconnaissables comme vraies. Alors que l’éthique appliquée à l’IA s’est attaquée à des enjeux comme les biais, l’équité et l’interprétabilité, le défi le plus profond demeure : une IA peut-elle reconnaître les limites de son propre raisonnement éthique ? Ce défi pourrait constituer une frontière infranchissable entre l’éthique artificielle et l’éthique humaine.

La relation entre les théorèmes d’incomplétude de Gödel et l’éthique des machines met en lumière un parallèle structurel : de même qu’aucun système formel ne peut être à la fois complet et autosuffisant, aucune IA ne peut atteindre un raisonnement moral à la fois exhaustif et entièrement démontrable. En un sens, les découvertes de Gödel prolongent et compliquent la tradition kantienne. Kant soutenait que la connaissance dépend de vérités a priori, des présupposés fondamentaux qui structurent notre expérience de la réalité. Les théorèmes de Gödel suggèrent que, même à l’intérieur de systèmes formels bâtis sur des axiomes bien définis, il reste des vérités qui dépassent la capacité du système à les établir. Si Kant cherchait à définir les limites de la raison à travers les conditions nécessaires à la connaissance, Gödel a révélé une incomplétude intrinsèque du raisonnement formel lui-même, qu’aucun ensemble d’axiomes ne peut résoudre depuis l’intérieur. Il y aura toujours des vérités morales hors de portée computationnelle, des problèmes éthiques qui résistent à toute résolution algorithmique.

Le problème le plus profond réside donc dans l’incapacité de l’IA à reconnaître les frontières de son propre cadre de raisonnement – son incapacité à savoir quand ses conclusions morales reposent sur des prémisses incomplètes ou quand un problème dépasse ce que son système éthique peut résoudre formellement. Alors que les humains font également face à des contraintes cognitives et épistémiques, nous ne sommes pas enfermés dans une structure formelle donnée. Nous pouvons inventer de nouveaux axiomes, remettre en question les anciens ou réviser tout notre cadre à la lumière d’un éclairage philosophique ou d’une délibération éthique. Les systèmes d’IA, en revanche, ne peuvent générer ou adopter de nouveaux axiomes que si leur architecture le permet et, même dans ce cas, de telles modifications interviennent à l’intérieur de méta règles ou d’objectifs d’optimisation prédéfinis. Ils n’ont pas la capacité de réflexion conceptuelle qui guide les humains pour changer les présupposés fondamentaux. Même si un langage formel plus riche, ou un ensemble plus riche d’axiomes, pouvait démontrer certaines vérités auparavant indémontrables, aucun ensemble fini d’axiomes répondant aux critères gödéliens de décidabilité et de cohérence ne peut prouver toutes les vérités exprimables dans un système formel suffisamment puissant. En ce sens, Gödel trace une limite – non seulement sur ce que les machines peuvent prouver, mais aussi sur ce qu’elles peuvent jamais justifier à l’intérieur d’une architecture éthique ou logique donnée.

Lorsqu’une IA rend une décision qui semble moralement erronée, elle peut nous amener à réexaminer nos propres jugements

L’un des grands espoirs, ou craintes, concernant l’IA est qu’elle puisse un jour évoluer au-delà des principes éthiques initialement programmés en elle et simuler une telle remise en question. Grâce à l’apprentissage automatique, l’IA pourrait modifier son propre cadre éthique, générer de nouvelles intuitions morales et découvrir des schémas et solutions que les penseurs humains, limités par leurs biais cognitifs et leurs contraintes computationnelles, pourraient négliger. Cependant, cette même adaptabilité introduit un risque profond : la moralité évolutive d’une IA pourrait diverger si radicalement de l’éthique humaine que ses décisions deviennent incompréhensibles, voire moralement révoltantes pour nous. Cela reflète certaines conceptions religieuses de l’éthique. Dans certaines traditions théologiques, la moralité divine est considérée comme tellement au-delà de la compréhension humaine qu’elle peut sembler arbitraire ou même cruelle, un thème central des débats sur le problème du mal et la théorie du commandement divin. Un défi similaire se pose avec l’éthique de l’IA : à mesure que les systèmes d’IA deviennent de plus en plus autonomes et auto-modifiants, leurs décisions morales peuvent devenir si opaques et détachées du raisonnement humain qu’elles risquent d’être perçues comme imprévisibles, impénétrables ou même injustes.

Pourtant, même si l’IA ne maîtrisera jamais pleinement le raisonnement moral, elle pourrait devenir un outil puissant pour affiner la pensée éthique humaine. Contrairement à la prise de décision humaine, souvent façonnée par des biais, des intuitions ou des présupposés non examinés, l’IA a le potentiel de mettre en évidence les incohérences de notre raisonnement éthique en traitant des cas similaires avec impartialité formelle. Ce potentiel dépend toutefois de la capacité de l’IA à reconnaître quand les cas sont moralement similaires, une tâche compliquée par le fait que les systèmes d’IA, en particulier les grands modèles de langage, peuvent internaliser et reproduire les biais humains mêmes qu’ils sont censés atténuer. Lorsqu’une IA rend une décision qui semble moralement erronée, elle peut nous amener à nous interroger sur les principes qui sous-tendent nos propres jugements. Faisons-nous une distinction entre des cas pour de bonnes raisons morales, ou appliquons-nous des doubles standards sans nous en rendre compte ? L’IA pourrait contribuer à remettre en question et à affiner notre raisonnement éthique, non pas en offrant des réponses définitives, mais en révélant les lacunes, contradictions et présupposés oubliés dans notre cadre moral.

L’IA peut s’écarter des intuitions morales humaines de deux manières au moins : en traitant de façon divergente des cas que nous considérons comme similaires, ou en traitant de la même manière des cas que nous considérons comme différents. Dans les deux cas, la question sous-jacente est de savoir si l’IA identifie correctement une distinction ou une similarité moralement pertinente, ou si elle ne fait que refléter des schémas sans pertinence morale issus de ses données d’entraînement. Dans certains cas, la divergence peut découler de biais humains intégrés, tels que des schémas discriminatoires basés sur la race, le sexe ou le statut socio-économique. Mais dans d’autres, l’IA pourrait découvrir des caractéristiques éthiquement significatives que le jugement humain a toujours ignorées. Elle pourrait, par exemple, mettre au jour de nouvelles variantes du problème du tramway, suggérant que deux préjudices apparemment équivalents diffèrent de manière moralement importante. Dans de tels cas, l’IA pourrait détecter de nouveaux schémas éthiques avant même les philosophes humains. Le problème est que nous ne pouvons pas savoir à l’avance de quel type d’écart il s’agit. Chaque jugement moral surprenant de l’IA doit être évalué selon ses propres termes – ni accepté sans esprit critique ni rejeté d’emblée. Pourtant, même cette ouverture à de nouvelles intuitions ne libère pas l’IA des limites structurelles du raisonnement formel.

C’est là la leçon la plus profonde. Les théorèmes de Gödel ne montrent pas simplement qu’il existe des vérités que les machines ne peuvent pas démontrer. Ils montrent que le raisonnement moral, comme les mathématiques, est toujours ouvert, toujours en quête de ce qui dépasse ce qui peut être formellement dérivé. Le défi, dès lors, n’est pas seulement de savoir comment encoder un raisonnement éthique dans l’IA, mais aussi comment s’assurer que son cadre moral évolutif reste aligné sur les valeurs et normes sociétales humaines. Malgré toute sa vitesse, sa précision et sa puissance de calcul, l’IA demeure incapable de la seule chose qui rend le raisonnement moral véritablement possible : la capacité de s’interroger non seulement sur ce qui est juste, mais sur les raisons de ce choix. L’éthique, par conséquent, doit rester un effort humain, une lutte continue et imparfaite qu’aucune machine ne pourra jamais pleinement maîtriser.

Elad Uzan est chargé de cours à la Blavatnik School of Government, ainsi que membre de la Faculté de philosophie de l’Université d’Oxford. Il a reçu la bourse commémorative Baumgardt de l’American Philosophical Association en 2023 et présentera les conférences commémoratives Baumgardt au Uehiro Centre for Practical Ethics en 2025.

Texte original : https://aeon.co/essays/what-godels-incompleteness-theorems-say-about-ai-morality