Arryn Robbins, Eben W. Daggett et Michael Hout
L’IA ne « voit » pas comme vous — et cela peut poser problème lorsqu’elle catégorise des objets et des scènes

Même sans fourrure visible dans l’image, vous pouvez facilement reconnaître qu’une photo d’un chat Sphynx représente un chat. Vous ne le confondriez pas avec un éléphant. Pourtant, de nombreux systèmes de vision par intelligence artificielle le feraient. Pourquoi ? Parce que, lorsque les systèmes d’IA apprennent à catégoriser des objets, ils s’appuient souvent sur des indices visuels — comme la texture de surface ou de simples motifs dans les pixels. Cette tendance les rend vulnérables à de petites modifications qui ont très peu d’effet sur la perception humaine.

Une IA et un humain pourraient classer ce mammifère à la peau grise et ridée comme des animaux très différents.

Même sans fourrure visible dans l’image, vous pouvez facilement reconnaître qu’une photo d’un chat Sphynx représente un chat. Vous ne le confondriez pas avec un éléphant.

Pourtant, de nombreux systèmes de vision par intelligence artificielle le feraient. Pourquoi ? Parce que, lorsque les systèmes d’IA apprennent à catégoriser des objets, ils s’appuient souvent sur des indices visuels — comme la texture de surface ou de simples motifs dans les pixels. Cette tendance les rend vulnérables à de petites modifications qui ont très peu d’effet sur la perception humaine.

Un système de vision davantage aligné sur la perception humaine — par exemple, un système qui mettrait l’accent sur la forme — pourrait encore confondre ce chat avec un autre mammifère de forme similaire, comme un tigre ; mais il est peu probable qu’il indique un éléphant.

Les types d’erreurs qu’une IA commet révèlent la manière dont elle organise l’information visuelle, avec des limites potentielles qui deviennent préoccupantes dans des contextes à enjeux élevés.

Imaginez un véhicule autonome approchant un panneau d’arrêt vandalisé. Alors qu’un conducteur humain reconnaît le panneau grâce à sa forme et à son contexte, une IA qui s’appuie sur des motifs de pixels pourrait le classer incorrectement, excluant le panneau modifié de la catégorie « panneau » pour le ranger dans un autre groupe d’images qu’elle considère comme similaires — par exemple un panneau publicitaire, une affiche ou un autre objet en bord de route.

Des autocollants et des graffitis sur un panneau STOP pourraient servir d’attaque adverse, perturbant l’IA des véhicules autonomes.

Ensemble, ces problèmes révèlent un décalage entre la manière dont les humains perçoivent le monde visuel et celle dont l’IA le représente.

Nous sommes des experts de la perception visuelle et travaillons à l’intersection de la perception humaine et de la perception machine. Les êtres humains organisent les informations visuelles en objets, en significations et en relations façonnées par l’expérience et le contexte. Les modèles d’IA n’organisent pas l’information visuelle de la même manière. Cette différence essentielle explique pourquoi l’IA échoue parfois de façon surprenante.

Voir des objets, pas des particularités

Imaginez qu’un petit objet opaque se trouve devant vous, avec à la fois des bords droits et des courbes. Mais vous ne voyez pas ces particularités : vous voyez simplement votre tasse à café.

La vision n’est pas une caméra enregistrant passivement le monde. Au contraire, votre cerveau transforme rapidement la lumière captée par vos yeux en objets que vous reconnaissez et comprenez, organisant l’expérience en représentations mentales structurées.

Les chercheurs peuvent comprendre comment ces représentations sont organisées en examinant la façon dont les gens jugent la similarité. Votre tasse à café ne ressemble pas à votre ordinateur, mais elle est semblable à un verre d’eau malgré leurs différences d’apparence. Ce jugement reflète la manière dont la tasse est représentée mentalement : non seulement en termes d’apparence, mais aussi en fonction de son usage et de sa place dans les activités quotidiennes.

Très semblables dans la façon dont vous les utilisez ; moins similaires dans leur apparence.

Il est important de noter que l’organisation mentale des représentations est flexible. Les aspects d’un objet qui ressortent changent selon le contexte et les objectifs. Si vous préparez un carton pour un déménagement, la forme et la taille comptent le plus ; votre tasse peut donc être placée n’importe où tant qu’elle rentre. Mais lorsque vous la rangez dans un placard, elle va à côté des autres verres et tasses. La tasse n’a pas changé : seule la façon dont elle est organisée dans votre esprit a changé.

La perception visuelle humaine est adaptative, guidée par le sens et liée à la manière dont nous interagissons avec le monde.

Aligner l’IA sur les humains

Les systèmes d’IA, en revanche, organisent les informations visuelles d’une manière fondamentalement différente de celle des humains — non pas parce qu’ils sont des machines, mais parce que leur entraînement est très étroitement ciblé. Lorsqu’une IA est entraînée à catégoriser un chat ou un éléphant, elle doit simplement apprendre quels motifs visuels conduisent à la bonne étiquette, et non comment ces animaux se relient entre eux ou s’insèrent dans le monde plus large.

Les humains, au contraire, apprennent dans un contexte beaucoup plus vaste. Lorsque nous apprenons ce qu’est un éléphant, nous intégrons cette représentation dans la trame de tout ce que nous avons déjà appris : les animaux, la taille, les habitats, et bien d’autres choses encore. Comme l’IA est évaluée uniquement sur la précision de l’étiquette, elle peut s’appuyer sur des raccourcis qui fonctionnent pendant l’entraînement, mais échouent parfois dans le monde réel.

La question de l’alignement représentationnel concerne le fait de savoir si l’IA organise l’information d’une manière semblable à celle des humains. Il ne faut pas confondre cela avec l’alignement des valeurs, qui désigne le défi consistant à s’assurer que les systèmes d’IA poursuivent les résultats et les objectifs que les humains souhaitent.

Comme l’apprentissage humain intègre les nouvelles informations dans un réseau de connaissances antérieures, les relations entre les nouveaux concepts et les concepts existants peuvent être étudiées et mesurées. Cela signifie que l’alignement représentationnel pourrait être un problème solvable — et constituer une étape vers la résolution de défis d’alignement plus larges.

Une approche consiste à construire des systèmes d’IA qui se comportent comme des humains dans des tâches psychologiques, ce qui permet aux chercheurs de comparer directement les représentations. Par exemple, si les gens jugent qu’un chat est plus semblable à un chien qu’à un éléphant, l’objectif est de construire des modèles d’IA qui arrivent aux mêmes jugements.

Une technique prometteuse consiste à entraîner l’IA à partir de jugements de similarité humains recueillis en laboratoire. Dans ces études, les participants peuvent voir trois images et devoir indiquer quels deux objets se ressemblent le plus ; par exemple, si une tasse ressemble davantage à un verre ou à un bol. L’intégration de ces données dans l’entraînement encourage les systèmes d’IA à apprendre comment les objets se relient entre eux, produisant des représentations qui reflètent mieux la manière dont les humains comprennent le monde.

Les prestataires de soins de santé veulent des systèmes d’IA capables de signaler les véritables problèmes, sans beaucoup de cas manqués ni de faux positifs.

L’alignement au-delà de la vision

L’alignement représentationnel est important au-delà des seuls systèmes de vision, et les chercheurs en IA commencent à s’y intéresser de plus près. À mesure que l’IA soutient des décisions à forts enjeux, les différences entre la manière dont les machines et les humains représentent le monde auront des conséquences réelles, même lorsqu’un système d’IA semble très précis. Par exemple, si une IA qui analyse des images médicales apprend à associer la provenance d’une image ou des artefacts visuels répétés à une maladie — plutôt que les véritables signes visuels de cette maladie —, le problème est évident.

L’IA n’a pas nécessairement besoin de traiter l’information exactement comme le fait la pensée humaine. Mais entraîner l’IA en s’appuyant sur des principes issus de la perception et de la cognition humaines — tels que la similarité, le contexte et la structure relationnelle — peut conduire à des systèmes plus sûrs, plus précis et plus éthiques.

Les auteurs :

Arryn Robbins est professeure adjointe de psychologie à l’University of Richmond.

Eben W. Daggett est membre affilié de la faculté de psychologie à la New Mexico State University.

Michael Hout est vice-doyen à la recherche et professeur de psychologie à la New Mexico State University.

Texte original publié le 11 mars 2026 : https://theconversation.com/ai-doesnt-see-the-way-that-you-do-and-that-could-be-a-problem-when-it-categorizes-objects-and-scenes-271481