Peter Hall
Le défi de la préservation des bonnes données à l’ère de l’IA

26.09.2024 Si les contenus créés par l’intelligence artificielle inondent l’internet, qui décide quelles informations en ligne méritent d’être archivées ? En grandissant, les gens de ma génération ont appris à faire attention à ce qu’ils postaient en ligne, car « l’internet est éternel ». Mais en réalité, les gens perdent des photos de famille, partagées sur des comptes […]

26.09.2024

Si les contenus créés par l’intelligence artificielle inondent l’internet, qui décide quelles informations en ligne méritent d’être archivées ?

En grandissant, les gens de ma génération ont appris à faire attention à ce qu’ils postaient en ligne, car « l’internet est éternel ». Mais en réalité, les gens perdent des photos de famille, partagées sur des comptes de réseaux sociaux auxquels elles n’ont plus accès depuis longtemps. Les services de streaming retirent l’accès à des émissions populaires, des contenus qui n’ont même jamais pu être achetés. Les journalistes, les animateurs et les développeurs perdent des années de travail lorsque les entreprises du web et les plateformes technologiques disparaissent.

Dans le même temps, des outils basés sur l’intelligence artificielle, tels que ChatGPT et le créateur d’images Midjourney, ont gagné en popularité, et certains pensent qu’ils remplaceront un jour le travail traditionnellement effectué par les humains, comme la rédaction de textes ou le tournage de séquences vidéos bobine B. indépendamment de leur capacité réelle à effectuer ces tâches, une chose est certaine : L’internet est sur le point d’être inondé d’une masse de contenus facilement générés par IA, ce qui risque d’éclipser le travail humain. Cette vague imminente pose un problème aux informaticiens comme moi qui réfléchissent quotidiennement à la confidentialité, à la fidélité et à la diffusion des données. Mais tout le monde devrait y prêter attention. En l’absence de plans de conservation clairs, nous perdrons beaucoup de données et d’informations de qualité.

En fin de compte, la préservation des données est une question de ressources : Qui sera responsable du stockage et de la conservation des informations, et qui paiera pour que ces tâches soient accomplies ? En outre, qui décide de ce qui mérite d’être conservé ? Les entreprises qui développent des modèles d’IA dits « de base » comptent parmi les principaux acteurs désireux de cataloguer les données en ligne, mais leurs intérêts ne sont pas nécessairement alignés sur ceux du commun des mortels.

Les coûts de l’électricité et de l’espace serveur nécessaires pour conserver les données indéfiniment s’additionnent au fil du temps. L’infrastructure de données doit être entretenue, au même titre que les ponts et les routes. Pour les petits éditeurs de contenu en particulier, ces coûts peuvent être onéreux. Même si nous pouvions télécharger et sauvegarder périodiquement l’intégralité de l’internet, cela ne suffirait pas. Tout comme une bibliothèque ne sert à rien sans une certaine structure organisationnelle, toute forme de préservation de données doit être archivée de manière réfléchie. La compatibilité est également un problème. Si un jour nous abandonnons l’enregistrement de nos documents au format PDF, par exemple, nous devrons conserver des ordinateurs plus anciens (avec des logiciels compatibles) à portée de main.

En fin de compte, la préservation des données est une question de ressources : Qui sera responsable du stockage et de la conservation des informations, et qui paiera pour que ces tâches soient accomplies ?

Cependant, lorsque nous sauvegardons tous ces fichiers et contenus numériques, nous devons également respecter les détenteurs de droits d’auteur et travailler avec eux. Spotify a dépensé plus de 9 milliards de dollars en licences musicales l’année dernière, par exemple ; tout système d’archivage de données destiné au public aurait une valeur plusieurs fois supérieure. Un système de conservation des données est inutile s’il fait faillite en raison de poursuites judiciaires. Cela peut s’avérer particulièrement délicat si le contenu a été créé par un groupe ou s’il a changé de propriétaire plusieurs fois — même si le créateur original d’une œuvre l’approuve, quelqu’un peut toujours vouloir protéger les droits d’auteur qu’il a achetés.

Enfin, nous devons veiller à n’archiver que les informations vraies et utiles, une tâche qui est devenue de plus en plus difficile à l’ère de l’internet. Avant l’avènement de l’internet, le coût de production des supports physiques — livres, journaux, magazines, jeux de société, DVD, CD, etc. — limitait naturellement la diffusion de l’information. En ligne, les barrières à la publication sont beaucoup moins élevées, ce qui permet de diffuser chaque jour un grand nombre d’informations fausses ou inutiles. Lorsque les données sont décentralisées, comme c’est le cas sur internet, nous avons toujours besoin d’un moyen de nous assurer que nous promouvons le meilleur d’entre elles, quelle que soit la définition que l’on en donne.

Cela n’a jamais été aussi pertinent qu’aujourd’hui, sur un internet en proie au bavardage généré par l’IA. Il a été démontré que les modèles d’IA générative tels que ChatGPT mémorisent involontairement des données d’entraînement (ce qui a donné lieu à un procès intenté par le New York Times), hallucinent de fausses informations et heurtent parfois la sensibilité humaine, alors que le contenu généré par l’IA est de plus en plus répandu sur les sites web et les applications de médias sociaux.

À mon avis, comme le contenu généré par l’IA peut tout simplement être reproduit, il n’est pas nécessaire de le préserver. Bien que de nombreux développeurs d’IA de premier plan ne souhaitent pas dévoiler les secrets de la collecte de leurs données d’entraînement, il semble très probable que ces modèles soient entraînés sur de grandes quantités de données récupérées sur internet, de sorte que même les entreprises d’IA se méfient des soi-disant données synthétiques en ligne qui pourrait dégrader la qualité de leurs modèles.

Si les fabricants, les développeurs et les citoyens ordinaires peuvent résoudre certains de ces problèmes, le gouvernement se trouve dans la position unique de disposer des fonds et du pouvoir juridique nécessaires pour sauvegarder l’ensemble de notre intelligence collective. Les bibliothèques conservent et documentent d’innombrables livres, films, musiques et autres formes de supports physiques. La Bibliothèque du Congrès conserve même des archives sur le web, principalement des documents historiques et culturels. Mais cela est loin d’être suffisant.

L’ampleur de l’internet, ou même simplement des médias numériques, dépasse certainement de loin les réserves numériques actuelles de la Bibliothèque du Congrès. Non seulement cela, mais les plateformes numériques — pensez à des logiciels comme Adobe Flash, aujourd’hui obsolète — doivent également être préservées. Tout comme les conservateurs entretiennent et prennent soin des livres et autres biens physiques qu’ils manipulent, les biens numériques nécessitent des techniciens qui prennent soin des ordinateurs originaux et des systèmes d’exploitation et les maintiennent en état de marche. Bien que la Bibliothèque du Congrès ait mis en place certaines pratiques pour la numérisation d’anciens formats de médias, celles-ci ne répondent pas aux exigences de préservation du vaste paysage qu’est l’informatique.

Le gouvernement est, en théorie, le gardien de la volonté et de l’intérêt public, ce qui doit inclure nos connaissances et nos faits collectifs.

Des groupes comme la fondation Wikimédia et l’Internet Archive font un excellent travail pour combler cette lacune. Ce dernier, en particulier, tient un registre exhaustif des logiciels et des sites web obsolètes. Toutefois, ces plateformes se heurtent à de sérieux obstacles dans la poursuite de leurs objectifs d’archivage. Wikipédia sollicite souvent des dons et s’appuie sur des bénévoles pour la rédaction et la vérification des articles. Cela pose une série de problèmes, dont le moindre n’est pas la partialité dans le choix des articles et la manière dont ils sont rédigés. L’Internet Archive s’appuie également sur les contributions des utilisateurs, par exemple avec sa Wayback Machine, ce qui peut limiter les données archivées et le moment où elles le sont. L’Internet Archive a également été confronté à des poursuites judiciaires de la part des détenteurs de droits d’auteur, qui menacent son champ d’action et ses moyens de subsistance.

Le gouvernement, quant à lui, n’est pas soumis aux mêmes contraintes. À mon avis, le financement et les ressources supplémentaires nécessaires pour étendre les objectifs de la Bibliothèque du Congrès à l’archivage des données web seraient presque négligeables par rapport au budget des États-Unis. Le gouvernement a également le pouvoir de créer les exceptions nécessaires à la propriété intellectuelle d’une manière qui soit bénéfique pour toutes les parties — voir, par exemple, le Theatre on Film and Tape Archive de la New York Public Library, qui a préservé de nombreuses productions de Broadway et d’off-Broadway à des fins éducatives et de recherche, bien que ces spectacles interdisent formellement aux gens de prendre des photos ou des vidéos d’eux. Enfin, le gouvernement est, en théorie, le gardien de la volonté et de l’intérêt publics, ce qui doit inclure nos connaissances et nos faits collectifs. Puisque toute forme d’archivage implique une certaine forme de choix de ce qui est préservé (et par conséquent, de ce qui ne l’est pas), je ne vois pas de meilleure option qu’un organisme public responsable qui prendrait cette décision.

Bien entendu, tout comme la tenue de registres analogiques n’a pas pris fin avec les bibliothèques physiques, l’archivage des données ne devrait pas prendre fin avec cette proposition. Mais c’est un bon début. À l’heure où les responsables politiques laissent les bibliothèques dépérir (comme c’est le cas dans ma ville, New York), il est plus important que jamais de redresser la barre. Nous devons recentrer notre attention sur la modernisation de nos bibliothèques, véritables centres d’information, à l’ère de l’information.

Peter Hall est étudiant en informatique au Courant Institute of Mathematical Sciences de l’université de New York. Ses recherches portent sur les fondements théoriques de la cryptographie et de la politique technologique.

Texte original : https://undark.org/2024/09/26/opinion-challenge-of-preserving-good-data-ai/