Wikipédia, la célèbre encyclopédie collaborative, est en pleine évolution—ou plutôt en pleine guerre silencieuse contre les intelligences artificielles. Avec l’arrivée des IAG (Intelligences Artificielles Génératives) comme ChatGPT, la fiabilité de ses contenus est menacée par des articles créés artificiellement par des robots conversationnels. Mais pourquoi cela représente-t-il un problème si grave pour l’encyclopédie en ligne la plus populaire du monde, et comment ses modérateurs tentent-ils de contenir cette nouvelle vague de contenus suspects ?
L’essor des IA : Le Défi Majeur de Wikipédia
Imaginez une encyclopédie où chaque minute voit l’ajout d’une nouvelle page, où des millions de contributeurs éparpillés sur le globe participent quotidiennement. C’est l’essence même de Wikipédia. Mais avec l’avènement des IA capables de générer automatiquement des textes, l’encyclopédie est confrontée à une autre dimension de la vérification : différencier ce qui est vrai de ce qui est… créé de toutes pièces. Un robot, lui, ne connaît ni la vérité, ni le faux. Pour lui, une forteresse ottomane vieille de 600 ans peut aussi bien avoir existé qu’être un simple produit de son algorithme.
Le rythme de création est tel qu’une brigade spécialisée, surnommée « WikiProject AI Cleanup », a vu le jour. Leur mission : traquer et éliminer les contenus suspects avant qu’ils ne deviennent des faits acceptés par le plus grand nombre. Car c’est là la vraie menace : la diffusion de fausses informations présentées comme étant d’une précision encyclopédique.
Cette prolifération de contenus créés par des IA est d’autant plus alarmante qu’elle s’insinue discrètement parmi des contributions bien intentionnées. Les modérateurs doivent être en alerte constante, à la recherche de ces articles fantômes. Le problème ne se limite pas seulement à la création de nouvelles pages, mais touche également les modifications apportées à des articles existants, où les faits réels sont mélangés à des informations fictives de manière presque indétectable.
Amberlisihar : La Forteresse Fantôme de ChatGPT
Prenons le cas de la forteresse d’Amberlisihar. Pendant près d’un an, cet article a été consulté des milliers de fois sur Wikipédia. On y trouvait des détails passionnants : des batailles épiques, des rénovations à travers les siècles… tout cela, basé sur des sources présumées authentiques. Le seul problème ? Amberlisihar n’a jamais existé. Tout était un conte de fée créé par une IA, inventant même des sources imaginaires.
Comme le souligne Ilyas Lebleu, cofondateur de « WikiProject AI Cleanup », l’un des problèmes majeurs des textes générés par IA est l’invention récurrente de références. En effet, une IA peut parfaitement mélanger des personnages historiques réels à une fiction créée de toutes pièces, rendant ainsi la vérification extrêmement complexe. Difficile alors de différencier une source authentique d’une totale invention.
Ce genre de contenu est particulièrement dangereux car il présente des informations fictives comme étant rigoureusement vérifiées. Les utilisateurs qui ne sont pas experts du sujet ont peu de moyens de discerner la véracité de ces articles, et la propagation de telles informations peut conduire à de graves malentendus. Cela s’inscrit dans une dynamique plus large de désinformation qui touche l’ensemble d’internet, rendant d’autant plus urgente la mise en place de garde-fous efficaces.
Des « Fleurs Bucoliques » en Plein Désert
Les méfaits des IA sur Wikipédia ne se limitent pas à l’invention totale de forteresses fantômes. Parfois, l’IA se contente de modifier partiellement un article existant. L’exemple d’un petit village iranien en est une parfaite illustration. ChatGPT avait ajouté une charmante description de ce village agricole pittoresque, entouré de fleurs et d’animaux de la ferme… Mais en réalité, il s’agissait d’un village perdu au milieu d’une région aride et montagneuse. Une élégante invention qui aurait pu donner envie de le visiter… sauf que personne ne trouverait jamais ce havre de paix fictif.
Les expressions standardisées, souvent trop subjectives, sont l’un des signes distinctifs des contenus créés par IA. « Riche héritage culturel », « belle atmosphère pittoresque »… autant de formulations qui ne sont guère bienvenues dans une encyclopédie censée rester factuelle. Les équipes de modération ont ainsi acquis une certaine expertise pour identifier ces signatures linguistiques propres aux IA.
Il n’est pas rare de voir des articles où des éléments factuels précis sont enrichis de détails complètement inventés, rendant l’article à la fois attractif et trompeur. C’est une technique qui rend le travail des modérateurs particulièrement complexe, car même les experts peuvent être déroutés par ces ajouts qui paraissent plausibles. Cette tendance à embellir ou à travestir les faits nuit à la mission première de Wikipédia : offrir une connaissance accessible et fiable à tous.
La Communauté Wikipédia Face aux IA : Guerre ou Coexistence ?
Les opinions sont partagées parmi les contributeurs de Wikipédia. Certains pensent qu’il faut purement et simplement interdire les contenus issus d’IA, arguant que leur manque de fiabilité menace directement l’essence même de l’encyclopédie. D’autres, plus modérés, estiment qu’il suffirait de signaler ces articles comme étant générés par une machine. Enfin, il y a ceux qui doutent de la capacité à contrôler ces contributions artificielles : après tout, avec ChatGPT, il est possible de produire dix articles en dix minutes… mais qui nettoiera les approximations et erreurs qui s’y glissent inévitablement ?
Certains voient aussi une opportunité dans l’utilisation des IA. Pour eux, l’IA pourrait être un outil puissant si elle était correctement encadrée. Elle pourrait aider à structurer des articles, à générer des résumés ou à détecter les erreurs dans les articles existants. Mais cela nécessite une vigilance extrême et des systèmes de vérification sophistiqués pour garantir que les informations ainsi produites respectent les standards de qualité de Wikipédia.
À ce jour, Wikipédia préfère rejeter la majorité des textes créés par IA, car ceux-ci sont souvent impossibles à vérifier correctement. L’encyclopédie tient en effet à respecter une règle d’or : la fiabilité des sources. Et tant que l’IA aura cette fâcheuse tendance à inventer des références, la méfiance demeurera.
Pour certains contributeurs, la seule façon de coexister avec les IA est de créer des systèmes de vérification automatisés pour examiner le contenu généré par des machines. Ces systèmes pourraient analyser la cohérence des articles, identifier les motifs récurrents d’erreurs et, surtout, comparer les nouvelles informations aux bases de données déjà fiables. Mais de tels systèmes sont encore en développement, et la technologie n’est pas toujours capable de repérer les subtiles erreurs insérées par les IA.
IA et Désinformation : Un Problème qui Dépasse Wikipédia
Ce phénomène de contenus IA met en lumière une problématique plus générale : la circulation massive d’informations non vérifiées sur internet. Comme le rappelle Thomas Huchon, journaliste spécialisé dans la désinformation, « L’intelligence artificielle ne fait qu’amplifier un problème préexistant : celui de l’information incontrôlée. »
Avec l’augmentation exponentielle de la capacité des IA à générer du contenu, il devient de plus en plus difficile de garantir l’authenticité des informations que nous consommons. Ce problème n’affecte pas seulement Wikipédia, mais aussi l’ensemble des réseaux sociaux et des plateformes de partage de contenu. La vérification des faits est devenue une tâche titanesque, et beaucoup d’utilisateurs n’ont ni le temps ni les compétences nécessaires pour le faire eux-mêmes.
Tant que les IAG ne seront pas soumises à une régulation stricte, il reviendra aux utilisateurs de redoubler de vigilance. La meilleure arme pour se protéger de ces informations douteuses est de vérifier soi-même les sources. Ne vous contentez pas de lire un texte bien écrit—parfois, même un robot peut être un excellent raconteur d’histoires… mais ça ne veut pas dire que tout est vrai.
Ce constat appelle à une prise de conscience collective. Les utilisateurs doivent développer un esprit critique face à l’information qui leur est présentée, et les éditeurs de contenus en ligne doivent adopter des mesures de précaution pour filtrer les contenus douteux. Une solution pourrait être d’enseigner aux internautes comment repérer les contenus potentiellement générés par IA, en identifiant des schémas et des styles d’écriture typiques de ces outils.
Conclusion : Vers un Wikipédia Plus Fort ou Plus Vulnérable ?
Les IA génératives présentent une opportunité, mais aussi un danger pour Wikipédia. D’un côté, elles peuvent aider à la création de contenus. De l’autre, elles menacent la crédibilité d’une ressource que des millions de personnes considèrent comme fiable. La clé de cette équation semble reposer sur la vigilance : aussi bien des contributeurs que des lecteurs. En restant attentif et en développant de nouvelles méthodes de vérification, Wikipédia pourrait bien sortir renforcé de ce combat contre la désinformation artificielle.
Mais ce combat n’est pas seulement celui de Wikipédia. Il concerne toute la société, alors que nous naviguons dans une ère où les frontières entre la réalité et la fiction deviennent de plus en plus floues. Le défi est immense, mais il est essentiel pour que l’information reste un bien commun sur lequel nous pouvons tous compter. Wikipédia a toujours été un symbole de la collaboration humaine pour partager la connaissance, et cette mission n’a jamais été aussi importante qu’aujourd’hui.