Le plongement lexical : Comment l’IA associe les mots à leur signification

L’ancrage du symbole dans l’IA : un défi persistant

L’intelligence artificielle (IA), représentée ici par Chat GPT, est confrontée à un problème majeur : l’association des symboles, tels que les mots, à leur signification profondément ancrée dans le monde réel. Ce défi, connu sous le nom d'”ancrage du symbole”, demeure insoluble pour l’IA à ce jour.

Lorsque nous disons, par exemple, “le chat dort sur son coussin car il est fatigué”, la plupart des êtres humains comprennent naturellement que le pronom “il” fait référence au “chat” et non au “coussin”. Ce raisonnement de bon sens nous est inné (mais pas nécessairement pour les IA comme Chat GPT).

Cependant, comment pouvons-nous enseigner cette capacité d’analyse à une IA ? La technique du “plongement lexical”, bien qu’elle ne résolve pas entièrement ce problème, offre néanmoins une solution redoutablement efficace. Il est essentiel de comprendre les principes de cette technique, car elle est largement utilisée dans la plupart des modèles d’IA récents, dont Chat GPT… et elle présente des similitudes avec les techniques utilisées par Cambridge Analytica, par exemple.

Le plongement lexical : comment les systèmes d’IA comme Chat GPT associent des mots similaires

Cette technique consiste à remplacer un mot, qui peut être considéré comme un symbole abstrait sans lien direct avec sa signification, par un vecteur numérique, c’est-à-dire une liste de nombres. Il est important de noter que cette représentation numérique permet une utilisation directe par les réseaux de neurones, qui bénéficient ainsi de leurs capacités d’apprentissage.

Plus précisément, ces réseaux de neurones apprennent à “plonger” un mot dans un espace numérique de grande dimension (typiquement 300) à partir de vastes corpus de textes. Chaque dimension de cet espace représente la probabilité d’occurrence du mot dans certains contextes. En simplifiant, la représentation symbolique du mot “chat” est ainsi remplacée par un vecteur de 300 nombres représentant la probabilité de trouver ce mot dans divers contextes (texte historique, texte animalier, texte technologique, etc.) ou de cooccurrence avec d’autres mots (comme “oreilles”, “moustache” ou “avion”).

Même si cette approche peut sembler rudimentaire, elle présente un avantage considérable en grande dimension : elle code des mots ayant des significations similaires avec des valeurs numériques proches. Ainsi, des notions de proximité et de distance peuvent être définies pour comparer le sens des symboles, ce qui constitue une première étape vers leur compréhension.

Pour illustrer la puissance de telles techniques (et plus généralement celle des statistiques en grande dimension), prenons un exemple largement connu.

Relier les traits psychologiques aux “likes” grâce aux statistiques en grande dimension

C’est grâce à une approche similaire que des entreprises comme Cambridge Analytica ont été en mesure d’influencer le déroulement d’élections en associant les préférences électorales (représentations symboliques) à différents contextes d’utilisation numérique (statistiques basées sur les pages Facebook des utilisateurs).

Leurs méthodes reposent sur une étude scientifique publiée en 2014 dans la revue PNAS, qui comparait les jugements humains aux jugements issus de statistiques sur les profils Facebook.

L’expérience décrite dans cette publication demandait aux participants de définir certains de leurs traits psychologiques (consciencieux, extravertis, etc.) en leur attribuant des étiquettes symboliques. Il était également possible de les représenter par des étiquettes numériques correspondant aux “likes” qu’ils avaient donnés sur Facebook, portant sur différents sujets (sport, loisirs, cinéma, cuisine, etc.). À partir de statistiques dans cet espace numérique de grande dimension, il était alors possible d’apprendre à associer certaines zones de cet espace à certains traits psychologiques.

Ensuite, en examinant uniquement le profil Facebook d’un nouvel individu, il était possible de déterminer dans quelle partie de cet espace il se trouvait et donc quels types de traits psychologiques lui étaient les plus proches. Cette prédiction pouvait également être comparée aux connaissances des proches de cet individu.

Le résultat principal de cette publication démontrait que, si les conditions nécessaires étaient remplies (espace de dimension suffisamment élevée, nombre suffisant de “likes” collectés et exemples en nombre conséquent, ici plus de 70 000 sujets), le jugement statistique pouvait se révéler plus précis que le jugement humain. Avec seulement 10 “likes”, on en savait plus sur vous que votre collègue de bureau ; avec 70 “likes”, plus que vos amis ; et avec 275 “likes”, plus que votre conjoint.

La révélation de nos “likes” et ses implications

Cette publication nous alerte sur le fait que, lorsqu’un grand nombre d’indicateurs sont croisés, notre comportement devient très prévisible. Il est donc primordial de faire preuve de prudence lors de nos interactions sur les réseaux sociaux, car ils peuvent nous cibler avec des recommandations et des publicités extrêmement efficaces. L’exploitation de telles techniques constitue d’ailleurs la principale source de revenus pour de nombreux acteurs d’Internet.

Cambridge Analytica est allée encore plus loin en s’appropriant illégalement les profils Facebook de millions d’Américains et en associant leurs “likes” à leurs préférences électorales afin de mieux cibler des campagnes électorales américaines. Des techniques similaires ont également été utilisées lors du vote sur le Brexit, ce qui a confirmé leur efficacité.

Il convient de souligner que seule l’aspiration illégale des profils Facebook a été condamnée par la justice, ce qui doit continuer à nous rendre méfiants quant aux traces que nous laissons sur Internet.

Calculer avec les mots en tenant compte de leur signification : maximiser l’utilisation de Chat GPT

En exploitant ce même pouvoir des statistiques en grande dimension, les techniques de plongement lexical utilisent d’importants corpus de textes disponibles sur Internet (Wikipédia, livres numérisés, réseaux sociaux) pour associer les mots à leur probabilité d’occurrence dans différents contextes textuels. Comme nous l’avons vu précédemment, cela permet d’établir une proximité dans cet espace de grande dimension en tant que similarité sémantique, et donc de réaliser des calculs avec les mots en tenant compte de leur signification.

Un exemple classique rapporté est de prendre un vecteur numérique représentant le mot “roi”, de lui soustraire un vecteur (de même dimension, représentant les probabilités d’occurrence sur les mêmes critères) correspondant au mot “homme”, puis d’ajouter un vecteur représentant le mot “femme”. Ainsi, on obtient un vecteur très proche de celui représentant le mot “reine”. En d’autres termes, il est possible d’apprendre une relation sémantique de type “A est à B ce que C est à D”.

Le principe sous-jacent pour définir une sémantique est que deux mots proches sont utilisés dans des contextes similaires : il s’agit de la “sémantique distributionnelle”. C’est ce principe de codage des mots qui est utilisé par Chat GPT, auquel d’autres techniques sont ajoutées.

Ce codage lui permet souvent d’utiliser les mots de manière pertinente ; cependant, il peut également l’amener parfois à commettre des erreurs grossières, que l’on appelle des hallucinations, où il semble inventer de nouveaux faits. Cela se produit, par exemple, lorsqu’on lui demande comment différencier les œufs de poule des œufs de vache et qu’il répond que ces derniers sont plus gros. Mais est-ce réellement surprenant compte tenu de la façon dont il code le sens des symboles qu’il manipule ?

Dans cette optique, Chat GPT répond correctement à la question qui lui est posée, tout comme il peut nous dire, si on lui demande, que les vaches sont des mammifères et ne pondent pas d’œufs. Le seul problème réside dans le fait que, fascinés par la qualité de ses conversations, nous pensons qu’il raisonne de la même manière que nous, qu’il “comprend” comme nous le faisons. En réalité, ce qu’il “comprend” est simplement le fruit de statistiques en grande dimension.

Check Also

L’Aube des Ordinateurs Organiques : Vers une Révolution Technologique

Une Fusion Révolutionnaire Entre Biologie et Technologie Dans un monde où la technologie et la …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *