Google dévoile Gemini : l’IA révolutionnaire qui défie ChatGPT

Google repart à la conquête de l’IA générative

Après plus d’un an de travail acharné, Google fait un retour fracassant dans le domaine de l’intelligence artificielle générative. Le 6 décembre, Google a révélé son tout nouveau modèle d’intelligence artificielle multimodal baptisé Gemini. Sundar Pichai, le PDG de Google, s’est exprimé avec enthousiasme sur cette avancée majeure en déclarant : « Nous franchissons aujourd’hui l’étape suivante de notre aventure grâce à Gemini, notre modèle le plus performant et le plus général à ce jour, avec des performances de pointe dans de nombreux critères de référence. Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris depuis la création de Google. »

Trois modèles pour un champ d’application varié

Gemini ne se contente pas d’un seul modèle, mais en propose trois, chacun adapté à des besoins spécifiques :

Gemini Ultra : la puissance à l’état pur

Le modèle Gemini Ultra se distingue par sa puissance et sa capacité à relever les tâches les plus complexes. Il ouvre de nouvelles perspectives dans le domaine de l’IA multimodale en traitant non seulement du texte et des images, mais aussi de la vidéo et de l’audio.

Gemini Pro : polyvalence et adaptabilité

Gemini Pro, en revanche, offre une polyvalence qui le rend adapté à une variété de tâches différentes. Sa capacité à s’adapter à des besoins variés en fait un choix judicieux pour de nombreuses applications.

Gemini Nano : la portabilité à son apogée

Enfin, Gemini Nano se distingue par ses performances en termes de calcul, en particulier pour les tâches embarquées. Il peut être exécuté depuis des appareils, ce qui le rend idéal pour des applications spécifiques.

Gemini repousse les limites de la multimodalité

Le développement de Gemini a été le fruit d’une collaboration avec divers secteurs dédiés à l’IA au sein du groupe Google. Ce modèle représente une avancée majeure dans le domaine de la multimodalité, permettant à l’IA de traiter du texte, du code, des images, de la vidéo et de l’audio simultanément. Demis Hassabis, PDG et co-fondateur de Google DeepMind, explique : « Cette approche confère à Gemini une capacité de compréhension et de raisonnement sur tous types d’entrées. C’est pour cela que ses performances dépassent de loin celles des modèles existants, et que ses capacités repoussent les limites de l’état de l’art dans presque tous les domaines. »

Gemini surclasse GPT-4 dans de nombreux domaines

Google avait préalablement annoncé que Gemini surpasserait GPT-4, et les benchmarks confirment cette affirmation. Gemini Ultra, dans la catégorie générale, obtient un score de 90% sur le benchmark MMLU, contre 86,4% pour GPT-4. Pour le raisonnement, Gemini Ultra affiche 83,6% sur Big-Bench Hard, légèrement supérieur aux 83,1% de GPT-4. Dans le domaine des mathématiques, Gemini Ultra obtient 94,4% sur GSM8K, tandis que GPT-4 atteint 92,0%. Sur des problèmes mathématiques plus complexes (benchmark MATH), Gemini Ultra maintient son avance avec un score de 53,2% contre 52,9% pour GPT-4. En ce qui concerne la génération de code Python, sur HumanEval, Gemini Ultra obtient un score de 74,4%, dépassant GPT-4 qui atteint 67,0%. Sur Natural2Code, Gemini Ultra continue de dominer avec 74,9% contre 73,9% pour GPT-4.

Selon Google, Gemini excelle également dans « le filtrage et la compréhension des informations », lui permettant de parcourir de vastes bases de données documentaires pour extraire rapidement des informations précises. Tout comme GPT-4, Gemini possède des capacités de développement avancées dans la plupart des langages de programmation, notamment Python, Java, C++ et Go. Le modèle peut être utilisé comme moteur pour des systèmes de codage avancés.

Un duel entre Gemini et GPT-4

Gemini rattrape GPT-4 dans de nombreuses tâches complexes, mais chaque modèle a ses forces spécifiques. Gemini Ultra se distingue dans les tâches générales et la résolution de problèmes mathématiques de base, tandis que GPT-4 excelle dans les tâches nécessitant un raisonnement de bon sens plus nuancé.

Comment tester Gemini ?

Google déploiera progressivement Gemini dans ses produits. La version Pro de Gemini sera intégrée à Bard dès le 6 décembre, en anglais. De nouvelles fonctionnalités multimodales seront ajoutées au fil des prochaines mises à jour. La version Gemini Nano sera intégrée au Pixel 8 Pro pour prendre en charge de nouvelles fonctionnalités intelligentes.

Dans les mois à venir, Gemini fera son apparition dans Google Search, Ads, Chrome, et Duet AI. L’expérience SGE intégrera également le modèle Gemini pour accélérer la génération des résultats d’environ 40%. Pour les développeurs, Gemini Pro sera accessible via une API à partir du 13 décembre, disponible sur Google AI Studio et Google Cloud Vertex AI. Les développeurs mobiles pourront quant à eux exploiter les capacités de Gemini Nano grâce à la nouvelle fonctionnalité AICore.

La version Ultra de Gemini, la plus puissante des trois, n’est pas encore accessible au grand public. Google poursuit ses tests, notamment avec des tiers de confiance, avant de la déployer début 2024. Cette version intégrera Bard Advanced, une nouvelle expérience avant-gardiste exploitant les meilleurs modèles de la firme.

Conclusion

Avec Gemini, Google franchit une étape significative dans le domaine de l’IA générative multimodale. Ses performances impressionnantes dans un large éventail de domaines promettent des avancées notables dans de nombreuses applications. Restez à l’affût des nouvelles fonctionnalités et des opportunités offertes par Gemini alors que Google déploie progressivement ce modèle révolutionnaire.

Check Also

Photographier la Terre depuis d’autres mondes : une première historique

Introduction Imaginez-vous quelque part dans le vaste cosmos, observant cette minuscule sphère bleue que nous …

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *