Introduction : David contre Goliath… mais en version IA
Quand on pense à l’intelligence artificielle (IA) dans le monde des plateformes de données, deux noms sautent immédiatement à l’esprit : Snowflake et Databricks. Alors que Databricks s’est très tôt placé sur le devant de la scène en adoptant le machine learning bien avant que l’IA générative ne devienne la vedette du moment, Snowflake, tel un David des temps modernes, s’est lancé dans une épopée pour combler son retard. Et croyez-moi, l’écart se resserre… Voici donc un décryptage de ce duel digne des plus grandes rivalités tech !
La compétition entre ces deux plateformes est fascinante car elle touche à la manière dont les entreprises exploitent les données pour créer de la valeur. Databricks, grâce à son approche précoce et sa focalisation sur le machine learning, a su attirer les premiers adopteurs de l’IA. De son côté, Snowflake a mis en place une stratégie visant à rattraper ce retard, à travers une évolution rapide de ses fonctionnalités et de ses offres. Ce duel rappelle celui d’autres duels historiques dans le monde de la tech, comme Windows contre Mac ou Android contre iOS.
Snowflake et l’IA Traditionnelle : Le Rattrapage d’un Sprinteur
Snowflake a pris son temps, mais il a mis les bouchées doubles. Sur le terrain de l’IA traditionnelle, l’éditeur a su proposer des outils de data engineering des plus complets. Snowflake orchestre des pipelines de données, transforme, charge et raffine les données pour les rendre exploitables. C’est comme s’il avait ouvert un restaurant gastronomique de données où chaque élément est préparé avec soin avant d’être servi. Mais ce n’est pas tout, Snowflake a aussi apporté un atelier de machine learning qui comprend un model store (pour les modèles) et un feature store (pour les caractéristiques). De quoi séduire les data scientists !
Les pipelines de Snowflake ne se contentent pas de charger des données, ils automatisent aussi la création d’environnements prêts pour l’analyse et le machine learning. Cela signifie que les entreprises peuvent tirer parti de leurs données sans avoir besoin d’une équipe énorme de data engineers pour tout mettre en place. Snowflake a su créer une expérience fluide, permettant une exploration et une transformation efficaces des données.
Et, en guise de cerise sur le gâteau, des outils de monitoring sont également inclus. Parce qu’appréhender les hallucinations de vos IA, c’est quand même mieux que de vous retrouver avec une IA qui prévoit l’invasion des martiens sur la base d’un simple excès de caféine dans vos logs. Snowflake permet donc aux entreprises de suivre leurs modèles d’IA de près et de s’assurer qu’ils fonctionnent correctement, avec un suivi des performances et des alertes en cas de problème.
Databricks et l’IA Générative : Toujours un Pas d’Avance
Dans le domaine de l’IA générative, Snowflake a encore du chemin à parcourir pour atteindre Databricks, qui semble jouer dans une autre ligue. Mais c’est en partie parce que l’IA générative n’est pas aussi complexe à maîtriser que le machine learning traditionnel. « La GenAI demande des niveaux de compétences largement inférieurs », affirme Benoit Dageville, co-fondateur de Snowflake. En d’autres termes, être un expert en Python peut suffire pour se lancer dans la création d’assistants intelligents qui se connectent à des bases de connaissances (retrieval augmented generation, ou RAG pour les intimes).
Et c’est là que Databricks déploie toute sa magie avec Mosaic AI Training, une solution qui réduit de façon significative les coûts d’entraînement des LLM (large language models). Imaginez que vous puissiez entraîner un mastodonte d’IA en ne dépensant qu’un dixième du coût habituel. Ça donne envie, n’est-ce pas ? C’est cette maîtrise des coûts et de l’efficacité qui permet à Databricks de rester en tête. Leur technologie n’est pas seulement puissante, elle est aussi optimisée pour réduire les ressources nécessaires, ce qui est essentiel dans un contexte où les coûts d’entraînement peuvent devenir exponentiels.
Databricks met aussi à disposition une infrastructure taillée pour l’entraînement à grande échelle. En effet, l’entraînement des LLM demande une capacité de calcul colossale et une infrastructure à la pointe pour réduire les délais et optimiser les résultats. C’est pourquoi la solution Mosaic AI est si attrayante : elle combine des stratégies de parallélisation et des techniques avancées pour optimiser l’usage des ressources.
Snow Park Container Services : Les Containers à Tout Faire de Snowflake
Pour rattraper son retard, Snowflake a mis les bouchées doubles avec ses Snow Park Container Services. Ce sont des containers Kubernetes qui peuvent embarquer toutes sortes d’applications, y compris des LLM ou des modèles de machine learning plus classiques. Un peu comme une boîte magique qui contient tout ce dont vous avez besoin pour transformer vos données en or.
Ces containers permettent aux développeurs de travailler avec des écosystèmes familiers tout en évitant la complexité de la gestion de l’infrastructure sous-jacente. C’est un atout important pour Snowflake, car cela permet aux entreprises de se concentrer sur le développement d’applications sans avoir à se préoccuper des détails techniques. En outre, ces containers peuvent s’exécuter sur n’importe quelle machine, y compris celles équipées de processeurs graphiques (GPU), idéaux pour les tâches lourdes d’IA.
Bref, Snowflake s’est mis au niveau avec une infrastructure polyvalente qui offre de la flexibilité à ses utilisateurs. Les Snow Park Container Services permettent une personnalisation poussée des écosystèmes, allant de l’analyse des données à l’exécution de modèles IA en passant par des cas d’usage plus spécifiques. Cette flexibilité est cruciale pour s’adapter à des besoins toujours plus variés.
Cortex AI : L’Atout IA de Snowflake
Et que dire de Cortex AI, la nouvelle suite d’IA de Snowflake ? C’est un peu leur « arme secrète » pour se positionner sur l’IA générative. Cortex AI inclut des LLM comme ceux de Meta (Llama) et Mistral, ainsi que des services pour traduire, synthétiser des contenus, ou même convertir des bandes audio en texte. Pour chaque cas d’usage, l’utilisateur peut choisir le modèle qui convient le mieux. Pourquoi pas un Llama ? C’est mignon, en plus.
Cortex AI se distingue aussi par son intégration harmonieuse avec d’autres outils de Snowflake, offrant une expérience fluide de bout en bout. Cela signifie que les utilisateurs peuvent passer sans effort de la collecte de données à l’entraînement de modèles IA et à leur déploiement. Mais Cortex AI ne s’arrête pas là. Snowflake a mis au point une méthode de fine tuning de modèles de taille moyenne. Imaginons que vous voulez classer les appels d’un centre d’appel en fonction des problèmes abordés. Si vous utilisez un LLM de type Mistral 7-B, c’est simple mais coûteux. Un modèle plus petit comme Llama ferait plus d’erreurs, mais Snowflake propose de le « fine tuner » en le nourrissant avec les réponses d’un modèle plus avancé. En résumé : une stratégie hybride pour de bonnes performances à moindre coût.
Cette approche hybride est idéale pour les entreprises cherchant un équilibre entre performance et coûts. Elle permet de déployer des modèles spécialisés, tout en s’appuyant sur des modèles plus généraux pour les ajustements précis. Cela offre une grande flexibilité et une adaptabilité aux besoins changeants du marché, surtout quand il s’agit de traiter des problèmes complexes avec des données variées.
Arctic, Le LLM de Snowflake : Petit mais Costaud
Snowflake a même développé son propre LLM, baptisé Arctic. Le modèle est open source, léger, et, surtout, peu gourmand en ressources. Ce LLM a été déclîné en deux versions : Arctic LLM d’un côté, et un modèle d’embedding associé de l’autre. Ce dernier est utilisé par Cortex Search, la brique qui permet d’effectuer des recherches rapides et efficaces à la manière d’un Bing sous amphètes (ou presque).
Le but d’Arctic est de répondre aux besoins courants des entreprises sans sacrifier la performance. Snowflake veut proposer un modèle à la fois accessible et performant, capable d’exécuter des tâches IA courantes sans nécessiter une capacité de calcul énorme. Arctic est donc idéal pour les entreprises qui veulent intégrer de l’IA sans exploser leur budget infrastructure.
Cortex Search et le Rag : Un Duo Gagnant
Avec Cortex Search, Snowflake permet de combiner une recherche sémantique (basée sur des mots-clés) avec une recherche à base de SQL sur des données structurées. Chaque question posée est découpée en morceaux (ou « chunking ») pour une efficacité optimale. En bref, Snowflake veut que vos assistants génératifs ne se contentent pas de répondre de façon générale, mais soient capables de pointer directement les sources de manière précise.
Et si vous avez de nouveaux documents qui arrivent en flux continu, pas de problème. Des pipelines peuvent être créés pour trier, chunker et référencer automatiquement ces nouveaux contenus dans l’index de Cortex Search. Cela permet un maintien continu de la pertinence des résultats, un atout crucial dans des environnements où les informations évoluent rapidement.
Cortex Search repose sur une technologie issue du rachat de Neeva, connue pour ses temps de réponse ultra-rapides et sa capacité à gérer des recherches complexes en utilisant des prédiquats. Cette brique technologique permet de mettre en place des recherches sophistiquées et ciblées qui combinent des données sémantiques et des données structurées, offrant ainsi une profondeur de recherche incomparable.
Streamlit : Créer des Applications d’IA Générative en Toute Simplicité
Pour mettre la cerise sur le gâteau, Snowflake propose Streamlit, un outil pour créer des applications d’IA générative, telles que des chatbots intelligents. Acquis en 2022, Streamlit est parfait pour les data scientists et les ingénieurs AI/ML, avec ses composants préparamétrés et son intégration directe à Cortex Search. Créer un assistant intelligent avec Streamlit, c’est comme jouer aux Légo avec des briques d’IA : c’est intuitif et fun.
Streamlit permet également une création rapide de prototypes d’applications d’IA, ce qui est idéal pour les équipes souhaitant tester des concepts avant de les déployer à grande échelle. L’idée est de réduire les barrières à l’innovation et de permettre aux équipes d’explorer de nouvelles idées sans avoir à se soucier des défis liés à l’infrastructure. La simplicité d’utilisation de Streamlit, combinée à la puissance de Cortex AI et de Cortex Search, fait de Snowflake une plateforme complète pour la création et le déploiement d’applications IA.
Conclusion : Une Bataille à Suivre de Près
Snowflake n’a peut-être pas commencé aussi tôt que Databricks, mais il a mis les bouchées doubles et a réussi à se hisser dans la course, notamment avec Cortex AI, Arctic LLM, et des services serverless qui offrent de l’interopérabilité. Databricks garde son avantage sur l’entraînement des LLM avec Mosaic AI Training, mais Snowflake est loin d’être largué. L’avenir de cette compétition reste incertain, mais une chose est sûre : que vous soyez Team Snowflake ou Team Databricks, il y aura des étincelles !
Ce duel est aussi un indicateur des tendances à venir dans le monde de la data. Les entreprises ont besoin d’infrastructures flexibles, capables de traiter des données à grande échelle tout en restant accessibles et optimisées. Que l’on parle de machine learning, d’IA générative ou d’application de ces technologies dans la vie de tous les jours, les solutions de Snowflake et Databricks sont prédestinées à jouer un rôle majeur. Ce qui est sûr, c’est que les entreprises qui choisiront l’une ou l’autre de ces plateformes auront accès à des technologies de pointe pour exploiter tout le potentiel de leurs données.