Les Pouvoirs Inattendus du Modèle Audiobox de Meta
Le monde de l’intelligence artificielle (IA) générative évolue constamment, et en 2023, les chercheurs d’intelligence artificielle de Meta (anciennement Facebook) ont franchi une étape majeure en présentant le modèle Audiobox dédié à la génération audio. Audiobox ne se contente pas d’être un simple modèle de génération audio, il offre un éventail de fonctionnalités avancées telles que le clonage de voix, la synthèse vocale, et la suppression de bruit, ouvrant de nouvelles possibilités dans la création et la modification de fichiers audio.
Les Différents Aspects d’Audiobox
Audiobox, développé par FAIR (Fundamental AI Research), est en réalité une combinaison de plusieurs modèles spécialisés, chacun ayant ses propres capacités :
1. Audiobox SSL : L’Entraînement de Base
Audiobox SSL, le modèle de base, a été pré-entraîné sur plus de 160 000 heures de discours, 20 000 heures de musique, et 6 000 heures d’échantillons sonores, principalement en anglais, sans supervision. Les chercheurs ont ensuite affiné ce modèle en utilisant 100 000 heures de discours transcrites couvrant divers domaines, donnant naissance au modèle Audiobox Speech.
2. Audiobox Sound : La Génération de Sons
Audiobox Sound, quant à lui, est spécialisé dans la génération de bruits. Il a été fine-tuné sur environ 6 000 heures de données audio avec légendes ou étiquettes pour la génération de sons guidée par texte (prompt).
3. Audiobox Speech et Sound : Génération Conjointe
La version unifiée de Speech et Sound permet une génération conjointe de parole et de sons, élargissant encore davantage les capacités d’Audiobox.
L’Évolution du Modèle Audiobox
Le processus de développement d’Audiobox s’est déroulé en quatre étapes cruciales. Tout d’abord, Audiobox SSL a été pré-entraîné. Ensuite, Audiobox Speech a été créé en affinant le modèle SSL avec des transcriptions de discours. Par la suite, Audiobox SSL a été à nouveau fine-tuné pour la génération de sons guidée par texte. Enfin, les deux modèles fine-tunés ont été fusionnés pour créer Audiobox, qui a ensuite été entraîné sur un dataset composé de couples parole/texte ainsi que d’exemples audio supplémentaires.
La Disponibilité d’Audiobox
En janvier 2024, Audiobox est mis à la disposition d’une petite communauté de chercheurs et d’institutions sélectionnés par Meta, sous licence réservée à la recherche. Les chercheurs intéressés peuvent faire une demande pour participer aux tests. De plus, Meta a annoncé une subvention visant à promouvoir la recherche en intelligence artificielle responsable et en génération audio. Les chercheurs sélectionnés peuvent bénéficier d’un financement pouvant atteindre 50 000 dollars pour soutenir leurs travaux dans le domaine.
Les Capacités Techniques d’Audiobox
Audiobox présente une gamme impressionnante de capacités techniques, notamment :
- Text-to-Speech : La conversion de texte en discours.
- Text-to-Sound : La génération de sons à partir de texte.
- Édition d’Audio Guidée par Prompt : L’édition d’audio basée sur des instructions textuelles.
- Transfert de Style Vocal : La modification du style vocal en utilisant des exemples audio et des descriptions textuelles.
- Génération Non-Contrainte de Parole : La synthèse vocale sans contraintes.
La Démonstration Publique de Meta
Meta propose un espace de démonstration public pour tester les capacités d’Audiobox depuis ses serveurs. Voici un aperçu des fonctionnalités disponibles :
1. « Your Voice » : Créez Votre Propre Voix Virtuelle
Cette fonctionnalité permet de créer une copie virtuelle de votre voix en enregistrant une brève phrase en anglais. Une fois l’enregistrement traité, vous pouvez fournir un texte à lire, et l’IA produira une version audio du texte dans votre voix, avec une fidélité surprenante à l’original.
2. « Described Voices » : La Synthèse Vocale Personnalisée
« Described Voices » offre la possibilité de lire un texte avec un style vocal spécifique. Vous pouvez définir le style vocal attendu en fournissant une description textuelle. Par exemple, demandez à l’outil de lire une phrase avec la voix d’un homme à l’accent français, et il s’exécutera avec une grande précision.
3. « Restyled Voices » : Modifiez Votre Style Vocal
Cette fonction permet de modifier votre style vocal, en changeant l’accent ou l’ambiance sonore de l’enregistrement, simplement en utilisant un prompt textuel.
4. Génération de Bruitages
Audiobox peut également générer une variété de bruitages de haute qualité en réponse à un simple prompt textuel. Des sonnettes aux cascades d’eau en passant par les coups de feu, les possibilités sont vastes.
5. Suppression de Bruits Parasites
Audiobox peut nettoyer un enregistrement vocal en supprimant les bruits parasites préalablement identifiés par le modèle. Il suffit d’enregistrer le fichier vocal et de sélectionner les bruits à supprimer.
6. « Sound Infilling » : Remplacement de Sons
Ce module permet de remplacer une section de fichier audio par un nouveau son, toujours en utilisant une description textuelle.
Perspectives d’Avenir pour Audiobox
Les démonstrations initiales montrent qu’Audiobox est très prometteur et ouvre la voie à des avancées significatives dans le domaine de la génération audio. Bien qu’il soit actuellement réservé à la recherche, ce modèle pourrait avoir un impact majeur dans divers domaines, tels que le marketing, la synthèse vocale personnalisée, la post-production audio, et même la sonorisation en temps réel.
Audiobox représente une étape majeure dans le développement de l’IA générative et offre des opportunités passionnantes pour l’avenir de la création audio.