Audiobox : La Révolution de la Génération Audio par Meta

26 janvier 2024 Science et Techologie

Les Pouvoirs Inattendus du Modèle Audiobox de Meta

Le monde de l’intelligence artificielle (IA) générative évolue constamment, et en 2023, les chercheurs d’intelligence artificielle de Meta (anciennement Facebook) ont franchi une étape majeure en présentant le modèle Audiobox dédié à la génération audio. Audiobox ne se contente pas d’être un simple modèle de génération audio, il offre un éventail de fonctionnalités avancées telles que le clonage de voix, la synthèse vocale, et la suppression de bruit, ouvrant de nouvelles possibilités dans la création et la modification de fichiers audio.

Les Différents Aspects d’Audiobox

Audiobox, développé par FAIR (Fundamental AI Research), est en réalité une combinaison de plusieurs modèles spécialisés, chacun ayant ses propres capacités :

1. Audiobox SSL : L’Entraînement de Base

Audiobox SSL, le modèle de base, a été pré-entraîné sur plus de 160 000 heures de discours, 20 000 heures de musique, et 6 000 heures d’échantillons sonores, principalement en anglais, sans supervision. Les chercheurs ont ensuite affiné ce modèle en utilisant 100 000 heures de discours transcrites couvrant divers domaines, donnant naissance au modèle Audiobox Speech.

2. Audiobox Sound : La Génération de Sons

Audiobox Sound, quant à lui, est spécialisé dans la génération de bruits. Il a été fine-tuné sur environ 6 000 heures de données audio avec légendes ou étiquettes pour la génération de sons guidée par texte (prompt).

3. Audiobox Speech et Sound : Génération Conjointe

La version unifiée de Speech et Sound permet une génération conjointe de parole et de sons, élargissant encore davantage les capacités d’Audiobox.

L’Évolution du Modèle Audiobox

Le processus de développement d’Audiobox s’est déroulé en quatre étapes cruciales. Tout d’abord, Audiobox SSL a été pré-entraîné. Ensuite, Audiobox Speech a été créé en affinant le modèle SSL avec des transcriptions de discours. Par la suite, Audiobox SSL a été à nouveau fine-tuné pour la génération de sons guidée par texte. Enfin, les deux modèles fine-tunés ont été fusionnés pour créer Audiobox, qui a ensuite été entraîné sur un dataset composé de couples parole/texte ainsi que d’exemples audio supplémentaires.

La Disponibilité d’Audiobox

En janvier 2024, Audiobox est mis à la disposition d’une petite communauté de chercheurs et d’institutions sélectionnés par Meta, sous licence réservée à la recherche. Les chercheurs intéressés peuvent faire une demande pour participer aux tests. De plus, Meta a annoncé une subvention visant à promouvoir la recherche en intelligence artificielle responsable et en génération audio. Les chercheurs sélectionnés peuvent bénéficier d’un financement pouvant atteindre 50 000 dollars pour soutenir leurs travaux dans le domaine.

Les Capacités Techniques d’Audiobox

Audiobox présente une gamme impressionnante de capacités techniques, notamment :

Text-to-Speech : La conversion de texte en discours.
Text-to-Sound : La génération de sons à partir de texte.
Édition d’Audio Guidée par Prompt : L’édition d’audio basée sur des instructions textuelles.
Transfert de Style Vocal : La modification du style vocal en utilisant des exemples audio et des descriptions textuelles.
Génération Non-Contrainte de Parole : La synthèse vocale sans contraintes.

La Démonstration Publique de Meta

Meta propose un espace de démonstration public pour tester les capacités d’Audiobox depuis ses serveurs. Voici un aperçu des fonctionnalités disponibles :

1. « Your Voice » : Créez Votre Propre Voix Virtuelle

Cette fonctionnalité permet de créer une copie virtuelle de votre voix en enregistrant une brève phrase en anglais. Une fois l’enregistrement traité, vous pouvez fournir un texte à lire, et l’IA produira une version audio du texte dans votre voix, avec une fidélité surprenante à l’original.

2. « Described Voices » : La Synthèse Vocale Personnalisée

« Described Voices » offre la possibilité de lire un texte avec un style vocal spécifique. Vous pouvez définir le style vocal attendu en fournissant une description textuelle. Par exemple, demandez à l’outil de lire une phrase avec la voix d’un homme à l’accent français, et il s’exécutera avec une grande précision.

3. « Restyled Voices » : Modifiez Votre Style Vocal

Cette fonction permet de modifier votre style vocal, en changeant l’accent ou l’ambiance sonore de l’enregistrement, simplement en utilisant un prompt textuel.

4. Génération de Bruitages

Audiobox peut également générer une variété de bruitages de haute qualité en réponse à un simple prompt textuel. Des sonnettes aux cascades d’eau en passant par les coups de feu, les possibilités sont vastes.

5. Suppression de Bruits Parasites

Audiobox peut nettoyer un enregistrement vocal en supprimant les bruits parasites préalablement identifiés par le modèle. Il suffit d’enregistrer le fichier vocal et de sélectionner les bruits à supprimer.

6. « Sound Infilling » : Remplacement de Sons

Ce module permet de remplacer une section de fichier audio par un nouveau son, toujours en utilisant une description textuelle.

Perspectives d’Avenir pour Audiobox

Les démonstrations initiales montrent qu’Audiobox est très prometteur et ouvre la voie à des avancées significatives dans le domaine de la génération audio. Bien qu’il soit actuellement réservé à la recherche, ce modèle pourrait avoir un impact majeur dans divers domaines, tels que le marketing, la synthèse vocale personnalisée, la post-production audio, et même la sonorisation en temps réel.

Audiobox représente une étape majeure dans le développement de l’IA générative et offre des opportunités passionnantes pour l’avenir de la création audio.

Pourton.info

Audiobox : La Révolution de la Génération Audio par Meta

Les Pouvoirs Inattendus du Modèle Audiobox de Meta

Les Différents Aspects d’Audiobox

1. Audiobox SSL : L’Entraînement de Base

2. Audiobox Sound : La Génération de Sons

3. Audiobox Speech et Sound : Génération Conjointe

L’Évolution du Modèle Audiobox

La Disponibilité d’Audiobox

Les Capacités Techniques d’Audiobox

La Démonstration Publique de Meta

1. « Your Voice » : Créez Votre Propre Voix Virtuelle

2. « Described Voices » : La Synthèse Vocale Personnalisée

3. « Restyled Voices » : Modifiez Votre Style Vocal

4. Génération de Bruitages

5. Suppression de Bruits Parasites

6. « Sound Infilling » : Remplacement de Sons

Perspectives d’Avenir pour Audiobox

Articles connexes

Check Also

Accord scientifique entre les États-Unis et la Chine : Un mariage complexe entre science et diplomatie

Climat – L’Entropie du Doute : Pourquoi la Physique ne négocie pas avec le Scepticisme

L’Hydre de la vanité : Analyse critique (et complète) de la non-résolution de Syracuse par I. Aberkane

Match nul ? Non, match bidon : quand une vidéo défend Luc Julia en se ridiculisant

Pourquoi Trump est piégé par l’affaire Epstein

Actualité Économique – 29/06/2025

Climat – L’Entropie du Doute : Pourquoi la Physique ne négocie pas avec le Scepticisme

L’Hydre de la vanité : Analyse critique (et complète) de la non-résolution de Syracuse par I. Aberkane

Match nul ? Non, match bidon : quand une vidéo défend Luc Julia en se ridiculisant

Pourquoi Trump est piégé par l’affaire Epstein

Actualité Économique – 29/06/2025

Actualité Économique – 28/06/2025

Crise imminente ou simple ralentissement ? Analyse approfondie du recul du PIB américain au premier trimestre 2025

ERREUR Économie – 27/06/2025

Écouteurs JBL Tour Pro 2 : Une expérience sonore sans fil de qualité supérieure

Test u Logitech MX Keys S : Un clavier de bureau toujours à la hauteur

Honor 90 : Un concurrent sérieux dans le milieu de gamme

Test de la Xiaomi Pad 6 : La nouvelle tablette Android polyvalente

Test du moniteur LG UltraGear 27GR95QE : Un écran OLED 240 Hz qui défie les modèles LCD