Audiobox : La Révolution de la Génération Audio par Meta

26 janvier 2024 Science et Techologie

Les Pouvoirs Inattendus du Modèle Audiobox de Meta

Le monde de l’intelligence artificielle (IA) générative évolue constamment, et en 2023, les chercheurs d’intelligence artificielle de Meta (anciennement Facebook) ont franchi une étape majeure en présentant le modèle Audiobox dédié à la génération audio. Audiobox ne se contente pas d’être un simple modèle de génération audio, il offre un éventail de fonctionnalités avancées telles que le clonage de voix, la synthèse vocale, et la suppression de bruit, ouvrant de nouvelles possibilités dans la création et la modification de fichiers audio.

Les Différents Aspects d’Audiobox

Audiobox, développé par FAIR (Fundamental AI Research), est en réalité une combinaison de plusieurs modèles spécialisés, chacun ayant ses propres capacités :

1. Audiobox SSL : L’Entraînement de Base

Audiobox SSL, le modèle de base, a été pré-entraîné sur plus de 160 000 heures de discours, 20 000 heures de musique, et 6 000 heures d’échantillons sonores, principalement en anglais, sans supervision. Les chercheurs ont ensuite affiné ce modèle en utilisant 100 000 heures de discours transcrites couvrant divers domaines, donnant naissance au modèle Audiobox Speech.

2. Audiobox Sound : La Génération de Sons

Audiobox Sound, quant à lui, est spécialisé dans la génération de bruits. Il a été fine-tuné sur environ 6 000 heures de données audio avec légendes ou étiquettes pour la génération de sons guidée par texte (prompt).

3. Audiobox Speech et Sound : Génération Conjointe

La version unifiée de Speech et Sound permet une génération conjointe de parole et de sons, élargissant encore davantage les capacités d’Audiobox.

L’Évolution du Modèle Audiobox

Le processus de développement d’Audiobox s’est déroulé en quatre étapes cruciales. Tout d’abord, Audiobox SSL a été pré-entraîné. Ensuite, Audiobox Speech a été créé en affinant le modèle SSL avec des transcriptions de discours. Par la suite, Audiobox SSL a été à nouveau fine-tuné pour la génération de sons guidée par texte. Enfin, les deux modèles fine-tunés ont été fusionnés pour créer Audiobox, qui a ensuite été entraîné sur un dataset composé de couples parole/texte ainsi que d’exemples audio supplémentaires.

La Disponibilité d’Audiobox

En janvier 2024, Audiobox est mis à la disposition d’une petite communauté de chercheurs et d’institutions sélectionnés par Meta, sous licence réservée à la recherche. Les chercheurs intéressés peuvent faire une demande pour participer aux tests. De plus, Meta a annoncé une subvention visant à promouvoir la recherche en intelligence artificielle responsable et en génération audio. Les chercheurs sélectionnés peuvent bénéficier d’un financement pouvant atteindre 50 000 dollars pour soutenir leurs travaux dans le domaine.

Les Capacités Techniques d’Audiobox

Audiobox présente une gamme impressionnante de capacités techniques, notamment :

Text-to-Speech : La conversion de texte en discours.
Text-to-Sound : La génération de sons à partir de texte.
Édition d’Audio Guidée par Prompt : L’édition d’audio basée sur des instructions textuelles.
Transfert de Style Vocal : La modification du style vocal en utilisant des exemples audio et des descriptions textuelles.
Génération Non-Contrainte de Parole : La synthèse vocale sans contraintes.

La Démonstration Publique de Meta

Meta propose un espace de démonstration public pour tester les capacités d’Audiobox depuis ses serveurs. Voici un aperçu des fonctionnalités disponibles :

1. “Your Voice” : Créez Votre Propre Voix Virtuelle

Cette fonctionnalité permet de créer une copie virtuelle de votre voix en enregistrant une brève phrase en anglais. Une fois l’enregistrement traité, vous pouvez fournir un texte à lire, et l’IA produira une version audio du texte dans votre voix, avec une fidélité surprenante à l’original.

2. “Described Voices” : La Synthèse Vocale Personnalisée

“Described Voices” offre la possibilité de lire un texte avec un style vocal spécifique. Vous pouvez définir le style vocal attendu en fournissant une description textuelle. Par exemple, demandez à l’outil de lire une phrase avec la voix d’un homme à l’accent français, et il s’exécutera avec une grande précision.

3. “Restyled Voices” : Modifiez Votre Style Vocal

Cette fonction permet de modifier votre style vocal, en changeant l’accent ou l’ambiance sonore de l’enregistrement, simplement en utilisant un prompt textuel.

4. Génération de Bruitages

Audiobox peut également générer une variété de bruitages de haute qualité en réponse à un simple prompt textuel. Des sonnettes aux cascades d’eau en passant par les coups de feu, les possibilités sont vastes.

5. Suppression de Bruits Parasites

Audiobox peut nettoyer un enregistrement vocal en supprimant les bruits parasites préalablement identifiés par le modèle. Il suffit d’enregistrer le fichier vocal et de sélectionner les bruits à supprimer.

6. “Sound Infilling” : Remplacement de Sons

Ce module permet de remplacer une section de fichier audio par un nouveau son, toujours en utilisant une description textuelle.

Perspectives d’Avenir pour Audiobox

Les démonstrations initiales montrent qu’Audiobox est très prometteur et ouvre la voie à des avancées significatives dans le domaine de la génération audio. Bien qu’il soit actuellement réservé à la recherche, ce modèle pourrait avoir un impact majeur dans divers domaines, tels que le marketing, la synthèse vocale personnalisée, la post-production audio, et même la sonorisation en temps réel.

Audiobox représente une étape majeure dans le développement de l’IA générative et offre des opportunités passionnantes pour l’avenir de la création audio.

Pourton.info

Audiobox : La Révolution de la Génération Audio par Meta

Les Pouvoirs Inattendus du Modèle Audiobox de Meta

Les Différents Aspects d’Audiobox

1. Audiobox SSL : L’Entraînement de Base

2. Audiobox Sound : La Génération de Sons

3. Audiobox Speech et Sound : Génération Conjointe

L’Évolution du Modèle Audiobox

La Disponibilité d’Audiobox

Les Capacités Techniques d’Audiobox

La Démonstration Publique de Meta

1. “Your Voice” : Créez Votre Propre Voix Virtuelle

2. “Described Voices” : La Synthèse Vocale Personnalisée

3. “Restyled Voices” : Modifiez Votre Style Vocal

4. Génération de Bruitages

5. Suppression de Bruits Parasites

6. “Sound Infilling” : Remplacement de Sons

Perspectives d’Avenir pour Audiobox

Articles connexes

Check Also

La beauté et l’utilité de la poussière interstellaire

Laisser un commentaire Annuler la réponse

Les Chasseurs de Tornades : Au Cœur des Tempêtes Dévastatrices

Les Meilleurs Spots du Monde pour le Snorkeling : Découvrez les Trésors Sous-Marins

La Blockchain : Comment fonctionne cette révolution technologique

Le Roi des Ailes : Un Chef-d’œuvre Naturel Sous un Ciel Étoilé

La Lituanie Prépare des Plans d’Évacuation en Cas de Guerre

Les Chasseurs de Tornades : Au Cœur des Tempêtes Dévastatrices

Les Meilleurs Spots du Monde pour le Snorkeling : Découvrez les Trésors Sous-Marins

La Blockchain : Comment fonctionne cette révolution technologique

Le Roi des Ailes : Un Chef-d’œuvre Naturel Sous un Ciel Étoilé

La Lituanie Prépare des Plans d’Évacuation en Cas de Guerre

Gâteau à la Crème à l’Italienne

Hongrie et Prêts Chinois : Un Accord Controversé de 1 Milliard de Dollars

Attaques de Drones Russes : Le Cauchemar Énergétique de l’Ukraine

du HTC Vive XR Elite : Un casque VR polyvalent pour une expérience immersive

Test des AirPods Pro (2ᵉ génération) : le meilleur d’Apple avec quelques réserves

Test du Pico 4 : Un casque VR prometteur et abordable

Test du Kindle (modèle 2022)

Examen du Samsung Galaxy A34 5G : Un Milieu de Gamme qui Fait des Vagues