Pouvez-vous utiliser l'IA pour créer un nouvel enregistrement de votre artiste préféré ?
Les avancées récentes dans le domaine de l'apprentissage automatique ont montré que les modèles sont désormais capables de comprendre des données complexes telles que du texte et des images. Le Jukebox d'OpenAI prouve que même la musique peut être modélisée avec précision par un réseau de neurones.
La musique est un objet complexe à modéliser. Vous devez prendre en considération à la fois des caractéristiques simples telles que le tempo, le volume et la hauteur et des caractéristiques plus complexes telles que les paroles, les instruments et la structure musicale.
Utilisation avancée machine learning techniques, OpenAI a trouvé un moyen de convertir l'audio brut en une représentation que d'autres modèles peuvent utiliser.
Cet article explique ce que Jukebox peut faire, comment il fonctionne et les limites actuelles de la technologie.
Qu'est-ce que Jukebox AI ?
juke-box est un modèle de réseau neuronal d'OpenAI qui peut générer de la musique en chantant. Le modèle peut produire de la musique dans une variété de genres et de styles d'artistes.
Par exemple, Jukebox peut produire une chanson rock dans le style d'Elvis Presley ou une chanson hip hop dans le style de Kanye West. Vous pouvez visiter ce site de NDN Collective pour explorer l'efficacité du modèle à capturer le son de vos artistes et genres musicaux préférés.
Le modèle nécessite un genre, un artiste et des paroles en entrée. Cette entrée guide un modèle formé sur des millions d'artistes et de données lyriques.
Comment fonctionne Jukebox ?
Voyons comment Jukebox parvient à générer un nouveau son brut à partir d'un modèle formé sur des millions de chansons.
Processus d'encodage
Alors que certains modèles de génération de musique utilisent des données de formation MIDI, Jukebox est formé sur le fichier audio brut réel. Pour compresser l'audio dans un espace discret, Jukebox utilise une approche d'encodeur automatique connue sous le nom de VQ-VAE.
VQ-VAE signifie Vector Quantized Variational Autoencoder, ce qui peut sembler un peu compliqué, alors décomposons-le.
Essayons d'abord de comprendre ce que nous voulons faire ici. Comparé aux paroles ou aux partitions, un fichier audio brut est beaucoup plus complexe. Si nous voulons que notre modèle "apprenne" des chansons, nous devrons le transformer en une représentation plus compressée et simplifiée. Dans machine learning, nous appelons cette représentation sous-jacente une espace latent.
An encodeur automatique est une technique d'apprentissage non supervisée qui utilise un Réseau neuronal pour trouver des représentations latentes non linéaires pour une distribution de données donnée. L'auto-encodeur se compose de deux parties : un encodeur et un décodeur.
Les codeur essaie de trouver l'espace latent à partir d'un ensemble de données brutes alors que le décodeur utilise la représentation latente pour essayer de la reconstruire dans son format d'origine. L'auto-encodeur apprend essentiellement à compresser les données brutes de manière à minimiser les erreurs de reconstruction.
Maintenant que nous savons ce que fait un auto-encodeur, essayons de comprendre ce que nous entendons par un auto-encodeur « variationnel ». Par rapport aux encodeurs automatiques typiques, les encodeurs automatiques variationnels ajoutent un avant à l'espace latent.
Sans plonger dans les mathématiques, l'ajout d'un prior probabiliste maintient la distribution latente étroitement compactée. La principale différence entre un VAE et un VQ-VAE est que ce dernier utilise une représentation latente discrète plutôt qu'une représentation continue.
Chaque niveau VQ-VAE encode indépendamment l'entrée. Le codage de niveau inférieur produit la reconstruction de la plus haute qualité. L'encodage de niveau supérieur conserve les informations musicales essentielles.
Utilisation de transformateurs
Maintenant que nous avons les codes musicaux encodés par VQ-VAE, nous pouvons essayer de générer de la musique dans cet espace discret compressé.
Juke-box utilise transformateurs autorégressifs pour créer la sortie audio. Les transformateurs sont un type de réseau neuronal qui fonctionne mieux avec des données séquencées. Étant donné une séquence de jetons, un modèle de transformateur essaiera de prédire le prochain jeton.
Jukebox utilise une variante simplifiée de Sparse Transformers. Une fois que tous les modèles précédents sont formés, le transformateur génère des codes compressés qui sont ensuite décodés en audio brut à l'aide du décodeur VQ-VAE.
Conditionnement d'artiste et de genre dans Jukebox
Le modèle génératif de Jukebox est rendu plus contrôlable en fournissant des signaux conditionnels supplémentaires pendant l'étape d'apprentissage.
Les premiers modèles sont fournis par les artistes et les labels de genre pour chaque chanson. Cela réduit l'entropie de la prédiction audio et permet au modèle d'atteindre une meilleure qualité. Les étiquettes nous permettent également d'orienter le modèle dans un style particulier.
Outre l'artiste et le genre, des signaux de synchronisation sont ajoutés pendant le temps d'entraînement. Ces signaux incluent la longueur du morceau, l'heure de début d'un échantillon particulier et la fraction du morceau qui s'est écoulée. Ces informations supplémentaires aident le modèle à comprendre les modèles audio qui reposent sur la structure globale.
Par exemple, le modèle peut apprendre que les applaudissements pour la musique live se produisent à la fin d'une chanson. Le modèle peut également apprendre, par exemple, que certains genres ont des sections instrumentales plus longues que d'autres.
paroles
Les modèles conditionnés mentionnés dans la section précédente sont capables de générer une variété de voix chantées. Cependant, ces voix ont tendance à être incohérentes et méconnaissables.
Pour contrôler le modèle génératif en matière de génération de paroles, les chercheurs fournissent plus de contexte au moment de la formation. Pour aider à mapper les données des paroles sur le timing de l'audio réel, les chercheurs ont utilisé Spléter pour extraire les voix et NUS AutoLyricsAlign pour obtenir des alignements au niveau des mots des paroles.
Limites du modèle Jukebox
L'une des principales limites de Jukebox est sa compréhension des structures musicales plus larges. Par exemple, un court clip de 20 secondes de la sortie peut sembler impressionnant, mais les auditeurs remarqueront que la structure musicale typique des refrains et couplets répétés est absente de la sortie finale.
Le modèle est également lent à rendre. Il faut environ 9 heures pour restituer entièrement une minute d'audio. Cela limite le nombre de chansons pouvant être générées et empêche l'utilisation du modèle dans des applications interactives.
Enfin, les chercheurs ont noté que l'échantillon de données est principalement en anglais et affiche principalement les conventions musicales occidentales. Les chercheurs en IA peuvent concentrer leurs recherches futures sur la génération de musique dans d'autres langues et styles de musique non occidentaux.
Conclusion
Le projet Jukebox met en évidence la capacité croissante des modèles d'apprentissage automatique à créer des représentations latentes précises de données complexes telles que l'audio brut. Des percées similaires se produisent dans le texte, comme on le voit dans des projets comme GPT-3, et des images, comme on le voit dans OpenAI DALL-E2.
Bien que la recherche dans ce domaine ait été impressionnante, des inquiétudes subsistent concernant les droits de propriété intellectuelle et l'impact que ces modèles peuvent avoir sur les industries créatives dans leur ensemble. Les chercheurs et les créatifs doivent continuer à collaborer étroitement pour s'assurer que ces modèles peuvent continuer à s'améliorer.
Les futurs modèles de musique générative pourraient bientôt servir d'outil pour les musiciens ou d'application pour les créatifs qui ont besoin d'une musique personnalisée pour leurs projets.
Soyez sympa! Laissez un commentaire