Google a annoncé MusicLM, une intelligence artificielle qui crée de la musique à partir des mots que vous tapez, comme DALL-E 2. Il s'agit d'un modèle de langage créé par Google Research. De plus, ils l'ont exclusivement conçu pour la création musicale.
Et, il a été formé sur un vaste ensemble de données de fichiers musicaux et peut produire de la musique dans une gamme de styles et de formes. Si vous êtes intéressé par la musique; alors vous devriez vérifier ce que MusicLM offrira.
Avec MusicLM, vous produisez de la musique dans certaines techniques et formes. Par exemple, vous pouvez créer des morceaux de piano, des rythmes de batterie et des mélodies pour les paroles.
En outre, vous pouvez affiner certains styles ou inclure des entrées fournies par l'utilisateur. Il est destiné à produire une musique cohérente harmoniquement et rythmiquement. Alors, plongeons et voyons ce qu'est MusicLM.
Tentatives précédentes
MusicLM n'est pas le premier système de musique généré par l'IA. Riffusion, Dance Diffusion, AudioML de Google et OpenAI juke-box sont des exemples d'approches comparables. Cependant, ces systèmes antérieurs ont été limités par des restrictions technologiques.
De plus, leur manque de données d'entraînement rendait difficile la composition de morceaux de haute qualité. Cependant, MusicLM a la capacité de créer de la musique avec un plus grand niveau de sophistication et de réalisme.
Présentation MusicLM
MusicLM apprend la structure et le style de la musique. Par conséquent, il est formé sur un vaste ensemble de données de fichiers de musique MIDI et symboliques. Comme ses programmes similaires, MusicLM est construit sur l'architecture Transformer.
Utilisant des techniques d'auto-attention pour se concentrer sur des composants d'entrée particuliers, l'architecture de transformateur de MusicLM est utilisée pour extraire la structure et le style de la musique à partir d'un grand ensemble de données. En conséquence, vous pouvez créer une musique cohérente harmoniquement et rythmiquement.
Et, cette musique peut imiter l'organisation de l'entrée de l'utilisateur. Par conséquent, vous pourrez obtenir le résultat musical que vous décrivez spécifiquement au programme.
Le succès des précédents modèles de langage, comme GPT-2 et GPT-3, qui ont prouvé leur capacité à créer une écriture cohérente et fluide, ont inspiré MusicLM. MusicLM, en revanche, est le premier modèle de langage exclusivement conçu pour la génération musicale.
Et, nous pensons qu'il sera considéré comme l'un des modèles les plus sophistiqués.
Comment ça marche?
DALL-E 2 et MusicLM de Google intelligence artificielle partagent de nombreuses similitudes structurelles. Cette fois, cependant, votre écriture est véhiculée musicalement plutôt que visuellement. À ce stade, vous pouvez soit construire complètement une pièce entière. De plus, vous pouvez générer du rythme à l'aide d'un seul instrument.
Vous pouvez consulter plusieurs exemples d'études créées par l'équipe Google AI sur la page Github de MusicLM. Même si l'IA en est encore au stade de la recherche et du développement, les sons qu'elle peut émettre sont de haute résolution. En outre, il y a eu des suggestions, telles que l'intégration de cette IA avec ChatGPT. Cette intégration pourrait conduire à une musique plus complexe et créative.
Du fredonnement aux mélodies à succès
MusicLM combine quatre modèles d'IA distincts : MuLan, AudioLM, w2v-BERT et Soundstream. Bien que chacun de ces modèles possède un ensemble de capacités distinctes. Cependant, lorsqu'ils ont été intégrés, ils ont abouti à MusicLM!
Les musiciens et les professionnels de l'industrie ont remarqué la capacité de MusicLM à transformer même les bourdonnements et les murmures les plus élémentaires en morceaux entiers. En se combinant avec ChatGPT, il peut produire une musique unique.
Vous pouvez écouter et explorer la musique et les sons créés par MusicLM sur son site de NDN Collective. Mais gardez à l'esprit qu'il est actuellement en phase de test. Il est évident que MusicLM a la capacité de transformer complètement le secteur de la musique à mesure que la technologie se développe.
Musique générée par l'IA avec des nuances humaines
Pour produire des chansons qui ont du sens sur la base de descriptions approfondies, MusicLM a été formé sur un vaste ensemble de données de 280,000 XNUMX heures de musique. Par exemple, vous pouvez créer "un morceau de dubstep mélodique avec une basse profonde et des rythmes de batterie sophistiqués". Ou, vous pouvez lui demander de créer "une chanson pop séduisante avec un riff de guitare captivant et un chanteur puissant". Votre imagination est la limite dans ce cas.
Les chansons produites ressemblent à celles composées par des musiciens humains. Les échantillons de MusicLM sont extrêmement étonnants. C'est vrai d'autant plus qu'il n'y a pas d'humain impliqué dans le processus de composition. MusicLM peut répéter des aspects nuancés tels que des riffs musicaux, des mélodies et des émotions. De plus, cela fonctionne même avec des spécifications compliquées et explicites.
Caractéristiques importantes
Peinture Légende Conditionnement
Painting Caption Conditioning est une fonction de MusicLM. Vous pouvez produire une musique basée sur une description textuelle ou une « légende » d'un tableau. Cela implique que MusicLM est capable de créer une musique qui capture les émotions, les humeurs et les idées exprimées dans une image. Cette capacité est très utile pour créer de la musique pour des films, jeux vidéo, et toutes sortes de médias visuels.
Mode Histoire
La fonction Story Mode prend un texte d'histoire en entrée. Par conséquent, il crée une musique de fond d'accompagnement. Les utilisateurs peuvent utiliser cette fonction pour créer une bande sonore pour un conte, un jeu vidéo ou un film en décrivant le scénario ou le ton émotionnel.
Le mode histoire est un outil pratique pour les artistes médiatiques. Ainsi, il peut générer un large éventail de styles musicaux et d'instruments. Le mode Tale de MusicLM permet d'augmenter l'impact émotionnel d'une scène. Ainsi, les téléspectateurs peuvent avoir un degré supplémentaire d'immersion dans l'histoire.
Niveau d'expérience du musicien
Vous pouvez personnaliser la difficulté de la musique créée. Les utilisateurs peuvent choisir entre trois niveaux en fonction de leur niveau de compétence. En outre, ils peuvent spécifier le degré de complexité préféré : débutant, intermédiaire ou avancé.
Cette fonctionnalité vous aide si vous avez une petite expertise musicale et que vous souhaitez expérimenter de nouvelles compositions. Cependant, si vous êtes un musicien expérimenté, vous pouvez créer une musique sophistiquée et subtile. L'objectif de MusicLM avec cette fonctionnalité est de fournir une expérience accessible à tous les utilisateurs.
Diversité des générations
Avec la fonction Generation Diversity, vous pouvez produire plusieurs versions d'une chanson à partir de la même entrée. Et, vous pouvez avoir une gamme variée de sorties. Cela implique que l'IA peut générer plusieurs versions d'une chanson.
En outre, il existe des mélodies ou des progressions d'accords alternatives, tout en conservant le style et la structure de base de la chanson. Cette fonctionnalité aide la création musicale de l'IA à être plus créative. Par conséquent, cela rend la création musicale plus analogue à l'écriture de chansons humaines.
Limitations possibles de MusicLM
Google n'a pas encore mis MusicLM à la disposition du grand public car il est encore en développement. Par conséquent, vous ne pouvez pas encore donner d'échantillons particuliers des types de musique que MusicLM peut produire. De plus, on ignore encore un peu quelles restrictions MusicLM pourrait avoir.
Comme la technologie en est encore à ses débuts, elle pourrait avoir certaines restrictions sur le calibre de la musique produite ou sa capacité à gérer des entrées particulières.
La qualité déformée des échantillons produits est l'un des principaux inconvénients. Il s'agit d'un sous-produit nécessaire de la procédure de formation utilisée pour développer MusicLM.
Un autre inconvénient est que, malgré la capacité technique de MusicLM à fabriquer des voix. Cela inclut les chants de chœur. Les « paroles » produites par MusicLM ressemblent parfois à du charabia. De plus, ils peuvent être difficiles à comprendre. Cependant, MusicLM est encore en développement et ces problèmes peuvent être améliorés.
Remarques finales
Enfin, nous pensons que la technologie sous-jacente à Google MusicLM est à la fois intéressante et fascinante. Il est étonnant qu'une IA puisse faire de la musique dans une variété de styles, avec un niveau de réalisme supérieur. MusicLM a le potentiel de changer l'industrie de la musique. Et nous sommes ravis de voir comment cette technologie évolue.
Soyez sympa! Laissez un commentaire