Google oznámil MusicLM, umělou inteligenci, která vytváří hudbu ze slov, která napíšete, jako je DALL-E 2. Jde o jazykový model vytvořený výzkumem Google. Kromě toho jej navrhli výhradně pro hudební tvorbu.
A byl trénován na rozsáhlém datovém souboru hudebních souborů a může produkovat hudbu v řadě stylů a forem. Pokud se zajímáte o hudbu; pak byste měli zkontrolovat, co MusicLM nabídne.
S MusicLM produkujete hudbu v určitých technikách a formách. Můžete například vytvářet klavírní skladby, rytmy bicích a melodie pro texty.
Můžete také doladit určité styly nebo zahrnout vstup od uživatele. Má produkovat hudbu, která je harmonicky a rytmicky soudržná. Pojďme se tedy ponořit a podívat se, o čem MusicLM je.
Předchozí pokusy
MusicLM není první hudební systém generovaný umělou inteligencí. Riffusion, Dance Diffusion, Google AudioML a OpenAI Hudební automat jsou příklady srovnatelných přístupů. Tyto dřívější systémy však byly omezeny technologickými omezeními.
Také jejich nedostatek tréninkových dat ztěžoval skládání vysoce kvalitních melodií. MusicLM má však kapacitu vytvářet hudbu s vyšší úrovní sofistikovanosti a realismu.
Přehled MusicLM
MusicLM se učí strukturu a styl hudby. Proto se trénuje na rozsáhlém datovém souboru MIDI a symbolických hudebních souborů. Stejně jako podobné programy je i MusicLM postavena na architektuře Transformer.
Transformátorová architektura MusicLM využívá techniky sebepozorování pro soustředění se na konkrétní vstupní komponenty k extrakci struktury a stylu hudby z velkého souboru dat. Díky tomu můžete vytvářet harmonicky a rytmicky soudržnou hudbu.
A tato hudba může napodobovat organizaci uživatelského vstupu. Budete tak moci získat hudební výstup, který konkrétně popíšete v programu.
Úspěch předchozí jazykové modely, jako jsou GPT-2 a GPT-3, které prokázaly svou schopnost vytvářet koherentní a plynulé psaní, inspirovaly MusicLM. MusicLM je na druhé straně prvním jazykovým modelem, který byl vytvořen výhradně pro hudební generaci.
A myslíme si, že bude považován za jeden z nejpropracovanějších modelů.
Jak to funguje?
DALL-E 2 a MusicLM společnosti Google umělá inteligence sdílejí mnoho strukturálních podobností. Tentokrát je však vaše psaní zprostředkováno spíše hudebně než vizuálně. V tomto okamžiku můžete buď kompletně postavit celý kus. Také můžete generovat rytmus pomocí pouze jednoho nástroje.
Na stránce Github MusicLM si můžete prohlédnout několik ukázkových studií vytvořených týmem Google AI. I když je AI stále ve fázi výzkumu a vývoje, zvuky, které může vydávat, jsou ve vysokém rozlišení. Objevily se také návrhy, jako je integrace této AI s ChatGPT. Tato integrace by mohla vést ke složitější a kreativnější hudbě.
Od bzučení po hitové melodie
MusicLM kombinuje čtyři různé modely umělé inteligence: MuLan, AudioLM, w2v-BERT a Soundstream. Ačkoli každý z těchto modelů má řadu charakteristických schopností. Když se však integrovali, vyústili v MusicLM!
Hudebníci a profesionálové v oboru si všimli schopnosti MusicLM přeměnit i ty nejzákladnější hučení a mumraje na celé melodie. V kombinaci s ChatGPT může produkovat jedinečnou hudbu.
Můžete poslouchat a prozkoumávat hudbu a zvuky vytvořené MusicLM na jeho webových stránkách . Mějte však na paměti, že je v současné době ve fázi testování. Je zřejmé, že MusicLM má schopnost zcela transformovat hudební byznys s rozvojem technologií.
Hudba generovaná umělou inteligencí s lidskými nuancemi
Aby vznikly skladby, které dávají smysl na základě důkladných popisů, byla MusicLM vyškolena na velkém datovém souboru 280,000 XNUMX hodin hudby. Můžete například vytvořit „melodickou dubstepovou melodii s hlubokými basy a sofistikovanými rytmy bubnů“. Nebo o to můžete požádat, abyste vytvořili „přitažlivou popovou píseň s podmanivým kytarovým riffem a energickým zpěvákem“. Vaše představivost je v tomto případě limitem.
Vytvořené písně se podobají písním složeným lidskými hudebníky. Vzorky MusicLM jsou extrémně ohromující. Je to pravda zejména za předpokladu, že do procesu kompozice není zapojen žádný člověk. MusicLM může opakovat různé aspekty, jako jsou hudební riffy, melodie a emoce. Kromě toho funguje, i když jsou zadány komplikované a explicitní specifikace.
Důležité funkce
Úprava titulků malby
Painting Caption Conditioning je funkce MusicLM. Hudbu můžete vytvořit na základě textového popisu nebo „popisu“ malby. To znamená, že MusicLM je schopen vytvářet hudbu, která zachycuje emoce, nálady a myšlenky vyjádřené na obrázku. Tato funkce je velmi užitečná pro tvorbu hudby pro filmy, videohrya všechny druhy vizuálních médií.
Story Mode
Funkce Story Mode bere jako vstup text příběhu. Proto vytváří doprovodnou hudbu na pozadí. Uživatelé mohou tuto funkci využít k vytvoření zvukové stopy pro příběh, videohru nebo film zobrazením scénáře nebo emocionálního tónu.
Story Mode je užitečný nástroj pro mediální umělce. Může tedy generovat širokou škálu hudebních stylů a nástrojů. Režim Tale Mode od MusicLM zvyšuje emocionální dopad scény. Diváci tak mohou mít další stupeň ponoření do příběhu.
Úroveň hudebních zkušeností
Obtížnost vytvořené hudby si můžete přizpůsobit. Uživatelé si mohou vybrat mezi třemi úrovněmi podle úrovně svých dovedností. Mohou také určit preferovaný stupeň složitosti: začátečník, středně pokročilý nebo pokročilý.
Tato funkce vám pomůže, pokud máte trochu hudební zkušenosti a chcete experimentovat s novými kompozicemi. Pokud jste však zkušený hudebník, můžete vytvořit sofistikovanou a jemnou hudbu. Cílem MusicLM s touto funkcí je poskytnout přístupný zážitek pro všechny uživatele.
Generační rozmanitost
Pomocí funkce Generation Diversity můžete vytvořit mnoho verzí skladby ze stejného vstupu. A můžete mít pestrou škálu výstupů. To znamená, že AI může generovat více verzí skladby.
Kromě toho jsou zde alternativní melodie nebo akordové postupy, přičemž je stále zachován základní styl a struktura písně. Tato funkce pomáhá při tvorbě hudby AI být kreativnější. Díky tomu je tvorba hudby více analogická lidskému psaní písní.
Možná omezení MusicLM
Google zatím nezpřístupnil MusicLM široké veřejnosti, protože je stále ve vývoji. Proto zatím nemůžete poskytnout konkrétní ukázky druhů hudby, kterou může MusicLM produkovat. Navíc je stále trochu neznámé, jaká omezení by MusicLM mohl mít.
Protože je tato technologie stále v rané fázi, mohla by mít určitá omezení týkající se kalibru hudby, která je produkována, nebo její kapacity zpracovávat konkrétní vstupy.
Zkreslená kvalita vyrobených vzorků je jednou z klíčových nevýhod. Toto je nezbytný vedlejší produkt tréninkového postupu používaného k vývoji MusicLM.
Další nevýhodou je, že navzdory technické schopnosti MusicLM vyrábět vokály. Patří sem i sborové písně. „Texty“ produkované MusicLM někdy působí jako blábol. Kromě toho mohou být těžko pochopitelné. MusicLM je však stále ve vývoji a tyto problémy lze zlepšit.
Závěrečné poznámky
A konečně věříme, že technologie, na které je Google MusicLM postavena, je zajímavá a fascinující. Je úžasné, že umělá inteligence může dělat hudbu v různých stylech s vyšší úrovní realismu. MusicLM má potenciál změnit hudební byznys. A s nadšením sledujeme, jak se tato technologie vyvíjí.
Napsat komentář