Google tillkännagav MusicLM, artificiell intelligens som skapar musik av orden du skriver, som DALL-E 2. Det är en språkmodell skapad av Google Research. Dessutom har de exklusivt designat den för att skapa musik.
Och den har tränats på ett stort dataset av musikfiler och kan producera musik i en rad olika stilar och former. Om du är intresserad av musik; då bör du kolla vad MusicLM kommer att erbjuda.
Med MusicLM producerar du musik i vissa tekniker och former. Du kan till exempel skapa pianostycken, trumslag och melodier för texter.
Du kan också finjustera till vissa stilar eller inkludera input från användaren. Det är tänkt att producera musik som är harmoniskt och rytmiskt sammanhängande. Så låt oss dyka in och se vad MusicLM handlar om.
Tidigare försök
MusicLM är inte det första AI-genererade musiksystemet. Riffusion, Dance Diffusion, Googles AudioML och OpenAI:s jukebox är exempel på jämförbara tillvägagångssätt. Dessa tidigare system blev dock begränsade av tekniska begränsningar.
Dessutom gjorde deras brist på träningsdata det svårt att komponera högkvalitativa låtar. MusicLM har dock kapaciteten att skapa musik med en högre nivå av sofistikering och realism.
Översikt MusicLM
MusicLM lär sig musikens struktur och stil. Därför tränas den på ett stort dataset av MIDI och symboliska musikfiler. Precis som dess liknande program är MusicLM byggt på Transformer-arkitektur.
Genom att använda självuppmärksamhetstekniker för att koncentrera sig på särskilda ingångskomponenter, används MusicLMs transformatorarkitektur för att extrahera musikens struktur och stil från en stor datamängd. Som ett resultat kan du skapa harmoniskt och rytmiskt sammanhängande musik.
Och den här musiken kan efterlikna organisationen av användarinmatningen. Därför kommer du att kunna få det musikaliska resultatet som du specifikt beskriver för programmet.
Framgången av tidigare språkmodeller, som GPT-2 och GPT-3, som har bevisat sin förmåga att skapa ett sammanhängande och flytande skrivande, inspirerade MusicLM. MusicLM, å andra sidan, är den första språkmodellen som byggdes exklusivt för musikgenerationen.
Och vi tror att den kommer att betraktas som en av de mest sofistikerade modellerna.
Hur fungerar det?
DALL-E 2 och Googles MusicLM artificiell intelligens delar många strukturella likheter. Men den här gången förmedlas ditt skrivande musikaliskt snarare än visuellt. Vid denna tidpunkt kan du antingen helt konstruera en hel del. Du kan också generera rytm med bara ett instrument.
Du kan se flera exempelstudier skapade av Google AI-teamet på MusicLMs Github-sida. Även om AI fortfarande är i forsknings- och utvecklingsstadiet är ljuden den kan göra högupplösta. Det har också kommit förslag, som att integrera denna AI med ChatGPT. Denna integration kan leda till mer intrikat och kreativ musik.
Från nynna till schlagermelodier
MusicLM kombinerar fyra distinkta AI-modeller: MuLan, AudioLM, w2v-BERT och Soundstream. Även om var och en av dessa modeller har en uppsättning distinkta funktioner. Men när de blev integrerade resulterade de i MusicLM!
Musiker och branschproffs har lagt märke till MusicLM:s förmåga att omvandla även de mest grundläggande brum och sorl till hela låtar. Genom att kombinera med ChatGPT kan den producera unik musik.
Du kan lyssna på och utforska musiken och ljuden som skapats av MusicLM på dess webbplats. Men kom ihåg att det för närvarande är i testfasen. Det är uppenbart att MusicLM har förmågan att helt förändra musikbranschen i takt med att tekniken utvecklas.
AI-genererad musik med mänskliga nyanser
För att producera låtar som är vettiga baserat på grundliga beskrivningar tränades MusicLM på en stor datauppsättning på 280,000 XNUMX timmar musik. Till exempel kan du skapa "en melodisk dubstep-låt med en djup bas och sofistikerade trumrytmer". Eller så kan du be om att den ska skapa "en lockande poplåt med ett fängslande gitarriff och en kraftfull sångare." Din fantasi sätter gränsen i det här fallet.
De producerade låtarna liknar de som komponerats av mänskliga musiker. MusicLM:s samplingar är extremt häpnadsväckande. Det är sant särskilt med tanke på att det inte finns någon människa inblandad i kompositionsprocessen. MusicLM kan upprepa nyanserade aspekter som musikaliska riff, melodier och känslor. Dessutom fungerar det även när det ges komplicerade och explicita specifikationer.
Viktiga funktioner
Målning Bildtext Konditionering
Painting Caption Conditioning är en MusicLM-funktion. Du kan producera musik baserad på en textbeskrivning eller "bildtext" av en målning. Detta innebär att MusicLM kan skapa musik som fångar de känslor, stämningar och idéer som uttrycks i en bild. Denna funktion är mycket användbar för att göra musik för filmer, videospel, och alla typer av visuella medier.
Story Mode
Berättelselägesfunktionen tar en berättelsetext som indata. Därför skapar den tillhörande bakgrundsmusik. Användare kan använda den här funktionen för att bygga ett soundtrack för en saga, videospel eller film genom att avbilda scenariot eller den känslomässiga tonen.
Story Mode är ett praktiskt verktyg för mediakonstnärer. Således kan den generera ett brett utbud av musikstilar och instrument. MusicLM:s Tale Mode får öka den känslomässiga effekten av en scen. Så tittare kan ha en ytterligare grad av fördjupning i berättelsen.
Musikerfarenhetsnivå
Du kan anpassa svårigheten för skapad musik. Användare kan välja mellan tre nivåer baserat på deras färdighetsnivå. De kan också specificera den föredragna graden av komplexitet: nybörjare, medel eller avancerad.
Den här funktionen hjälper dig om du har lite musikalisk expertis och vill experimentera med nya kompositioner. Men om du är en erfaren musiker kan du skapa sofistikerad och subtil musik. MusicLM:s mål med den här funktionen är att leverera en tillgänglig upplevelse för alla användare.
Generationsmångfald
Med Generation Diversity-funktionen kan du producera många versioner av en låt från samma ingång. Och du kan ha ett varierat utbud av utgångar. Detta innebär att AI:n kan generera flera versioner av en låt.
Dessutom finns det alternativa melodier eller ackordförlopp, samtidigt som låtens grundläggande stil och struktur bibehålls. Den här funktionen hjälper AI:s musikskapande att bli mer kreativ. Därför gör det musikskapande mer analogt med mänskligt låtskrivande.
Möjliga begränsningar för MusicLM
Google har ännu inte gjort MusicLM tillgängligt för allmänheten eftersom det fortfarande är under utveckling. Därför kan du ännu inte ge speciella exempel på de typer av musik som MusicLM kan producera. Dessutom är det fortfarande lite okänt vilka begränsningar MusicLM kan ha.
Eftersom tekniken fortfarande är i ett tidigt skede kan den ha vissa begränsningar för kalibern på den musik som produceras eller dess kapacitet att hantera speciella input.
De producerade provernas förvrängda kvalitet är en av de viktigaste nackdelarna. Detta är en nödvändig biprodukt av utbildningsproceduren som används för att utveckla MusicLM.
En annan nackdel är att, trots MusicLM:s tekniska förmåga att tillverka sång. Detta inkluderar körsånger. "Texterna" som produceras av MusicLM verkar ibland som trams. Dessutom kan de vara svåra att förstå. MusicLM är dock fortfarande under utveckling och dessa frågor kan förbättras.
Slutliga kommentarer
Slutligen tror vi att tekniken bakom Google MusicLM är både intressant och fascinerande. Det är häpnadsväckande att en AI kan göra musik i en mängd olika stilar, med en högre nivå av realism. MusicLM har potential att förändra musikbranschen. Och vi är glada över att se hur denna teknik utvecklas.
Kommentera uppropet