Google ogłosił MusicLM, sztuczną inteligencję, która tworzy muzykę z wpisywanych słów, na przykład DALL-E 2. Jest to model językowy stworzony przez Google Research. Poza tym zaprojektowali go wyłącznie do tworzenia muzyki.
Został przeszkolony w zakresie ogromnego zestawu danych plików muzycznych i może tworzyć muzykę w różnych stylach i formach. Jeśli interesujesz się muzyką; w takim razie warto sprawdzić, co zaoferuje MusicLM.
Z MusicLM produkujesz muzykę w pewnych technikach i formach. Możesz na przykład tworzyć utwory na fortepian, uderzenia perkusji i melodie do tekstu.
Możesz także dostosować się do określonych stylów lub uwzględnić dane wprowadzone przez użytkownika. Ma na celu tworzenie muzyki spójnej harmonicznie i rytmicznie. Zanurzmy się więc i zobaczmy, o co chodzi w MusicLM.
Poprzednie próby
MusicLM nie jest pierwszym systemem muzycznym generowanym przez sztuczną inteligencję. Riffusion, Dance Diffusion, Google AudioML i OpenAI Szafa grająca są przykładami porównywalnych podejść. Jednak te wcześniejsze systemy zostały ograniczone przez ograniczenia technologiczne.
Ponadto brak danych treningowych utrudniał komponowanie wysokiej jakości melodii. Jednak MusicLM ma możliwość tworzenia muzyki o wyższym poziomie wyrafinowania i realizmu.
Przegląd MusicLM
MusicLM uczy się struktury i stylu muzyki. W związku z tym jest szkolony na ogromnym zbiorze danych plików muzycznych MIDI i symbolicznych. Podobnie jak podobne programy, MusicLM jest zbudowany na architekturze Transformer.
Wykorzystując techniki samouwagi, aby skoncentrować się na poszczególnych komponentach wejściowych, architektura transformatorów MusicLM jest wykorzystywana do wydobywania struktury i stylu muzyki z dużego zbioru danych. Dzięki temu można tworzyć spójną harmonicznie i rytmicznie muzykę.
I ta muzyka może naśladować organizację danych wprowadzanych przez użytkownika. Dzięki temu będziesz mógł uzyskać efekt muzyczny, który konkretnie opisałeś w programie.
Sukces poprzedniego modele językowe, takie jak GPT-2 i GPT-3, które udowodniły swoją zdolność do tworzenia spójnego i płynnego pisania, zainspirowały MusicLM. Z drugiej strony MusicLM to pierwszy model językowy, który został stworzony wyłącznie dla pokolenia muzyki.
I sądzimy, że będzie uważany za jeden z najbardziej wyrafinowanych modeli.
Jak to działa?
DALL-E 2 i Google MusicLM sztuczna inteligencja mają wiele podobieństw strukturalnych. Tym razem jednak twoje teksty są przekazywane raczej muzycznie niż wizualnie. W tym momencie możesz całkowicie zbudować cały kawałek. Możesz także generować rytm za pomocą tylko jednego instrumentu.
Możesz zobaczyć kilka przykładowych badań stworzonych przez zespół Google AI na stronie Github MusicLM. Chociaż sztuczna inteligencja jest wciąż na etapie badań i rozwoju, dźwięki, które może wydawać, są wysokiej rozdzielczości. Pojawiły się również sugestie, takie jak integracja tej sztucznej inteligencji z ChatGPT. Ta integracja może prowadzić do bardziej skomplikowanej i kreatywnej muzyki.
Od nucenia po hitowe melodie
MusicLM łączy cztery różne modele AI: MuLan, AudioLM, w2v-BERT i Soundstream. Chociaż każdy z tych modeli ma zestaw charakterystycznych możliwości. Jednak kiedy zostały zintegrowane, zaowocowały MusicLM!
Muzycy i profesjonaliści z branży zwrócili uwagę na zdolność MusicLM do przekształcania nawet najbardziej podstawowych szumów i pomruków w całe melodie. Łącząc z ChatGPT, może tworzyć wyjątkową muzykę.
Możesz słuchać i eksplorować muzykę i dźwięki stworzone przez MusicLM na jego urządzeniu . Należy jednak pamiętać, że jest to obecnie faza testów. To oczywiste, że MusicLM ma możliwość całkowitej transformacji branży muzycznej wraz z rozwojem technologii.
Muzyka generowana przez sztuczną inteligencję z niuansami ludzkimi
Aby stworzyć sensowne utwory na podstawie dokładnych opisów, MusicLM został przeszkolony na dużym zbiorze danych obejmującym 280,000 XNUMX godzin muzyki. Na przykład możesz stworzyć „melodyczną melodię dubstepową z głębokim basem i wyrafinowanymi rytmami perkusji”. Możesz też poprosić o stworzenie „kuszącej popowej piosenki z urzekającym gitarowym riffem i mocnym wokalistą”. Twoja wyobraźnia jest w tym przypadku granicą.
Wytworzone piosenki przypominają te skomponowane przez ludzkich muzyków. Próbki MusicLM są niezwykle zdumiewające. Jest to szczególnie prawdziwe, biorąc pod uwagę, że w proces komponowania nie jest zaangażowany żaden człowiek. MusicLM może powtarzać zniuansowane aspekty, takie jak muzyczne riffy, melodie i emocje. Poza tym działa nawet przy skomplikowanych i jednoznacznych specyfikacjach.
Ważne funkcje
Kondycjonowanie podpisów malarskich
Kondycjonowanie napisów malarskich to funkcja MusicLM. Możesz tworzyć muzykę na podstawie opisu tekstowego lub „podpisu” obrazu. Oznacza to, że MusicLM jest w stanie tworzyć muzykę, która oddaje emocje, nastroje i idee wyrażone w obrazie. Ta funkcja jest bardzo pomocna przy tworzeniu muzyki do filmów, gier wideoi wszelkiego rodzaju mediów wizualnych.
Story Mode
Funkcja Story Mode pobiera tekst historii jako dane wejściowe. Tworzy więc towarzyszącą mu muzykę w tle. Użytkownicy mogą wykorzystać tę funkcję do stworzenia ścieżki dźwiękowej do opowieści, gry wideo lub filmu, przedstawiając scenariusz lub ton emocjonalny.
Tryb fabularny to przydatne narzędzie dla artystów mediów. W ten sposób może generować szeroką gamę stylów muzycznych i instrumentów. Tryb opowieści MusicLM zwiększa emocjonalny wpływ sceny. Dzięki temu widzowie mogą w jeszcze większym stopniu zanurzyć się w fabule.
Poziom doświadczenia muzyka
Możesz dostosować trudność tworzonej muzyki. Użytkownicy mogą wybierać spośród trzech poziomów w zależności od poziomu umiejętności. Mogą również określić preferowany stopień złożoności: początkujący, średniozaawansowany lub zaawansowany.
Ta funkcja pomaga, jeśli masz trochę doświadczenia muzycznego i chcesz eksperymentować z nowymi kompozycjami. Jeśli jednak jesteś doświadczonym muzykiem, możesz tworzyć wyrafinowaną i subtelną muzykę. Celem MusicLM w przypadku tej funkcji jest zapewnienie przystępnej obsługi wszystkim użytkownikom.
Różnorodność pokoleń
Dzięki funkcji Generation Diversity możesz wyprodukować wiele wersji utworu z tego samego wejścia. I możesz mieć zróżnicowany zakres wyjść. Oznacza to, że sztuczna inteligencja może generować wiele wersji utworu.
Poza tym istnieją alternatywne melodie lub progresje akordów, przy jednoczesnym zachowaniu podstawowego stylu i struktury utworu. Ta funkcja sprawia, że tworzenie muzyki przez sztuczną inteligencję jest bardziej kreatywne. Dzięki temu tworzenie muzyki jest bardziej analogiczne do pisania piosenek przez ludzi.
Możliwe ograniczenia MusicLM
Google nie udostępnił jeszcze MusicLM ogółowi społeczeństwa, ponieważ wciąż jest w fazie rozwoju. Dlatego nie możesz jeszcze podawać konkretnych próbek muzyki, którą MusicLM może produkować. Co więcej, wciąż nie wiadomo, jakie ograniczenia może mieć MusicLM.
Ponieważ technologia jest wciąż na wczesnym etapie, może mieć pewne ograniczenia co do kalibru produkowanej muzyki lub jej zdolności do obsługi określonych danych wejściowych.
Zniekształcona jakość produkowanych próbek jest jedną z kluczowych wad. Jest to niezbędny produkt uboczny procedury szkoleniowej zastosowanej do opracowania MusicLM.
Kolejną wadą jest to, że pomimo technicznej zdolności MusicLM do produkcji wokali. Obejmuje to pieśni chóralne. „Teksty” wyprodukowane przez MusicLM czasami wydają się bełkotem. Poza tym mogą być trudne do zrozumienia. Jednak MusicLM jest wciąż w fazie rozwoju i te problemy można poprawić.
Uwagi końcowe
Na koniec uważamy, że technologia leżąca u podstaw Google MusicLM jest zarówno interesująca, jak i fascynująca. To zdumiewające, że sztuczna inteligencja może tworzyć muzykę w różnych stylach, z wyższym poziomem realizmu. MusicLM ma potencjał, by zmienić branżę muzyczną. Z przyjemnością obserwujemy, jak rozwija się ta technologia.
Dodaj komentarz