Google은 DALL-E 2와 같이 입력한 단어로 음악을 만드는 인공 지능인 MusicLM을 발표했습니다. Google Research에서 만든 언어 모델입니다. 게다가 그들은 음악 제작을 위해 독점적으로 설계했습니다.
또한 방대한 음악 파일 데이터 세트에 대한 교육을 받았으며 다양한 스타일과 형식으로 음악을 생성할 수 있습니다. 음악에 관심이 있다면; 그런 다음 MusicLM이 제공하는 것을 확인해야 합니다.
MusicLM을 사용하면 몇 가지 기술과 형식으로 음악을 제작할 수 있습니다. 예를 들어 피아노 곡, 드럼 비트, 가사 멜로디를 만들 수 있습니다.
또한 특정 스타일을 미세 조정하거나 사용자 제공 입력을 포함할 수 있습니다. 조화롭고 리드미컬하게 응집력 있는 음악을 제작하기 위한 것입니다. 이제 MusicLM이 무엇인지 자세히 살펴보겠습니다.
이전 시도
MusicLM은 최초의 AI 생성 음악 시스템이 아닙니다. Riffusion, Dance Diffusion, Google의 AudioML 및 OpenAI의 쥬크 박스 비교 가능한 접근 방식의 예입니다. 그러나 이러한 이전 시스템은 기술적 제한으로 인해 제약을 받았습니다.
또한 훈련 데이터가 부족하여 양질의 곡을 작곡하기 어려웠습니다. 그러나 MusicLM은 더 높은 수준의 정교함과 현실감으로 음악을 만들 수 있는 능력이 있습니다.
개요 뮤직LM
MusicLM은 음악의 구조와 스타일을 학습합니다. 따라서 MIDI 및 기호 음악 파일의 방대한 데이터 세트에서 학습됩니다. 유사한 프로그램과 마찬가지로 MusicLM은 Transformer 아키텍처를 기반으로 합니다.
Self-Attention 기술을 활용하여 특정 입력 구성 요소에 집중하는 MusicLM의 변환기 아키텍처는 큰 데이터 세트에서 음악의 구조와 스타일을 추출하는 데 사용됩니다. 그 결과 조화롭고 리드미컬하게 응집력 있는 음악을 만들 수 있습니다.
그리고 이 음악은 사용자 입력의 구성을 모방할 수 있습니다. 따라서 프로그램에 구체적으로 설명하는 음악적 결과를 얻을 수 있습니다.
이전의 성공 언어 모델, GPT-2 및 GPT-3와 같이 일관되고 유창한 글쓰기 능력을 입증한 이들은 MusicLM에 영감을 주었습니다. 반면 MusicLM은 음악 세대를 위해 독점적으로 구축된 최초의 언어 모델입니다.
그리고 가장 세련된 모델 중 하나로 간주될 것이라고 생각합니다.
그것은 어떻게 작동합니까?
DALL-E 2 및 Google의 MusicLM 인공 지능 많은 구조적 유사성을 공유합니다. 하지만 이번에는 당신의 글이 시각적인 것보다 음악적으로 전달됩니다. 이 시점에서 전체 조각을 완전히 구성할 수 있습니다. 또한 하나의 악기만 사용하여 리듬을 생성할 수 있습니다.
MusicLM의 Github 페이지에서 Google AI 팀이 만든 여러 샘플 연구를 볼 수 있습니다. AI는 아직 연구 개발 단계에 있지만, 만들 수 있는 소리는 고해상도입니다. 또한 이 AI를 ChatGPT와 통합하는 것과 같은 제안이 있었습니다. 이 통합은 더 복잡하고 창의적인 음악으로 이어질 수 있습니다.
허밍부터 히트 멜로디까지
MusicLM은 MuLan, AudioLM, w2v-BERT 및 Soundstream의 네 가지 AI 모델을 결합합니다. 이러한 각 모델에는 일련의 고유한 기능이 있습니다. 그러나 그들이 통합되었을 때 그들은 MusicLM!
음악가들과 업계 전문가들은 가장 기본적인 허밍과 중얼거림도 온전한 곡으로 변환할 수 있는 MusicLM의 능력에 주목했습니다. ChatGPT와 결합하여 독특한 음악을 만들 수 있습니다.
MusicLM에서 만든 음악과 소리를 듣고 탐색할 수 있습니다. 웹 사이트. 그러나 현재 테스트 단계에 있음을 명심하십시오. MusicLM은 기술이 발전함에 따라 음악 비즈니스를 완전히 변화시킬 수 있는 능력을 가지고 있음이 분명합니다.
인간과 같은 뉘앙스가 있는 AI 생성 음악
철저한 설명을 바탕으로 이해가 되는 노래를 제작하기 위해 MusicLM은 280,000시간 분량의 대규모 음악 데이터 세트로 학습했습니다. 예를 들어 "깊은 베이스와 세련된 드럼 리듬이 있는 멜로디 덥스텝 곡"을 만들 수 있습니다. 또는 "매혹적인 기타 리프와 강력한 보컬이 있는 매혹적인 팝송"을 만들어달라고 요청할 수 있습니다. 이 경우 당신의 상상력이 한계입니다.
제작된 노래는 인간 음악가가 작곡한 것과 유사합니다. MusicLM의 샘플은 매우 놀랍습니다. 구성 과정에 인간이 관여하지 않는다는 점을 감안할 때 특히 그렇습니다. MusicLM은 음악 리프, 멜로디 및 감정과 같은 미묘한 측면을 반복할 수 있습니다. 또한 복잡하고 명시적인 사양이 주어져도 작동합니다.
주요 기능
페인팅 캡션 컨디셔닝
페인팅 캡션 컨디셔닝은 MusicLM 기능입니다. 그림의 텍스트 설명 또는 "캡션"을 기반으로 음악을 제작할 수 있습니다. 이는 MusicLM이 사진에 표현된 감정, 분위기 및 아이디어를 캡처하는 음악을 만들 수 있음을 의미합니다. 이 기능은 영화 음악을 만드는 데 매우 유용합니다. 비디오 게임, 모든 종류의 시각 매체.
스토리 모드
스토리 모드 기능은 스토리 텍스트를 입력으로 사용합니다. 따라서 그에 수반되는 배경 음악을 생성합니다. 사용자는 이 기능을 활용하여 시나리오나 감정 톤을 묘사하여 이야기, 비디오 게임 또는 영화의 사운드 트랙을 구축할 수 있습니다.
스토리 모드는 미디어 아티스트를 위한 편리한 도구입니다. 따라서 광범위한 음악 스타일과 악기를 생성할 수 있습니다. MusicLM의 테일 모드는 장면의 감정적 영향을 증가시킵니다. 따라서 시청자는 스토리에 한층 더 몰입할 수 있습니다.
음악가 경험 수준
생성된 음악의 난이도를 사용자 정의할 수 있습니다. 사용자는 기술 수준에 따라 세 가지 수준 중에서 선택할 수 있습니다. 또한 초보자, 중급 또는 고급과 같이 선호하는 복잡성 정도를 지정할 수 있습니다.
이 기능은 약간의 음악적 전문성이 있고 새로운 작곡을 실험하려는 경우에 유용합니다. 하지만 숙련된 음악가라면 세련되고 섬세한 음악을 만들 수 있습니다. 이 기능에 대한 MusicLM의 목표는 모든 사용자에게 접근 가능한 경험을 제공하는 것입니다.
세대 다양성
Generation Diversity 기능을 사용하면 동일한 입력에서 여러 버전의 노래를 생성할 수 있습니다. 그리고 다양한 출력 범위를 가질 수 있습니다. 이는 AI가 여러 버전의 노래를 생성할 수 있음을 의미합니다.
그 외에도 노래의 기본 스타일과 구조를 유지하면서 대체 멜로디나 코드 진행이 있습니다. 이 기능은 AI의 음악 제작이 보다 창의적이 되도록 도와줍니다. 따라서 음악 창작을 인간의 작곡과 더 유사하게 만듭니다.
MusicLM의 가능한 한계
Google은 아직 개발 중인 MusicLM을 일반 대중에게 제공하지 않았습니다. 따라서 아직 MusicLM이 생성할 수 있는 특정 종류의 음악 샘플을 제공할 수 없습니다. 또한 MusicLM이 어떤 제한을 가질 수 있는지는 아직 알려지지 않았습니다.
이 기술은 아직 초기 단계이기 때문에 생성되는 음악의 수준이나 특정 입력을 처리하는 능력에 특정 제한이 있을 수 있습니다.
생산된 샘플의 왜곡된 품질은 주요 단점 중 하나입니다. 이는 MusicLM을 개발하는 데 사용되는 교육 절차의 필수 부산물입니다.
또 다른 단점은 MusicLM의 보컬 제작 기술에도 불구하고. 여기에는 합창곡이 포함됩니다. MusicLM이 만든 "가사"는 때때로 횡설수설처럼 보입니다. 게다가 이해하기 어려울 수 있습니다. 그러나 MusicLM은 아직 개발 중이며 이러한 문제는 개선될 수 있습니다.
최종 비고
마지막으로 우리는 Google MusicLM의 기반이 되는 기술이 흥미롭고 매력적이라고 믿습니다. AI가 더 높은 수준의 현실감으로 다양한 스타일의 음악을 만들 수 있다는 것은 놀라운 일입니다. MusicLM은 음악 비즈니스를 변화시킬 잠재력을 가지고 있습니다. 그리고 우리는 이 기술이 어떻게 발전하는지 지켜볼 수 있어 기쁩니다.
댓글을 남겨주세요.