AI를 사용하여 좋아하는 아티스트의 새 레코드를 만들 수 있습니까?
머신 러닝의 최근 혁신은 이제 모델이 텍스트 및 이미지와 같은 복잡한 데이터를 이해할 수 있음을 보여주었습니다. OpenAI의 Jukebox는 음악도 신경망으로 정확하게 모델링할 수 있음을 증명합니다.
음악은 모델링해야 할 복잡한 대상입니다. 템포, 음량, 음높이와 같은 단순한 기능과 가사, 악기 및 음악 구조와 같은 복잡한 기능을 모두 고려해야 합니다.
고급 사용 기계 학습 기술을 통해 OpenAI는 원시 오디오를 다른 모델이 사용할 수 있는 표현으로 변환하는 방법을 찾았습니다.
이 기사에서는 Jukebox가 무엇을 할 수 있는지, 어떻게 작동하는지, 현재 기술의 한계에 대해 설명합니다.
주크박스 AI란?
쥬크 박스 노래로 음악을 생성할 수 있는 OpenAI의 신경망 모델입니다. 다양한 장르와 아티스트 스타일의 음악을 제작할 수 있는 모델입니다.
예를 들어, Jukebox는 Elvis Presley 스타일의 록 곡이나 Kanye West 스타일의 힙합 곡을 제작할 수 있습니다. 당신은 이것을 방문 할 수 있습니다 웹 사이트 좋아하는 음악가 및 장르의 사운드를 캡처하는 데 모델이 얼마나 효과적인지 알아보십시오.
모델에는 장르, 아티스트 및 가사가 입력으로 필요합니다. 이 입력은 수백만 명의 아티스트와 가사 데이터로 훈련된 모델을 안내합니다.
주크박스는 어떻게 작동합니까?
Jukebox가 수백만 곡으로 훈련된 모델에서 어떻게 새로운 원시 오디오를 생성하는지 살펴보겠습니다.
인코딩 프로세스
일부 음악 생성 모델은 MIDI 훈련 데이터를 사용하지만 Jukebox는 실제 원시 오디오 파일에서 훈련됩니다. 오디오를 개별 공간으로 압축하기 위해 Jukebox는 VQ-VAE라는 자동 인코더 방식을 사용합니다.
VQ-VAE Vector Quantized Variational Autoencoder의 약자로 다소 복잡하게 들릴 수 있으므로 자세히 살펴보겠습니다.
먼저, 여기서 우리가 하고 싶은 것을 이해하려고 노력합시다. 가사나 악보에 비해 원시 오디오 파일은 훨씬 더 복잡합니다. 우리 모델이 노래에서 "학습"하기를 원한다면 더 압축되고 단순화된 표현으로 변환해야 합니다. ~ 안에 기계 학습, 우리는 이것을 기본 표현이라고 부릅니다. 잠재 공간.
An 오토 인코더 사용하는 비지도 학습 기법입니다. 신경망 주어진 데이터 분포에 대한 비선형 잠재 표현을 찾습니다. 자동 인코더는 인코더와 디코더의 두 부분으로 구성됩니다.
XNUMXD덴탈의 인코더 원시 데이터 세트에서 잠재 공간을 찾으려고 시도하는 동안 디코더 잠재 표현을 사용하여 원래 형식으로 다시 재구성하려고 시도합니다. 자동 인코더는 기본적으로 재구성 오류를 최소화하는 방식으로 원시 데이터를 압축하는 방법을 배웁니다.
이제 오토인코더가 무엇을 하는지 알았으니 "변형" 오토인코더가 무엇을 의미하는지 이해해 보겠습니다. 일반적인 오토인코더와 비교하여 변형 오토인코더는 잠재 공간에 선행 공간을 추가합니다.
수학에 뛰어들지 않고 확률적 사전을 추가하면 잠재 분포가 밀접하게 압축됩니다. VAE와 VQ-VAE의 주요 차이점은 후자가 연속적인 표현보다는 이산적인 잠재 표현을 사용한다는 것입니다.
각 VQ-VAE 레벨은 입력을 독립적으로 인코딩합니다. 최하위 인코딩은 최고 품질의 재구성을 생성합니다. 최상위 인코딩은 필수 음악 정보를 유지합니다.
변압기 사용
이제 VQ-VAE로 인코딩된 음악 코드가 있으므로 다음을 시도할 수 있습니다. 음악 생성 이 압축된 이산 공간에서.
주크박스 사용 자기회귀 변압기 출력 오디오를 생성합니다. 트랜스포머는 시퀀싱된 데이터에서 가장 잘 작동하는 일종의 신경망입니다. 일련의 토큰이 주어지면 변환기 모델은 다음 토큰을 예측하려고 시도합니다.
Jukebox는 Sparse Transformers의 단순화된 변형을 사용합니다. 모든 이전 모델이 훈련되면 변환기는 압축된 코드를 생성한 다음 VQ-VAE 디코더를 사용하여 원시 오디오로 다시 디코딩합니다.
Jukebox의 아티스트 및 장르 컨디셔닝
Jukebox의 생성 모델은 훈련 단계에서 추가 조건부 신호를 제공하여 더 제어 가능합니다.
첫 번째 모델은 각 노래의 아티스트 및 장르 레이블에서 제공합니다. 이렇게 하면 오디오 예측의 엔트로피가 줄어들고 모델이 더 나은 품질을 얻을 수 있습니다. 또한 레이블을 통해 특정 스타일로 모델을 조정할 수 있습니다.
아티스트와 장르 외에 트레이닝 시간에 타이밍 시그널이 추가됩니다. 이러한 신호에는 노래의 길이, 특정 샘플의 시작 시간, 경과된 노래의 비율이 포함됩니다. 이 추가 정보는 모델이 전체 구조에 의존하는 오디오 패턴을 이해하는 데 도움이 됩니다.
예를 들어, 모델은 라이브 음악에 대한 박수가 노래의 끝에서 발생한다는 것을 배울 수 있습니다. 모델은 또한 예를 들어 일부 장르가 다른 장르보다 기악 섹션이 더 길다는 것을 학습할 수 있습니다.
가사
이전 섹션에서 언급한 조절 모델은 다양한 노래 목소리를 생성할 수 있습니다. 그러나 이러한 음성은 일관성이 없고 인식할 수 없는 경향이 있습니다.
가사 생성과 관련하여 생성 모델을 제어하기 위해 연구원은 교육 시간에 더 많은 컨텍스트를 제공합니다. 가사 데이터를 실제 오디오의 타이밍에 매핑하는 데 도움이 되도록 연구원들은 다음을 사용했습니다. 스플리터 보컬을 추출하고 NUS Auto가사Align 가사의 단어 수준 정렬을 얻습니다.
주크박스 모델의 한계
Jukebox의 주요 한계 중 하나는 더 큰 음악 구조에 대한 이해입니다. 예를 들어, 출력의 짧은 20초 클립은 인상적으로 들릴 수 있지만 청취자는 최종 출력에서 반복되는 코러스와 구절의 전형적인 음악 구조가 없다는 것을 알게 될 것입니다.
모델의 렌더링 속도도 느립니다. 9분의 오디오를 완전히 렌더링하는 데 약 XNUMX시간이 걸립니다. 이것은 생성할 수 있는 노래의 수를 제한하고 모델이 대화형 응용 프로그램에서 사용되는 것을 방지합니다.
마지막으로 연구원들은 샘플 데이터 세트가 주로 영어로 되어 있고 주로 서양 음악 관습을 표시한다는 점에 주목했습니다. AI 연구원은 다른 언어 및 비서구적 음악 스타일로 음악을 생성하는 데 미래 연구에 집중할 수 있습니다.
결론
Jukebox 프로젝트는 원시 오디오와 같은 복잡한 데이터의 정확한 잠재 표현을 생성하기 위한 기계 학습 모델의 성장하는 기능을 강조합니다. 다음과 같은 프로젝트에서 볼 수 있듯이 텍스트에서도 유사한 돌파구가 일어나고 있습니다. GPT-3, OpenAI에서 볼 수 있는 이미지 달-이 2.
이 분야의 연구는 인상적이었지만 지적 재산권과 이러한 모델이 전체 창조 산업에 미칠 수 있는 영향에 대한 우려가 여전히 존재합니다. 연구원과 창작자는 이러한 모델이 계속 개선될 수 있도록 계속 긴밀하게 협력해야 합니다.
미래의 제너레이티브 음악 모델은 곧 음악가를 위한 도구 또는 프로젝트를 위한 맞춤형 음악이 필요한 창작자를 위한 애플리케이션으로 작동할 수 있습니다.
댓글을 남겨주세요.