Jukebox AI - Мэдрэлийн сүлжээ ашиглан хөгжим үүсгэх

Гарчиг[Нуух][Үзүүлэх]

Jukebox AI гэж юу вэ?
Jukebox хэрхэн ажилладаг вэ?+-
Jukebox загварын хязгаарлалт
Дүгнэлт

Та өөрийн дуртай уран бүтээлчдээс шинэ бичлэг хийхдээ хиймэл оюун ухааныг ашиглаж чадах уу?

Машин сургалтын сүүлийн үеийн нээлтүүд нь загварууд нь текст, зураг гэх мэт нарийн төвөгтэй өгөгдлийг ойлгох чадвартай болсныг харуулж байна. OpenAI-ийн Jukebox нь хөгжмийг хүртэл мэдрэлийн сүлжээгээр нарийн загварчлах боломжтой гэдгийг баталж байна.

Хөгжим бол загварчлахад төвөгтэй объект юм. Та хэмнэл, чанга, өндөр зэрэг энгийн шинж чанарууд болон дууны үг, хөгжмийн зэмсэг, хөгжмийн бүтэц зэрэг илүү төвөгтэй шинж чанаруудыг анхаарч үзэх хэрэгтэй.

Дэвшилтэт ашиглах машин суралцах техникийг ашигласнаар OpenAI нь түүхий аудиог бусад загварт ашиглах боломжтой дүрслэл болгон хувиргах аргыг олсон.

Энэ нийтлэлд Jukebox юу хийж чадах, хэрхэн ажилладаг, технологийн өнөөгийн хязгаарлалтыг тайлбарлах болно.

Jukebox AI гэж юу вэ?

Жукебокс OpenAI-ийн нейрон сүлжээний загвар бөгөөд дуулах үед хөгжим үүсгэх боломжтой. Загвар нь төрөл бүрийн төрөл, уран бүтээлчдийн хэв маягаар хөгжим гаргах боломжтой.

Jukebox AI нь алдартай уран бүтээлчдийн дууг үүсгэдэг

Жишээлбэл, Jukebox нь Элвис Преслигийн хэв маягаар рок дуу эсвэл Канье Уэстийн хэв маягаар хип хоп аяыг гаргаж чаддаг. Та энд очиж үзэх боломжтой вэб сайт Энэ загвар нь таны дуртай хөгжмийн уран бүтээлчид болон төрөл жанрын дууг авахдаа хэр үр дүнтэй болохыг судлах.

Загвар нь төрөл, зураач, дууны үгийг оруулах шаардлагатай. Энэхүү оролт нь сая сая уран бүтээлчид болон дууны өгөгдлүүд дээр бэлтгэгдсэн загварыг чиглүүлдэг.

Jukebox хэрхэн ажилладаг вэ?

Jukebox нь сая сая дуун дээр бэлтгэгдсэн загвар өмсөгчөөс шинэ түүхий аудиог хэрхэн бүтээж байгааг харцгаая.

Кодлох үйл явц

Хөгжим үүсгэх зарим загварууд MIDI сургалтын өгөгдлийг ашигладаг бол Jukebox нь бодит түүхий аудио файл дээр сургагдсан байдаг. Аудиог салангид орон зайд шахахын тулд Jukebox нь VQ-VAE гэгддэг автомат кодлогч аргыг ашигладаг.

VQ-VAE гэдэг нь Vector Quantized Variational Autoencoder гэсэн үгийн товчлол бөгөөд энэ нь жаахан төвөгтэй сонсогдож магадгүй тул үүнийг задалж үзье.

Эхлээд бид энд юу хийхийг хүсч байгаагаа ойлгохыг хичээцгээе. Дууны үг эсвэл хөгжимтэй харьцуулахад түүхий аудио файл нь илүү төвөгтэй байдаг. Хэрэв бид загвараа дуунаас "суралцахыг" хүсвэл бид үүнийг илүү шахсан, хялбаршуулсан дүрслэл болгон хувиргах хэрэгтэй болно. онд машин суралцах, бид энэ суурь дүрслэлийг a далд орон зай.

далд орон зай нь дээжийн оролтын шахсан хувилбар юм

An автомат кодчилол нь хараа хяналтгүй сургалтын арга бөгөөд a мэдрэлийн сүлжээ өгөгдлийн тархалтын шугаман бус далд дүрслэлийг олох. Автомат кодлогч нь кодлогч ба декодер гэсэн хоёр хэсгээс бүрдэнэ.

The кодлогч үед түүхий өгөгдлийн багцаас далд орон зайг олохыг оролддог декодер нь далд дүрслэлийг ашиглан түүнийг анхны хэлбэрт нь оруулахыг оролддог. Автомат кодлогч нь үндсэндээ сэргээн босголтын алдааг багасгахын тулд түүхий өгөгдлийг хэрхэн шахаж сурдаг.

Одоо бид автомат кодлогч юу хийдгийг мэдэж байгаа тул "хувилбарт" автомат кодлогч гэж юу болохыг ойлгохыг хичээцгээе. Ердийн автомат кодлогчтой харьцуулахад вариацын автомат кодлогч нь далд орон зайд өмнөхийг нэмдэг.

Математик руу шумбахгүйгээр магадлалын өмнөхийг нэмэх нь далд тархалтыг нягт нягт байлгадаг. VAE болон VQ-VAE хоёрын гол ялгаа нь сүүлийнх нь тасралтгүй бус харин салангид далд дүрслэлийг ашигладагт оршино. Jukebox AI-ийн кодлох, тайлах архитектурын диаграмм

VQ-VAE түвшин бүр оролтыг бие даан кодлодог. Доод түвшний кодчилол нь хамгийн өндөр чанартай сэргээн босголтыг бий болгодог. Дээд түвшний кодчилол нь хөгжмийн чухал мэдээллийг хадгалдаг.

Трансформатор ашиглах

Jukebox AI нь дууны дараагийн аудио клипийг үүсгэхийн тулд трансформаторыг ашигладаг

Одоо бид VQ-VAE-ээр кодлогдсон хөгжмийн кодуудтай болсон тул бид оролдож болно хөгжим үүсгэх энэ шахсан дискрет орон зайд.

Jukebox ашигладаг авторегресс трансформаторууд гаралтын аудио үүсгэх. Трансформаторууд нь дараалсан өгөгдөлтэй хамгийн сайн ажилладаг мэдрэлийн сүлжээний нэг төрөл юм. Токенуудын дарааллыг харгалзан трансформаторын загвар нь дараагийн жетоныг урьдчилан таамаглахыг оролдох болно.

Jukebox нь Sparse Transformers-ийн хялбаршуулсан хувилбарыг ашигладаг. Өмнөх бүх загваруудыг сургасны дараа трансформатор нь шахсан кодуудыг үүсгэдэг бөгөөд дараа нь VQ-VAE декодер ашиглан түүхий аудио болгон дахин кодчилдог.

Jukebox дахь зураач, жанрын нөхцөл байдал

Анхны Jukebox AI загвар нь дуу нь тодорхой төрөл эсвэл уран бүтээлчийн дууг хэрхэн сонсдогийг ойлгохыг хичээдэг

Jukebox-ын үүсгэгч загварыг сургалтын үе шатанд нэмэлт нөхцөлт дохио өгснөөр илүү удирдах боломжтой болгосон.

Эхний загваруудыг дуу тус бүрийн уран бүтээлчид, жанрын шошгооор хангадаг. Энэ нь аудио таамаглалын энтропийг бууруулж, загварт илүү сайн чанарыг бий болгох боломжийг олгодог. Шошго нь мөн загварыг тодорхой хэв маягаар удирдах боломжийг бидэнд олгодог.

Уран бүтээлч, төрлөөс гадна цагийн дохиог сургалтын үеэр нэмдэг. Эдгээр дохионууд нь дууны урт, тодорхой түүврийн эхлэх цаг, өнгөрсөн дууны хэсэг зэрэг орно. Энэхүү нэмэлт мэдээлэл нь загварт ерөнхий бүтцэд тулгуурласан аудио загварыг ойлгоход тусалдаг.

Жишээлбэл, загвар өмсөгч амьд хөгжмийн алга ташилт дууны төгсгөлд болдог гэдгийг мэдэж болно. Загвар өмсөгч, жишээлбэл, зарим төрөл нь бусдаас илүү урт хөгжмийн хэсэгтэй байдаг гэдгийг мэдэж болно.

Lyrics

Өмнөх хэсэгт дурдсан болзолт загварууд нь дуулах янз бүрийн дуу хоолой үүсгэх чадвартай. Гэсэн хэдий ч эдгээр дуу хоолой нь хоорондоо уялдаа холбоогүй, танигдахын аргагүй байдаг.

Дууны үг үүсгэх үед үүсгэгч загварыг хянахын тулд судлаачид сургалтын үеэр илүү контекст өгдөг. Судлаачид дууны үгийг бодит аудио дээрх цаг хугацааны зураглалд туслах зорилгоор ашигласан Илүү сайхан дуу гаргах ба NUS AutoLyricsAlign дууны үгийн түвшний зэрэгцүүлэлтийг олж авах.

Jukebox загварын хязгаарлалт

Jukebox-ын гол хязгаарлалтуудын нэг бол том хөгжмийн бүтцийг ойлгох явдал юм. Жишээлбэл, гаралтын 20 секундын богино клип нь гайхалтай сонсогдож болох ч сонсогчид дахилт ба шүлгийг давтдаг ердийн хөгжмийн бүтэц эцсийн гаралтад байхгүй байгааг анзаарах болно.

Мөн загвар нь үзүүлэхэд удаан байдаг. Нэг минутын аудиог бүрэн үзүүлэхэд ойролцоогоор 9 цаг шаардлагатай. Энэ нь үүсгэж болох дууны тоог хязгаарлаж, загварыг интерактив програмуудад ашиглахаас сэргийлдэг.

Эцэст нь судлаачид түүвэр өгөгдлийн багц нь үндсэндээ англи хэл дээр байгаа бөгөөд барууны хөгжмийн конвенцуудыг голчлон харуулдаг болохыг тэмдэглэжээ. Хиймэл оюун ухаан судлаачид бусад хэл болон барууны бус хөгжмийн хэв маягт хөгжим бий болгох талаар ирээдүйн судалгаанд анхаарлаа хандуулж чадна.

Дүгнэлт

Jukebox төсөл нь түүхий аудио гэх мэт нарийн төвөгтэй өгөгдлийн үнэн зөв далд дүрслэлийг бий болгох машин сургалтын загваруудын өсөн нэмэгдэж буй чадварыг онцолж байна. Төслөөс харахад ижил төстэй нээлтүүд текстэд гарч байна GPT-3, болон зургуудыг OpenAI-ээс харж болно DALL-E2.

Энэ орон зайд хийсэн судалгаа үнэхээр гайхалтай байсан ч оюуны өмчийн эрхийн талаарх санаа зовоосон асуудал байсаар байгаа бөгөөд эдгээр загварууд нь бүхэлдээ бүтээлч салбаруудад үзүүлэх нөлөөлөлтэй холбоотой байж магадгүй юм. Судлаачид болон бүтээлч хүмүүс эдгээр загваруудыг үргэлжлүүлэн сайжруулахын тулд нягт хамтран ажиллах ёстой.

Ирээдүйн хөгжмийн загварууд удахгүй хөгжимчдөд зориулсан хэрэгсэл эсвэл төсөлд тусгайлан хөгжим хэрэгтэй бүтээлч хүмүүст зориулсан програм болж ажиллах боломжтой болно.

Jukebox AI - Мэдрэлийн сүлжээ ашиглан хөгжим үүсгэх

Jukebox AI гэж юу вэ?