Jukebox AI - ການສ້າງດົນຕີໂດຍໃຊ້ Neural Networks

ສາລະບານ[ເຊື່ອງ][ສະແດງ]

Jukebox AI ແມ່ນຫຍັງ?
Jukebox ເຮັດວຽກແນວໃດ?+-
ຂໍ້ຈໍາກັດຂອງຕົວແບບ Jukebox
ສະຫຼຸບ

ທ່ານສາມາດນໍາໃຊ້ AI ເພື່ອສ້າງບັນທຶກໃຫມ່ຈາກສິລະປິນທີ່ທ່ານມັກບໍ?

ຄວາມແຕກແຍກໃນການຮຽນຮູ້ເຄື່ອງຈັກໃນບໍ່ດົນມານີ້ໄດ້ສະແດງໃຫ້ເຫັນວ່າຕົວແບບຕ່າງໆໃນປັດຈຸບັນມີຄວາມສາມາດເຂົ້າໃຈຂໍ້ມູນສະລັບສັບຊ້ອນເຊັ່ນ: ຂໍ້ຄວາມແລະຮູບພາບ. Jukebox ຂອງ OpenAI ພິສູດວ່າເຖິງແມ່ນວ່າດົນຕີສາມາດຖືກສ້າງແບບຈໍາລອງຢ່າງແນ່ນອນໂດຍເຄືອຂ່າຍ neural.

ດົນຕີແມ່ນວັດຖຸທີ່ຊັບຊ້ອນໃນແບບຈໍາລອງ. ທ່ານຕ້ອງໄດ້ພິຈາລະນາທັງສອງລັກສະນະງ່າຍດາຍເຊັ່ນ tempo, loudness, ແລະ pitch ແລະລັກສະນະສະລັບສັບຊ້ອນຫຼາຍເຊັ່ນເນື້ອເພງ, ເຄື່ອງມື, ແລະໂຄງສ້າງດົນຕີ.

ການນໍາໃຊ້ຂັ້ນສູງ ການຮຽນຮູ້ເຄື່ອງຈັກ ເຕັກນິກ, OpenAI ໄດ້ຊອກຫາວິທີທີ່ຈະປ່ຽນສຽງດິບເປັນການສະແດງທີ່ຕົວແບບອື່ນໆສາມາດນໍາໃຊ້ໄດ້.

ບົດຄວາມນີ້ຈະອະທິບາຍສິ່ງທີ່ Jukebox ສາມາດເຮັດໄດ້, ມັນເຮັດວຽກແນວໃດ, ແລະຂໍ້ຈໍາກັດຂອງເຕັກໂນໂລຢີໃນປະຈຸບັນ.

Jukebox AI ແມ່ນຫຍັງ?

Jukebox ແມ່ນຕົວແບບສຸດທິ neural ໂດຍ OpenAI ທີ່ສາມາດສ້າງດົນຕີດ້ວຍການຮ້ອງເພງ. ຮູບແບບດັ່ງກ່າວສາມາດຜະລິດດົນຕີໃນຫຼາຍປະເພດແລະຮູບແບບຂອງສິລະປິນ.

jukebox AI ສ້າງເພງຈາກສິລະປິນທີ່ຮູ້ຈັກ

ຕົວຢ່າງ, Jukebox ສາມາດຜະລິດເພງ Rock ໃນແບບຂອງ Elvis Presley ຫຼືເພງຮິບຮັອບໃນແບບຂອງ Kanye West. ທ່ານສາມາດໄປຢ້ຽມຢາມນີ້ ເວັບໄຊທ໌ ເພື່ອສຳຫຼວດເບິ່ງວ່າຕົວແບບມີປະສິດຕິຜົນແນວໃດໃນການຈັບສຽງຂອງນັກສິລະປິນ ແລະປະເພດດົນຕີທີ່ທ່ານມັກ.

ຮູບແບບຕ້ອງການປະເພດ, ນັກສິລະປິນ, ແລະເນື້ອເພງເປັນການປ້ອນຂໍ້ມູນ. ການປ້ອນຂໍ້ມູນນີ້ແນະນຳຕົວແບບທີ່ໄດ້ຝຶກຝົນຈາກສິນລະປິນຫຼາຍລ້ານຄົນ ແລະຂໍ້ມູນເນື້ອເພງ.

Jukebox ເຮັດວຽກແນວໃດ?

ຂໍໃຫ້ເບິ່ງວິທີການທີ່ Jukebox ຈັດການເພື່ອສ້າງສຽງສົດໃຫມ່ຈາກແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມໃນຫຼາຍລ້ານເພງ.

ຂະບວນການເຂົ້າລະຫັດ

ໃນຂະນະທີ່ບາງຮູບແບບການຜະລິດດົນຕີໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມ MIDI, Jukebox ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບໄຟລ໌ສຽງທີ່ແທ້ຈິງ. ເພື່ອບີບອັດສຽງເຂົ້າໄປໃນພື້ນທີ່ແຍກ, Jukebox ໃຊ້ວິທີການເຂົ້າລະຫັດອັດຕະໂນມັດທີ່ເອີ້ນວ່າ VQ-VAE.

VQ-VAE ຫຍໍ້ມາຈາກ Vector Quantized Variational Autoencoder, ເຊິ່ງອາດຟັງແລ້ວສັບສົນເລັກນ້ອຍ, ສະນັ້ນໃຫ້ເຮົາແບ່ງມັນລົງ.

ກ່ອນອື່ນ, ໃຫ້ພະຍາຍາມເຂົ້າໃຈສິ່ງທີ່ພວກເຮົາຕ້ອງການເຮັດຢູ່ທີ່ນີ້. ເມື່ອປຽບທຽບກັບເນື້ອເພງຫຼືເພງແຜ່ນ, ໄຟລ໌ສຽງດິບແມ່ນສັບສົນຫຼາຍ. ຖ້າພວກເຮົາຕ້ອງການໃຫ້ຕົວແບບຂອງພວກເຮົາ "ຮຽນຮູ້" ຈາກເພງ, ພວກເຮົາຈະຕ້ອງປ່ຽນມັນໄປສູ່ການເປັນຕົວແທນທີ່ບີບອັດແລະງ່າຍດາຍກວ່າ. ໃນ ການຮຽນຮູ້ເຄື່ອງຈັກ, ພວກເຮົາເອີ້ນວ່າການເປັນຕົວແທນພື້ນຖານ a ຊ່ອງຫວ່າງ.

ຊ່ອງຫວ່າງເປັນແບບບີບອັດຂອງການປ້ອນຂໍ້ມູນຕົວຢ່າງ

An ການເຂົ້າລະຫັດອັດຕະໂນມັດ ແມ່ນເຕັກນິກການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງທີ່ໃຊ້ a ເຄືອຂ່າຍ neural ເພື່ອຊອກຫາການເປັນຕົວແທນ latent ທີ່ບໍ່ແມ່ນ linear ສໍາລັບການແຈກຢາຍຂໍ້ມູນໃຫ້. ຕົວເຂົ້າລະຫັດອັດຕະໂນມັດປະກອບດ້ວຍສອງພາກສ່ວນ: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ.

ໄດ້ ເຄື່ອງເຂົ້າລະຫັດ ພະຍາຍາມຊອກຫາພື້ນທີ່ latent ຈາກຊຸດຂອງຂໍ້ມູນດິບໃນຂະນະທີ່ decoder ໃຊ້ການສະແດງຕົວຕົນເພື່ອພະຍາຍາມສ້າງມັນກັບຄືນສູ່ຮູບແບບເດີມຂອງມັນ. autoencoder ຮຽນຮູ້ວິທີການບີບອັດຂໍ້ມູນດິບໃນແບບທີ່ຊ່ວຍຫຼຸດຜ່ອນຄວາມຜິດພາດໃນການກໍ່ສ້າງຄືນໃຫມ່.

ໃນປັດຈຸບັນທີ່ພວກເຮົາຮູ້ວ່າສິ່ງທີ່ autoencoder ເຮັດ, ໃຫ້ພວກເຮົາພະຍາຍາມເຂົ້າໃຈສິ່ງທີ່ພວກເຮົາຫມາຍຄວາມວ່າໂດຍ "ການປ່ຽນແປງ" autoencoder. ເມື່ອປຽບທຽບກັບ autoencoders ທົ່ວໄປ, autoencoders ປ່ຽນແປງໄດ້ເພີ່ມກ່ອນພື້ນທີ່ latent.

ໂດຍບໍ່ມີການ diving ເຂົ້າໄປໃນຄະນິດສາດ, ການເພີ່ມ probabilistic ກ່ອນເຮັດໃຫ້ການແຜ່ກະຈາຍ latent ຫນາແຫນ້ນຢ່າງໃກ້ຊິດ. ຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນລະຫວ່າງ VAE ແລະ VQ-VAE ແມ່ນວ່າອັນສຸດທ້າຍໃຊ້ການເປັນຕົວແທນ latent ແຍກຕ່າງຫາກແທນທີ່ຈະເປັນແບບຕໍ່ເນື່ອງ. ແຜນວາດຂອງສະຖາປັດຕະຍະກໍາຂອງ jukebox AI ສໍາລັບການເຂົ້າລະຫັດແລະການຖອດລະຫັດ

ແຕ່ລະລະດັບ VQ-VAE ຈະເຂົ້າລະຫັດການປ້ອນຂໍ້ມູນຢ່າງເປັນອິດສະຫຼະ. ການເຂົ້າລະຫັດລະດັບລຸ່ມສຸດຜະລິດຕະພັນການຟື້ນຟູຄຸນນະພາບສູງທີ່ສຸດ. ການເຂົ້າລະຫັດລະດັບສູງສຸດຮັກສາຂໍ້ມູນດົນຕີທີ່ສໍາຄັນ.

ການນໍາໃຊ້ Transformers

jukebox AI ໃຊ້ຕົວປ່ຽນເພື່ອສ້າງຄລິບສຽງຕໍ່ໄປໃນການຕິດຕາມ

ຕອນນີ້ພວກເຮົາມີລະຫັດເພງທີ່ຖືກເຂົ້າລະຫັດໂດຍ VQ-VAE, ພວກເຮົາສາມາດພະຍາຍາມ ສ້າງດົນຕີ ຢູ່ໃນພື້ນທີ່ແຍກທີ່ບີບອັດນີ້.

Jukebox ໃຊ້ autoregressive transformers ເພື່ອສ້າງສຽງອອກ. Transformers ແມ່ນປະເພດຂອງເຄືອຂ່າຍ neural ທີ່ເຮັດວຽກທີ່ດີທີ່ສຸດກັບຂໍ້ມູນລໍາດັບ. ເນື່ອງຈາກລໍາດັບຂອງ tokens, ຕົວແບບ transformer ຈະພະຍາຍາມຄາດຄະເນ token ຕໍ່ໄປ.

Jukebox ໃຊ້ຕົວແປທີ່ງ່າຍດາຍຂອງ Sparse Transformers. ເມື່ອຕົວແບບກ່ອນທັງຫມົດໄດ້ຮັບການຝຶກອົບຮົມ, ຫມໍ້ແປງຈະສ້າງລະຫັດທີ່ຖືກບີບອັດເຊິ່ງຫຼັງຈາກນັ້ນຖືກຖອດລະຫັດກັບຄືນໄປບ່ອນເປັນສຽງດິບໂດຍໃຊ້ຕົວຖອດລະຫັດ VQ-VAE.

ຈິດຕະນາການ ແລະປະເພດຂອງການປັບສະພາບໃນ Jukebox

ຮູບແບບ jukebox AI ເບື້ອງຕົ້ນພະຍາຍາມເຂົ້າໃຈວິທີສຽງເພງຄືກັບປະເພດ ຫຼືສິນລະປິນສະເພາະ

ຮູບແບບການຜະລິດຂອງ Jukebox ແມ່ນສາມາດຄວບຄຸມໄດ້ຫຼາຍຂຶ້ນໂດຍການໃຫ້ສັນຍານເງື່ອນໄຂເພີ່ມເຕີມໃນລະຫວ່າງຂັ້ນຕອນການຝຶກອົບຮົມ.

ຮູບແບບທໍາອິດແມ່ນສະຫນອງໃຫ້ໂດຍສິລະປິນແລະປະເພດປ້າຍຊື່ສໍາລັບແຕ່ລະເພງ. ນີ້ຫຼຸດຜ່ອນ entropy ຂອງການຄາດຄະເນສຽງແລະອະນຸຍາດໃຫ້ຕົວແບບເພື່ອບັນລຸຄຸນນະພາບທີ່ດີກວ່າ. ປ້າຍຊື່ຍັງຊ່ວຍໃຫ້ພວກເຮົາສາມາດຊີ້ນໍາຕົວແບບໃນແບບສະເພາະ.

ນອກຈາກຈິດຕະນາການແລະປະເພດ, ສັນຍານກໍານົດເວລາໄດ້ຖືກເພີ່ມໃນລະຫວ່າງເວລາການຝຶກອົບຮົມ. ສັນຍານເຫຼົ່ານີ້ລວມມີຄວາມຍາວຂອງເພງ, ເວລາເລີ່ມຕົ້ນຂອງຕົວຢ່າງສະເພາະ, ແລະສ່ວນຫນຶ່ງຂອງເພງທີ່ຜ່ານໄປ. ຂໍ້ມູນເພີ່ມເຕີມນີ້ຊ່ວຍໃຫ້ຕົວແບບເຂົ້າໃຈຮູບແບບສຽງທີ່ອີງໃສ່ໂຄງສ້າງໂດຍລວມ.

ຕົວຢ່າງ, ຕົວແບບອາດຈະຮຽນຮູ້ວ່າສຽງຕົບມືສໍາລັບດົນຕີສົດເກີດຂຶ້ນໃນຕອນທ້າຍຂອງເພງ. ຕົວຢ່າງຍັງສາມາດຮຽນຮູ້ວ່າບາງປະເພດມີສ່ວນທີ່ຍາວກວ່າປະເພດອື່ນໆ.

ເພງ

ຮູບແບບທີ່ມີເງື່ອນໄຂທີ່ໄດ້ກ່າວມາໃນພາກທີ່ຜ່ານມາແມ່ນສາມາດສ້າງສຽງຮ້ອງເພງທີ່ຫລາກຫລາຍ. ຢ່າງໃດກໍຕາມ, ສຽງເຫຼົ່ານີ້ມີແນວໂນ້ມທີ່ຈະບໍ່ສອດຄ່ອງແລະບໍ່ສາມາດຮັບຮູ້ໄດ້.

ເພື່ອຄວບຄຸມຮູບແບບການຜະລິດເມື່ອເວົ້າເຖິງການສ້າງເນື້ອເພງ, ນັກຄົ້ນຄວ້າໄດ້ສະຫນອງສະພາບການເພີ່ມເຕີມໃນເວລາຝຶກອົບຮົມ. ເພື່ອຊ່ວຍໃຫ້ແຜນທີ່ຂໍ້ມູນເນື້ອເພງກັບເວລາຂອງສຽງທີ່ແທ້ຈິງ, ນັກຄົ້ນຄວ້າໄດ້ນໍາໃຊ້ ເຕັມໄປດ້ວຍ ເພື່ອສະກັດສຽງຮ້ອງແລະ NUS AutoLyricsAlign ເພື່ອໃຫ້ໄດ້ຮັບການຈັດສັນລະດັບຄໍາຂອງເນື້ອເພງ.

ຂໍ້ຈໍາກັດຂອງຕົວແບບ Jukebox

ຫນຶ່ງໃນຂໍ້ຈໍາກັດຕົ້ນຕໍຂອງ Jukebox ແມ່ນຄວາມເຂົ້າໃຈກ່ຽວກັບໂຄງສ້າງດົນຕີທີ່ໃຫຍ່ກວ່າ. ຕົວຢ່າງ, ຄລິບສັ້ນ 20 ວິນາທີຂອງຜົນອອກມາອາດຈະເຮັດໃຫ້ປະທັບໃຈ, ແຕ່ຜູ້ຟັງຈະສັງເກດເຫັນວ່າໂຄງສ້າງດົນຕີປົກກະຕິຂອງການຮ້ອງເພງຊ້ຳໆ ແລະບົດເພງແມ່ນບໍ່ມີຢູ່ໃນຜົນສຸດທ້າຍ.

ຮູບແບບຍັງຊ້າໃນການສະແດງ. ມັນໃຊ້ເວລາປະມານ 9 ຊົ່ວໂມງເພື່ອໃຫ້ເຕັມຫນຶ່ງນາທີຂອງສຽງ. ອັນນີ້ຈຳກັດຈຳນວນເພງທີ່ສາມາດສ້າງໄດ້ ແລະປ້ອງກັນຕົວແບບຈາກການນຳໃຊ້ໃນແອັບພລິເຄຊັນແບບໂຕ້ຕອບ.

ສຸດທ້າຍ, ນັກຄົ້ນຄວ້າໄດ້ສັງເກດເຫັນວ່າຊຸດຂໍ້ມູນຕົວຢ່າງຕົ້ນຕໍແມ່ນພາສາອັງກິດແລະສະແດງສົນທິສັນຍາດົນຕີຕາເວັນຕົກຕົ້ນຕໍ. ນັກຄົ້ນຄວ້າ AI ສາມາດສຸມໃສ່ການຄົ້ນຄວ້າໃນອະນາຄົດກ່ຽວກັບການສ້າງດົນຕີໃນພາສາອື່ນໆແລະຮູບແບບດົນຕີທີ່ບໍ່ແມ່ນຕາເວັນຕົກ.

ສະຫຼຸບ

ໂຄງການ Jukebox ຊີ້ໃຫ້ເຫັນຄວາມສາມາດທີ່ເພີ່ມຂຶ້ນຂອງແບບຈໍາລອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກເພື່ອສ້າງການສະແດງຕົວຕົນທີ່ຖືກຕ້ອງຂອງຂໍ້ມູນທີ່ຊັບຊ້ອນເຊັ່ນສຽງດິບ. ການປ່ຽນແປງທີ່ຄ້າຍຄືກັນແມ່ນເກີດຂື້ນໃນຂໍ້ຄວາມ, ດັ່ງທີ່ເຫັນໃນໂຄງການເຊັ່ນ GPT-3, ແລະຮູບພາບ, ດັ່ງທີ່ເຫັນໃນ OpenAI's DALL-E2.

ໃນຂະນະທີ່ການຄົ້ນຄວ້າໃນຊ່ອງນີ້ມີຄວາມປະທັບໃຈ, ຍັງມີຄວາມກັງວົນກ່ຽວກັບສິດທິຊັບສິນທາງປັນຍາແລະຜົນກະທົບຂອງແບບຈໍາລອງເຫຼົ່ານີ້ອາດມີຕໍ່ອຸດສາຫະກໍາສ້າງສັນໂດຍລວມ. ນັກຄົ້ນຄວ້າແລະຜູ້ສ້າງສັນຄວນສືບຕໍ່ຮ່ວມມືຢ່າງໃກ້ຊິດເພື່ອຮັບປະກັນວ່າຕົວແບບເຫຼົ່ານີ້ສາມາດສືບຕໍ່ປັບປຸງໄດ້.

ຮູບແບບດົນຕີການຜະລິດໃນອະນາຄົດໃນໄວໆນີ້ອາດຈະສາມາດເຮັດຫນ້າທີ່ເປັນເຄື່ອງມືສໍາລັບນັກດົນຕີຫຼືເປັນຄໍາຮ້ອງສະຫມັກສໍາລັບການສ້າງສັນທີ່ຕ້ອງການດົນຕີທີ່ກໍາຫນົດເອງສໍາລັບໂຄງການ.

Jukebox AI - ການສ້າງດົນຕີໂດຍໃຊ້ Neural Networks

Jukebox AI ແມ່ນຫຍັງ?

Jukebox ເຮັດວຽກແນວໃດ?

ຂະບວນການເຂົ້າລະຫັດ

ການນໍາໃຊ້ Transformers

ຈິດຕະນາການ ແລະປະເພດຂອງການປັບສະພາບໃນ Jukebox

ເພງ

ຂໍ້ຈໍາກັດຂອງຕົວແບບ Jukebox

ສະຫຼຸບ

ກ່ຽວກັບ Deion Menor

ບົດຄວາມເພີ່ມເຕີມກ່ຽວກັບ HashDork:

ວິທີການຫຼຸດຜ່ອນ Hallucinations ໃນ AI ຂອງທ່ານ

Colossyan vs Heygen

ຈົດໝາຍຂ່າວເທັກໂນໂລຍີໃນອະນາຄົດນີ້ບໍ່ດູດ

Jukebox AI - ການສ້າງດົນຕີໂດຍໃຊ້ Neural Networks

Jukebox AI ແມ່ນຫຍັງ?

Jukebox ເຮັດວຽກແນວໃດ?

ຂະບວນການເຂົ້າລະຫັດ

ການນໍາໃຊ້ Transformers

ຈິດຕະນາການ ແລະປະເພດຂອງການປັບສະພາບໃນ Jukebox

ເພງ

ຂໍ້ຈໍາກັດຂອງຕົວແບບ Jukebox

ສະຫຼຸບ

ກ່ຽວ​ກັບ Deion Menor

ບົດຄວາມເພີ່ມເຕີມກ່ຽວກັບ HashDork:

ວິທີການຫຼຸດຜ່ອນ Hallucinations ໃນ AI ຂອງທ່ານ

10 ເຄື່ອງມື AI ທີ່ດີທີ່ສຸດສໍາລັບສື່ມວນຊົນສັງຄົມ

Colossyan vs Heygen

10 ເຄື່ອງມືສ້າງວິດີໂອເຄື່ອນໄຫວ AI ທີ່ດີທີ່ສຸດ

ຕິດຕໍ່ພົວພັນ Reader

ອອກຈາກ Reply ເປັນ ຍົກເລີກການຕອບ

ຈົດໝາຍຂ່າວເທັກໂນໂລຍີໃນອະນາຄົດນີ້ບໍ່ດູດ

ກ່ຽວກັບ Deion Menor