ທ່ານສາມາດນໍາໃຊ້ AI ເພື່ອສ້າງບັນທຶກໃຫມ່ຈາກສິລະປິນທີ່ທ່ານມັກບໍ?
ຄວາມແຕກແຍກໃນການຮຽນຮູ້ເຄື່ອງຈັກໃນບໍ່ດົນມານີ້ໄດ້ສະແດງໃຫ້ເຫັນວ່າຕົວແບບຕ່າງໆໃນປັດຈຸບັນມີຄວາມສາມາດເຂົ້າໃຈຂໍ້ມູນສະລັບສັບຊ້ອນເຊັ່ນ: ຂໍ້ຄວາມແລະຮູບພາບ. Jukebox ຂອງ OpenAI ພິສູດວ່າເຖິງແມ່ນວ່າດົນຕີສາມາດຖືກສ້າງແບບຈໍາລອງຢ່າງແນ່ນອນໂດຍເຄືອຂ່າຍ neural.
ດົນຕີແມ່ນວັດຖຸທີ່ຊັບຊ້ອນໃນແບບຈໍາລອງ. ທ່ານຕ້ອງໄດ້ພິຈາລະນາທັງສອງລັກສະນະງ່າຍດາຍເຊັ່ນ tempo, loudness, ແລະ pitch ແລະລັກສະນະສະລັບສັບຊ້ອນຫຼາຍເຊັ່ນເນື້ອເພງ, ເຄື່ອງມື, ແລະໂຄງສ້າງດົນຕີ.
ການນໍາໃຊ້ຂັ້ນສູງ ການຮຽນຮູ້ເຄື່ອງຈັກ ເຕັກນິກ, OpenAI ໄດ້ຊອກຫາວິທີທີ່ຈະປ່ຽນສຽງດິບເປັນການສະແດງທີ່ຕົວແບບອື່ນໆສາມາດນໍາໃຊ້ໄດ້.
ບົດຄວາມນີ້ຈະອະທິບາຍສິ່ງທີ່ Jukebox ສາມາດເຮັດໄດ້, ມັນເຮັດວຽກແນວໃດ, ແລະຂໍ້ຈໍາກັດຂອງເຕັກໂນໂລຢີໃນປະຈຸບັນ.
Jukebox AI ແມ່ນຫຍັງ?
Jukebox ແມ່ນຕົວແບບສຸດທິ neural ໂດຍ OpenAI ທີ່ສາມາດສ້າງດົນຕີດ້ວຍການຮ້ອງເພງ. ຮູບແບບດັ່ງກ່າວສາມາດຜະລິດດົນຕີໃນຫຼາຍປະເພດແລະຮູບແບບຂອງສິລະປິນ.
ຕົວຢ່າງ, Jukebox ສາມາດຜະລິດເພງ Rock ໃນແບບຂອງ Elvis Presley ຫຼືເພງຮິບຮັອບໃນແບບຂອງ Kanye West. ທ່ານສາມາດໄປຢ້ຽມຢາມນີ້ ເວັບໄຊທ໌ ເພື່ອສຳຫຼວດເບິ່ງວ່າຕົວແບບມີປະສິດຕິຜົນແນວໃດໃນການຈັບສຽງຂອງນັກສິລະປິນ ແລະປະເພດດົນຕີທີ່ທ່ານມັກ.
ຮູບແບບຕ້ອງການປະເພດ, ນັກສິລະປິນ, ແລະເນື້ອເພງເປັນການປ້ອນຂໍ້ມູນ. ການປ້ອນຂໍ້ມູນນີ້ແນະນຳຕົວແບບທີ່ໄດ້ຝຶກຝົນຈາກສິນລະປິນຫຼາຍລ້ານຄົນ ແລະຂໍ້ມູນເນື້ອເພງ.
Jukebox ເຮັດວຽກແນວໃດ?
ຂໍໃຫ້ເບິ່ງວິທີການທີ່ Jukebox ຈັດການເພື່ອສ້າງສຽງສົດໃຫມ່ຈາກແບບຈໍາລອງທີ່ໄດ້ຮັບການຝຶກອົບຮົມໃນຫຼາຍລ້ານເພງ.
ຂະບວນການເຂົ້າລະຫັດ
ໃນຂະນະທີ່ບາງຮູບແບບການຜະລິດດົນຕີໃຊ້ຂໍ້ມູນການຝຶກອົບຮົມ MIDI, Jukebox ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບໄຟລ໌ສຽງທີ່ແທ້ຈິງ. ເພື່ອບີບອັດສຽງເຂົ້າໄປໃນພື້ນທີ່ແຍກ, Jukebox ໃຊ້ວິທີການເຂົ້າລະຫັດອັດຕະໂນມັດທີ່ເອີ້ນວ່າ VQ-VAE.
VQ-VAE ຫຍໍ້ມາຈາກ Vector Quantized Variational Autoencoder, ເຊິ່ງອາດຟັງແລ້ວສັບສົນເລັກນ້ອຍ, ສະນັ້ນໃຫ້ເຮົາແບ່ງມັນລົງ.
ກ່ອນອື່ນ, ໃຫ້ພະຍາຍາມເຂົ້າໃຈສິ່ງທີ່ພວກເຮົາຕ້ອງການເຮັດຢູ່ທີ່ນີ້. ເມື່ອປຽບທຽບກັບເນື້ອເພງຫຼືເພງແຜ່ນ, ໄຟລ໌ສຽງດິບແມ່ນສັບສົນຫຼາຍ. ຖ້າພວກເຮົາຕ້ອງການໃຫ້ຕົວແບບຂອງພວກເຮົາ "ຮຽນຮູ້" ຈາກເພງ, ພວກເຮົາຈະຕ້ອງປ່ຽນມັນໄປສູ່ການເປັນຕົວແທນທີ່ບີບອັດແລະງ່າຍດາຍກວ່າ. ໃນ ການຮຽນຮູ້ເຄື່ອງຈັກ, ພວກເຮົາເອີ້ນວ່າການເປັນຕົວແທນພື້ນຖານ a ຊ່ອງຫວ່າງ.
An ການເຂົ້າລະຫັດອັດຕະໂນມັດ ແມ່ນເຕັກນິກການຮຽນຮູ້ທີ່ບໍ່ມີການເບິ່ງແຍງທີ່ໃຊ້ a ເຄືອຂ່າຍ neural ເພື່ອຊອກຫາການເປັນຕົວແທນ latent ທີ່ບໍ່ແມ່ນ linear ສໍາລັບການແຈກຢາຍຂໍ້ມູນໃຫ້. ຕົວເຂົ້າລະຫັດອັດຕະໂນມັດປະກອບດ້ວຍສອງພາກສ່ວນ: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ.
ໄດ້ ເຄື່ອງເຂົ້າລະຫັດ ພະຍາຍາມຊອກຫາພື້ນທີ່ latent ຈາກຊຸດຂອງຂໍ້ມູນດິບໃນຂະນະທີ່ decoder ໃຊ້ການສະແດງຕົວຕົນເພື່ອພະຍາຍາມສ້າງມັນກັບຄືນສູ່ຮູບແບບເດີມຂອງມັນ. autoencoder ຮຽນຮູ້ວິທີການບີບອັດຂໍ້ມູນດິບໃນແບບທີ່ຊ່ວຍຫຼຸດຜ່ອນຄວາມຜິດພາດໃນການກໍ່ສ້າງຄືນໃຫມ່.
ໃນປັດຈຸບັນທີ່ພວກເຮົາຮູ້ວ່າສິ່ງທີ່ autoencoder ເຮັດ, ໃຫ້ພວກເຮົາພະຍາຍາມເຂົ້າໃຈສິ່ງທີ່ພວກເຮົາຫມາຍຄວາມວ່າໂດຍ "ການປ່ຽນແປງ" autoencoder. ເມື່ອປຽບທຽບກັບ autoencoders ທົ່ວໄປ, autoencoders ປ່ຽນແປງໄດ້ເພີ່ມກ່ອນພື້ນທີ່ latent.
ໂດຍບໍ່ມີການ diving ເຂົ້າໄປໃນຄະນິດສາດ, ການເພີ່ມ probabilistic ກ່ອນເຮັດໃຫ້ການແຜ່ກະຈາຍ latent ຫນາແຫນ້ນຢ່າງໃກ້ຊິດ. ຄວາມແຕກຕ່າງທີ່ ສຳ ຄັນລະຫວ່າງ VAE ແລະ VQ-VAE ແມ່ນວ່າອັນສຸດທ້າຍໃຊ້ການເປັນຕົວແທນ latent ແຍກຕ່າງຫາກແທນທີ່ຈະເປັນແບບຕໍ່ເນື່ອງ.
ແຕ່ລະລະດັບ VQ-VAE ຈະເຂົ້າລະຫັດການປ້ອນຂໍ້ມູນຢ່າງເປັນອິດສະຫຼະ. ການເຂົ້າລະຫັດລະດັບລຸ່ມສຸດຜະລິດຕະພັນການຟື້ນຟູຄຸນນະພາບສູງທີ່ສຸດ. ການເຂົ້າລະຫັດລະດັບສູງສຸດຮັກສາຂໍ້ມູນດົນຕີທີ່ສໍາຄັນ.
ການນໍາໃຊ້ Transformers
ຕອນນີ້ພວກເຮົາມີລະຫັດເພງທີ່ຖືກເຂົ້າລະຫັດໂດຍ VQ-VAE, ພວກເຮົາສາມາດພະຍາຍາມ ສ້າງດົນຕີ ຢູ່ໃນພື້ນທີ່ແຍກທີ່ບີບອັດນີ້.
Jukebox ໃຊ້ autoregressive transformers ເພື່ອສ້າງສຽງອອກ. Transformers ແມ່ນປະເພດຂອງເຄືອຂ່າຍ neural ທີ່ເຮັດວຽກທີ່ດີທີ່ສຸດກັບຂໍ້ມູນລໍາດັບ. ເນື່ອງຈາກລໍາດັບຂອງ tokens, ຕົວແບບ transformer ຈະພະຍາຍາມຄາດຄະເນ token ຕໍ່ໄປ.
Jukebox ໃຊ້ຕົວແປທີ່ງ່າຍດາຍຂອງ Sparse Transformers. ເມື່ອຕົວແບບກ່ອນທັງຫມົດໄດ້ຮັບການຝຶກອົບຮົມ, ຫມໍ້ແປງຈະສ້າງລະຫັດທີ່ຖືກບີບອັດເຊິ່ງຫຼັງຈາກນັ້ນຖືກຖອດລະຫັດກັບຄືນໄປບ່ອນເປັນສຽງດິບໂດຍໃຊ້ຕົວຖອດລະຫັດ VQ-VAE.
ຈິດຕະນາການ ແລະປະເພດຂອງການປັບສະພາບໃນ Jukebox
ຮູບແບບການຜະລິດຂອງ Jukebox ແມ່ນສາມາດຄວບຄຸມໄດ້ຫຼາຍຂຶ້ນໂດຍການໃຫ້ສັນຍານເງື່ອນໄຂເພີ່ມເຕີມໃນລະຫວ່າງຂັ້ນຕອນການຝຶກອົບຮົມ.
ຮູບແບບທໍາອິດແມ່ນສະຫນອງໃຫ້ໂດຍສິລະປິນແລະປະເພດປ້າຍຊື່ສໍາລັບແຕ່ລະເພງ. ນີ້ຫຼຸດຜ່ອນ entropy ຂອງການຄາດຄະເນສຽງແລະອະນຸຍາດໃຫ້ຕົວແບບເພື່ອບັນລຸຄຸນນະພາບທີ່ດີກວ່າ. ປ້າຍຊື່ຍັງຊ່ວຍໃຫ້ພວກເຮົາສາມາດຊີ້ນໍາຕົວແບບໃນແບບສະເພາະ.
ນອກຈາກຈິດຕະນາການແລະປະເພດ, ສັນຍານກໍານົດເວລາໄດ້ຖືກເພີ່ມໃນລະຫວ່າງເວລາການຝຶກອົບຮົມ. ສັນຍານເຫຼົ່ານີ້ລວມມີຄວາມຍາວຂອງເພງ, ເວລາເລີ່ມຕົ້ນຂອງຕົວຢ່າງສະເພາະ, ແລະສ່ວນຫນຶ່ງຂອງເພງທີ່ຜ່ານໄປ. ຂໍ້ມູນເພີ່ມເຕີມນີ້ຊ່ວຍໃຫ້ຕົວແບບເຂົ້າໃຈຮູບແບບສຽງທີ່ອີງໃສ່ໂຄງສ້າງໂດຍລວມ.
ຕົວຢ່າງ, ຕົວແບບອາດຈະຮຽນຮູ້ວ່າສຽງຕົບມືສໍາລັບດົນຕີສົດເກີດຂຶ້ນໃນຕອນທ້າຍຂອງເພງ. ຕົວຢ່າງຍັງສາມາດຮຽນຮູ້ວ່າບາງປະເພດມີສ່ວນທີ່ຍາວກວ່າປະເພດອື່ນໆ.
ເພງ
ຮູບແບບທີ່ມີເງື່ອນໄຂທີ່ໄດ້ກ່າວມາໃນພາກທີ່ຜ່ານມາແມ່ນສາມາດສ້າງສຽງຮ້ອງເພງທີ່ຫລາກຫລາຍ. ຢ່າງໃດກໍຕາມ, ສຽງເຫຼົ່ານີ້ມີແນວໂນ້ມທີ່ຈະບໍ່ສອດຄ່ອງແລະບໍ່ສາມາດຮັບຮູ້ໄດ້.
ເພື່ອຄວບຄຸມຮູບແບບການຜະລິດເມື່ອເວົ້າເຖິງການສ້າງເນື້ອເພງ, ນັກຄົ້ນຄວ້າໄດ້ສະຫນອງສະພາບການເພີ່ມເຕີມໃນເວລາຝຶກອົບຮົມ. ເພື່ອຊ່ວຍໃຫ້ແຜນທີ່ຂໍ້ມູນເນື້ອເພງກັບເວລາຂອງສຽງທີ່ແທ້ຈິງ, ນັກຄົ້ນຄວ້າໄດ້ນໍາໃຊ້ ເຕັມໄປດ້ວຍ ເພື່ອສະກັດສຽງຮ້ອງແລະ NUS AutoLyricsAlign ເພື່ອໃຫ້ໄດ້ຮັບການຈັດສັນລະດັບຄໍາຂອງເນື້ອເພງ.
ຂໍ້ຈໍາກັດຂອງຕົວແບບ Jukebox
ຫນຶ່ງໃນຂໍ້ຈໍາກັດຕົ້ນຕໍຂອງ Jukebox ແມ່ນຄວາມເຂົ້າໃຈກ່ຽວກັບໂຄງສ້າງດົນຕີທີ່ໃຫຍ່ກວ່າ. ຕົວຢ່າງ, ຄລິບສັ້ນ 20 ວິນາທີຂອງຜົນອອກມາອາດຈະເຮັດໃຫ້ປະທັບໃຈ, ແຕ່ຜູ້ຟັງຈະສັງເກດເຫັນວ່າໂຄງສ້າງດົນຕີປົກກະຕິຂອງການຮ້ອງເພງຊ້ຳໆ ແລະບົດເພງແມ່ນບໍ່ມີຢູ່ໃນຜົນສຸດທ້າຍ.
ຮູບແບບຍັງຊ້າໃນການສະແດງ. ມັນໃຊ້ເວລາປະມານ 9 ຊົ່ວໂມງເພື່ອໃຫ້ເຕັມຫນຶ່ງນາທີຂອງສຽງ. ອັນນີ້ຈຳກັດຈຳນວນເພງທີ່ສາມາດສ້າງໄດ້ ແລະປ້ອງກັນຕົວແບບຈາກການນຳໃຊ້ໃນແອັບພລິເຄຊັນແບບໂຕ້ຕອບ.
ສຸດທ້າຍ, ນັກຄົ້ນຄວ້າໄດ້ສັງເກດເຫັນວ່າຊຸດຂໍ້ມູນຕົວຢ່າງຕົ້ນຕໍແມ່ນພາສາອັງກິດແລະສະແດງສົນທິສັນຍາດົນຕີຕາເວັນຕົກຕົ້ນຕໍ. ນັກຄົ້ນຄວ້າ AI ສາມາດສຸມໃສ່ການຄົ້ນຄວ້າໃນອະນາຄົດກ່ຽວກັບການສ້າງດົນຕີໃນພາສາອື່ນໆແລະຮູບແບບດົນຕີທີ່ບໍ່ແມ່ນຕາເວັນຕົກ.
ສະຫຼຸບ
ໂຄງການ Jukebox ຊີ້ໃຫ້ເຫັນຄວາມສາມາດທີ່ເພີ່ມຂຶ້ນຂອງແບບຈໍາລອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກເພື່ອສ້າງການສະແດງຕົວຕົນທີ່ຖືກຕ້ອງຂອງຂໍ້ມູນທີ່ຊັບຊ້ອນເຊັ່ນສຽງດິບ. ການປ່ຽນແປງທີ່ຄ້າຍຄືກັນແມ່ນເກີດຂື້ນໃນຂໍ້ຄວາມ, ດັ່ງທີ່ເຫັນໃນໂຄງການເຊັ່ນ GPT-3, ແລະຮູບພາບ, ດັ່ງທີ່ເຫັນໃນ OpenAI's DALL-E2.
ໃນຂະນະທີ່ການຄົ້ນຄວ້າໃນຊ່ອງນີ້ມີຄວາມປະທັບໃຈ, ຍັງມີຄວາມກັງວົນກ່ຽວກັບສິດທິຊັບສິນທາງປັນຍາແລະຜົນກະທົບຂອງແບບຈໍາລອງເຫຼົ່ານີ້ອາດມີຕໍ່ອຸດສາຫະກໍາສ້າງສັນໂດຍລວມ. ນັກຄົ້ນຄວ້າແລະຜູ້ສ້າງສັນຄວນສືບຕໍ່ຮ່ວມມືຢ່າງໃກ້ຊິດເພື່ອຮັບປະກັນວ່າຕົວແບບເຫຼົ່ານີ້ສາມາດສືບຕໍ່ປັບປຸງໄດ້.
ຮູບແບບດົນຕີການຜະລິດໃນອະນາຄົດໃນໄວໆນີ້ອາດຈະສາມາດເຮັດຫນ້າທີ່ເປັນເຄື່ອງມືສໍາລັບນັກດົນຕີຫຼືເປັນຄໍາຮ້ອງສະຫມັກສໍາລັບການສ້າງສັນທີ່ຕ້ອງການດົນຕີທີ່ກໍາຫນົດເອງສໍາລັບໂຄງການ.
ອອກຈາກ Reply ເປັນ