Google ປະກາດ MusicLM, ປັນຍາປະດິດທີ່ສ້າງດົນຕີອອກຈາກຄໍາທີ່ທ່ານພິມ, ເຊັ່ນ DALL-E 2. ມັນເປັນຮູບແບບພາສາທີ່ສ້າງຂຶ້ນໂດຍ Google Research. ນອກຈາກນັ້ນ, ພວກເຂົາເຈົ້າໄດ້ອອກແບບສະເພາະສໍາລັບການສ້າງດົນຕີ.
ແລະ, ມັນໄດ້ຖືກຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນອັນໃຫຍ່ຫຼວງຂອງໄຟລ໌ດົນຕີແລະສາມາດຜະລິດດົນຕີໃນຮູບແບບແລະຮູບແບບຕ່າງໆ. ຖ້າຫາກວ່າທ່ານມີຄວາມສົນໃຈໃນດົນຕີ; ຫຼັງຈາກນັ້ນ, ທ່ານຄວນກວດເບິ່ງສິ່ງທີ່ MusicLM ຈະສະເຫນີ.
ດ້ວຍ MusicLM ທ່ານຜະລິດດົນຕີໃນບາງເຕັກນິກແລະຮູບແບບ. ສໍາລັບຕົວຢ່າງ, ທ່ານສາມາດສ້າງຕ່ອນ piano, drums beats, ແລະ melodies ສໍາລັບເນື້ອເພງ.
ນອກຈາກນັ້ນ, ທ່ານສາມາດປັບໃຫ້ເຫມາະສົມກັບຮູບແບບບາງຢ່າງຫຼືລວມເອົາການປ້ອນຂໍ້ມູນໂດຍຜູ້ໃຊ້. ມັນຫມາຍເຖິງການຜະລິດດົນຕີທີ່ປະສົມກົມກຽວແລະຈັງຫວະທີ່ສອດຄ່ອງ. ສະນັ້ນ, ໃຫ້ເຂົ້າໄປເບິ່ງວ່າ MusicLM ແມ່ນຫຍັງ.
ຄວາມພະຍາຍາມທີ່ຜ່ານມາ
MusicLM ບໍ່ແມ່ນລະບົບດົນຕີທີ່ສ້າງໂດຍ AI ທໍາອິດ. Riffusion, Dance Diffusion, AudioML ຂອງ Google, ແລະ OpenAI's Jukebox ແມ່ນຕົວຢ່າງຂອງວິທີການປຽບທຽບ. ຢ່າງໃດກໍ່ຕາມ, ລະບົບກ່ອນຫນ້າເຫຼົ່ານີ້ຖືກຈໍາກັດໂດຍຂໍ້ຈໍາກັດດ້ານເຕັກໂນໂລຢີ.
ນອກຈາກນັ້ນ, ການຂາດຂໍ້ມູນການຝຶກອົບຮົມຂອງເຂົາເຈົ້າເຮັດໃຫ້ການປະກອບເພງທີ່ມີຄຸນນະພາບສູງ. ຢ່າງໃດກໍ່ຕາມ, MusicLM ມີຄວາມສາມາດສ້າງດົນຕີທີ່ມີລະດັບຄວາມຊັບຊ້ອນແລະຄວາມເປັນຈິງຫຼາຍຂຶ້ນ.
ພາບລວມ MusicLM
MusicLM ຮຽນຮູ້ໂຄງສ້າງແລະຮູບແບບຂອງດົນຕີ. ເພາະສະນັ້ນ, ມັນໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນອັນໃຫຍ່ຫຼວງຂອງ MIDI ແລະໄຟລ໌ເພງສັນຍາລັກ. ເຊັ່ນດຽວກັນກັບໂຄງການທີ່ຄ້າຍຄືກັນຂອງມັນ, MusicLM ຖືກສ້າງຂຶ້ນໃນສະຖາປັດຕະຍະກໍາ Transformer.
ການນໍາໃຊ້ເຕັກນິກການເອົາໃຈໃສ່ຕົນເອງເພື່ອສຸມໃສ່ອົງປະກອບຂອງວັດສະດຸປ້ອນໂດຍສະເພາະ, ຖາປັດຕະຍະການຫັນເປັນຂອງ MusicLM ຖືກນໍາໃຊ້ເພື່ອສະກັດໂຄງສ້າງແລະຮູບແບບຂອງດົນຕີຈາກຊຸດຂໍ້ມູນໃຫຍ່. ດັ່ງນັ້ນ, ທ່ານສາມາດສ້າງດົນຕີປະສົມກົມກຽວແລະຈັງຫວະ.
ແລະ, ດົນຕີນີ້ສາມາດ mimic ອົງການຈັດຕັ້ງຂອງການປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້. ເພາະສະນັ້ນ, ທ່ານຈະສາມາດໄດ້ຮັບຜົນໄດ້ຮັບດົນຕີທີ່ທ່ານອະທິບາຍໂດຍສະເພາະກັບໂຄງການ.
ຜົນສໍາເລັດຂອງທີ່ຜ່ານມາ ຮູບແບບພາສາ, ເຊັ່ນ GPT-2 ແລະ GPT-3, ເຊິ່ງໄດ້ພິສູດຄວາມສາມາດໃນການຂຽນທີ່ສອດຄ່ອງແລະຄ່ອງແຄ້ວ, ເປັນແຮງບັນດານໃຈຂອງ MusicLM. ໃນທາງກົງກັນຂ້າມ, MusicLM ແມ່ນຮູບແບບພາສາທໍາອິດທີ່ສ້າງຂຶ້ນສະເພາະສໍາລັບການຜະລິດດົນຕີ.
ແລະ, ພວກເຮົາຄິດວ່າມັນຈະຖືກຖືວ່າເປັນຫນຶ່ງໃນຕົວແບບທີ່ມີຄວາມຊັບຊ້ອນທີ່ສຸດ.
ມັນເຮັດວຽກແນວໃດ?
DALL-E 2 ແລະ MusicLM ຂອງ Google ປັນຍາປະດິດ ແບ່ງປັນຄວາມຄ້າຍຄືກັນຂອງໂຄງສ້າງຫຼາຍ. ເວລານີ້, ເຖິງແມ່ນວ່າ, ການຂຽນຂອງເຈົ້າແມ່ນຖ່າຍທອດດົນຕີແທນທີ່ຈະເປັນສາຍຕາ. ໃນຈຸດນີ້, ທ່ານສາມາດສ້າງສິ້ນທັງຫມົດໄດ້ຢ່າງສົມບູນ. ນອກຈາກນັ້ນ, ທ່ານສາມາດສ້າງຈັງຫວະໂດຍໃຊ້ເຄື່ອງມືດຽວ.
ທ່ານອາດຈະເບິ່ງການສຶກສາຕົວຢ່າງຈໍານວນຫນຶ່ງທີ່ສ້າງໂດຍທີມງານ Google AI ໃນຫນ້າ Github ຂອງ MusicLM. ເຖິງແມ່ນວ່າ AI ຍັງຢູ່ໃນຂັ້ນຕອນການຄົ້ນຄວ້າແລະການພັດທະນາ, ສຽງທີ່ມັນສາມາດເຮັດໃຫ້ມີຄວາມລະອຽດສູງ. ນອກຈາກນີ້, ໄດ້ມີການແນະນໍາ, ເຊັ່ນ: ການເຊື່ອມໂຍງ AI ນີ້ກັບ ChatGPT. ການປະສົມປະສານນີ້ສາມາດນໍາໄປສູ່ດົນຕີທີ່ສັບສົນແລະສ້າງສັນຫຼາຍຂຶ້ນ.
ຈາກ Humming ກັບ Hit Melodies
MusicLM ລວມສີ່ຕົວແບບ AI ທີ່ແຕກຕ່າງກັນ: MuLan, AudioLM, w2v-BERT, ແລະ Soundstream. ເຖິງແມ່ນວ່າແຕ່ລະແບບເຫຼົ່ານີ້ມີຊຸດຄວາມສາມາດທີ່ໂດດເດັ່ນ. ຢ່າງໃດກໍຕາມ, ເມື່ອພວກເຂົາປະສົມປະສານ, ຜົນໄດ້ຮັບໃນ MusicLM!
ນັກດົນຕີແລະຜູ້ຊ່ຽວຊານດ້ານອຸດສາຫະກໍາໄດ້ສັງເກດເຫັນຄວາມສາມາດຂອງ MusicLM ໃນການຫັນປ່ຽນເຖິງແມ່ນ hums ພື້ນຖານທີ່ສຸດແລະການຈົ່ມເປັນປບັທັງຫມົດ. ໂດຍການສົມທົບກັບ ChatGPT, ມັນສາມາດຜະລິດດົນຕີທີ່ເປັນເອກະລັກ.
ທ່ານສາມາດຟັງແລະສໍາຫຼວດດົນຕີແລະສຽງທີ່ສ້າງຕັ້ງຂື້ນໂດຍ MusicLM ໃນມັນ ເວັບໄຊທ໌. ແຕ່, ຈົ່ງຈື່ໄວ້ວ່າປະຈຸບັນມັນຢູ່ໃນຂັ້ນຕອນການທົດສອບ. ມັນເປັນທີ່ຊັດເຈນວ່າ MusicLM ມີຄວາມສາມາດໃນການຫັນປ່ຽນທຸລະກິດດົນຕີຢ່າງສົມບູນຍ້ອນວ່າເຕັກໂນໂລຢີພັດທະນາ.
ດົນຕີທີ່ສ້າງຂຶ້ນດ້ວຍ AI ທີ່ມີຄວາມແຕກຕ່າງທີ່ຄ້າຍຄືກັບມະນຸດ
ເພື່ອຜະລິດເພງທີ່ມີຄວາມຫມາຍໂດຍອີງໃສ່ຄໍາອະທິບາຍຢ່າງລະອຽດ, MusicLM ໄດ້ຮັບການຝຶກອົບຮົມໃນຊຸດຂໍ້ມູນຂະຫນາດໃຫຍ່ຂອງດົນຕີ 280,000 ຊົ່ວໂມງ. ຕົວຢ່າງ, ເຈົ້າສາມາດສ້າງ "ສຽງຮ້ອງເພງແບບ dubstep ທີ່ມີສຽງເບດເລິກ ແລະຈັງຫວະສຽງກອງທີ່ຊັບຊ້ອນ". ຫຼື, ເຈົ້າສາມາດຂໍໃຫ້ມັນສ້າງ "ເພງປ໊ອບທີ່ດຶງດູດໃຈກັບສຽງກີຕ້າທີ່ຈັບໃຈແລະນັກຮ້ອງສຽງທີ່ແຂງແຮງ." ຈິນຕະນາການຂອງທ່ານແມ່ນຂອບເຂດຈໍາກັດໃນກໍລະນີນີ້.
ເພງທີ່ຜະລິດໄດ້ຄ້າຍຄືເພງທີ່ປະພັນໂດຍນັກດົນຕີມະນຸດ. ຕົວຢ່າງຂອງ MusicLM ແມ່ນປະຫລາດໃຈທີ່ສຸດ. ມັນເປັນຄວາມຈິງໂດຍສະເພາະບໍ່ມີມະນຸດມີສ່ວນຮ່ວມໃນຂະບວນການອົງປະກອບ. MusicLM ສາມາດເຮັດເລື້ມຄືນລັກສະນະທີ່ແປກປະຫຼາດເຊັ່ນ: ສຽງດົນຕີ, ເນື້ອເພງ, ແລະອາລົມ. ນອກຈາກນັ້ນ, ມັນເຮັດວຽກເຖິງແມ່ນວ່າໃນເວລາທີ່ໄດ້ຮັບການສະເພາະສັບສົນແລະຊັດເຈນ.
ຄຸນນະສົມບັດທີ່ສໍາຄັນ
ການທາສີ Caption Conditioning
Painting Caption Conditioning ເປັນຟັງຊັນ MusicLM. ທ່ານສາມາດຜະລິດດົນຕີໂດຍອີງໃສ່ຄໍາອະທິບາຍຂໍ້ຄວາມຫຼື "ຄໍາບັນຍາຍ" ຂອງຮູບແຕ້ມ. ນີ້ຫມາຍຄວາມວ່າ MusicLM ມີຄວາມສາມາດສ້າງດົນຕີທີ່ຈັບອາລົມ, ອາລົມ, ແລະຄວາມຄິດທີ່ສະແດງອອກໃນຮູບ. ຄວາມສາມາດນີ້ແມ່ນເປັນປະໂຫຍດຫຼາຍສໍາລັບການສ້າງດົນຕີສໍາລັບຮູບເງົາ, ວິດິໂອເກມ, ແລະທຸກປະເພດຂອງສື່ມວນຊົນສາຍຕາ.
Mode ເລື່ອງ
ຄຸນສົມບັດ Story Mode ເອົາຂໍ້ຄວາມເລື່ອງເປັນການປ້ອນຂໍ້ມູນ. ເພາະສະນັ້ນ, ມັນສ້າງດົນຕີພື້ນຫລັງ. ຜູ້ໃຊ້ສາມາດນໍາໃຊ້ຫນ້າທີ່ນີ້ເພື່ອສ້າງ soundtrack ສໍາລັບນິທານ, ວິດີໂອເກມ, ຫຼືຮູບເງົາໂດຍການພັນລະນາສະຖານະການຫຼືສຽງອາລົມ.
Story Mode ເປັນເຄື່ອງມືທີ່ມີປະໂຫຍດສຳລັບນັກສິລະປິນສື່. ດັ່ງນັ້ນ, ມັນສາມາດສ້າງຮູບແບບດົນຕີແລະເຄື່ອງມືທີ່ກວ້າງຂວາງ. ໂໝດເທນຂອງ MusicLM ໄດ້ຮັບການເພີ່ມຜົນກະທົບທາງດ້ານອາລົມຂອງສາກ. ດັ່ງນັ້ນ, ຜູ້ຊົມສາມາດມີລະດັບການດູດຊຶມເພີ່ມເຕີມໃນເລື່ອງ.
ລະດັບປະສົບການນັກດົນຕີ
ທ່ານສາມາດປັບຄວາມຫຍຸ້ງຍາກຂອງດົນຕີທີ່ສ້າງຕັ້ງຂື້ນ. ຜູ້ໃຊ້ສາມາດເລືອກລະຫວ່າງສາມລະດັບໂດຍອີງໃສ່ລະດັບທັກສະຂອງເຂົາເຈົ້າ. ນອກຈາກນີ້, ພວກເຂົາສາມາດກໍານົດລະດັບທີ່ມັກຂອງຄວາມສັບສົນ: ຜູ້ເລີ່ມຕົ້ນ, ລະດັບປານກາງ, ຫຼືຂັ້ນສູງ.
ຄຸນສົມບັດນີ້ຊ່ວຍທ່ານໄດ້ຖ້າທ່ານມີຄວາມຊຳນານດ້ານດົນຕີໜ້ອຍໜຶ່ງ ແລະຕ້ອງການທົດລອງການແຕ່ງເພງໃໝ່. ຢ່າງໃດກໍຕາມ, ຖ້າທ່ານເປັນນັກດົນຕີທີ່ມີປະສົບການ, ທ່ານສາມາດສ້າງດົນຕີທີ່ສັບສົນແລະອ່ອນໂຍນ. ເປົ້າໝາຍຂອງ MusicLM ດ້ວຍຄຸນສົມບັດນີ້ແມ່ນເພື່ອສະໜອງປະສົບການທີ່ເຂົ້າເຖິງໄດ້ໃຫ້ກັບຜູ້ໃຊ້ທັງໝົດ.
ຄວາມຫຼາກຫຼາຍຂອງການຜະລິດ
ດ້ວຍຟັງຊັນ Generation Diversity, ທ່ານສາມາດຜະລິດເພງຫຼາຍລຸ້ນຈາກການປ້ອນຂໍ້ມູນດຽວກັນ. ແລະ, ທ່ານສາມາດມີລະດັບຄວາມຫລາກຫລາຍຂອງຜົນໄດ້ຮັບ. ນີ້ຫມາຍຄວາມວ່າ AI ອາດຈະສ້າງຫຼາຍຮຸ່ນຂອງເພງ.
ນອກຈາກນັ້ນ, ມີ melodies ຈັບສະຫຼັບຫຼື chord ຄວາມຄືບຫນ້າ, ໃນຂະນະທີ່ຍັງຄົງຮັກສາແບບພື້ນຖານຂອງເພງແລະໂຄງສ້າງ. ຄຸນສົມບັດນີ້ຈະຊ່ວຍໃຫ້ການສ້າງດົນຕີຂອງ AI ມີຄວາມຄິດສ້າງສັນຫຼາຍຂຶ້ນ. ດັ່ງນັ້ນ, ມັນເຮັດໃຫ້ການສ້າງດົນຕີຄ້າຍຄືກັນກັບການແຕ່ງເພງຂອງມະນຸດ.
ຂໍ້ຈໍາກັດທີ່ເປັນໄປໄດ້ຂອງ MusicLM
Google ຍັງບໍ່ໄດ້ເຮັດໃຫ້ MusicLM ສາມາດໃຊ້ໄດ້ກັບປະຊາຊົນທົ່ວໄປຍ້ອນວ່າມັນຍັງຢູ່ໃນການພັດທະນາ. ເພາະສະນັ້ນ, ທ່ານບໍ່ສາມາດໃຫ້ຕົວຢ່າງສະເພາະຂອງປະເພດດົນຕີທີ່ MusicLM ສາມາດຜະລິດໄດ້. ນອກຈາກນັ້ນ, ມັນຍັງບໍ່ຮູ້ເລັກນ້ອຍວ່າ MusicLM ສາມາດມີຂໍ້ຈໍາກັດແນວໃດ.
ເນື່ອງຈາກເຕັກໂນໂລຢີຍັງຢູ່ໃນຂັ້ນຕອນຕົ້ນຂອງມັນ, ມັນສາມາດມີຂໍ້ຈໍາກັດບາງຢ່າງກ່ຽວກັບຂະຫນາດຂອງດົນຕີທີ່ຜະລິດຫຼືຄວາມສາມາດທີ່ຈະຈັດການກັບວັດສະດຸປ້ອນໂດຍສະເພາະ.
ຄຸນນະພາບການບິດເບືອນຂອງຕົວຢ່າງທີ່ຜະລິດແມ່ນເປັນຫນຶ່ງໃນຂໍ້ບົກຜ່ອງທີ່ສໍາຄັນ. ນີ້ແມ່ນຜົນຜະລິດທີ່ຈໍາເປັນຂອງຂັ້ນຕອນການຝຶກອົບຮົມນໍາໃຊ້ເພື່ອພັດທະນາ MusicLM.
ຂໍ້ບົກຜ່ອງອີກອັນຫນຶ່ງແມ່ນວ່າ, ເຖິງວ່າຈະມີຄວາມສາມາດດ້ານວິຊາການຂອງ MusicLM ໃນການຜະລິດສຽງຮ້ອງ. ນີ້ປະກອບມີເພງຮ້ອງເພງ. "ເນື້ອເພງ" ທີ່ຜະລິດໂດຍ MusicLM ບາງຄັ້ງເບິ່ງຄືວ່າເປັນສຽງຮ້ອງ. ນອກຈາກນັ້ນ, ພວກເຂົາສາມາດເຂົ້າໃຈໄດ້ຍາກ. ຢ່າງໃດກໍ່ຕາມ, MusicLM ຍັງຢູ່ໃນການພັດທະນາແລະບັນຫາເຫຼົ່ານີ້ສາມາດປັບປຸງໄດ້.
ຂໍ້ສັງເກດສຸດທ້າຍ
ສຸດທ້າຍ, ພວກເຮົາເຊື່ອວ່າເທກໂນໂລຍີທີ່ຕິດພັນກັບ Google MusicLM ແມ່ນຫນ້າສົນໃຈແລະຫນ້າສົນໃຈ. ມັນເປັນເລື່ອງທີ່ຫນ້າປະຫລາດໃຈທີ່ AI ສາມາດເຮັດໃຫ້ດົນຕີໃນຫຼາຍຮູບແບບ, ມີລະດັບຄວາມສົມຈິງທີ່ສູງກວ່າ. MusicLM ມີທ່າແຮງທີ່ຈະປ່ຽນທຸລະກິດດົນຕີ. ແລະ, ພວກເຮົາຕື່ນເຕັ້ນທີ່ຈະສັງເກດເບິ່ງວິທີການພັດທະນາເຕັກໂນໂລຢີນີ້.
ອອກຈາກ Reply ເປັນ