ເຈົ້າເຄີຍຢາກໄດ້ຍິນຕົວລະຄອນທີ່ເຈົ້າມັກລົມກັບເຈົ້າບໍ? ການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າແບບທໍາມະຊາດຄ່ອຍໆກາຍເປັນຄວາມເປັນຈິງດ້ວຍການຊ່ວຍເຫຼືອຂອງການຮຽນຮູ້ຂອງເຄື່ອງຈັກ.
ຕົວຢ່າງ, ຮູບແບບ NAT TTS ຂອງ Google ແມ່ນຖືກນໍາໃຊ້ເພື່ອພະລັງງານໃຫມ່ຂອງພວກເຂົາ ສຽງແບບກຳນົດເອງ ການບໍລິການ. ບໍລິການນີ້ໃຊ້ເຄືອຂ່າຍ neural ເພື່ອສ້າງສຽງທີ່ໄດ້ຮັບການຝຶກອົບຮົມຈາກການບັນທຶກ. ແອັບຯເວັບເຊັ່ນ Uberduck ສະໜອງສຽງຫຼາຍຮ້ອຍສຽງໃຫ້ທ່ານເລືອກເພື່ອສ້າງຂໍ້ຄວາມທີ່ສັງເຄາະຂອງທ່ານເອງ.
ໃນບົດຄວາມນີ້, ພວກເຮົາຈະເບິ່ງແບບຈໍາລອງ AI ທີ່ຫນ້າປະທັບໃຈແລະ enigmatic ເທົ່າທຽມກັນທີ່ເອີ້ນວ່າ 15.ai. ສ້າງໂດຍຜູ້ພັດທະນາທີ່ບໍ່ເປີດເຜີຍຊື່, ມັນອາດຈະເປັນຫນຶ່ງໃນປະສິດທິພາບແລະຄວາມຮູ້ສຶກທີ່ສຸດ ຮູບແບບຂໍ້ຄວາມເປັນສຽງເວົ້າ ເຖິງຕອນນັ້ນ.
15.ai ແມ່ນຫຍັງ?
15. ໄອ ເປັນແອັບພລິເຄຊັນເວັບ AI ທີ່ສາມາດສ້າງສຽງຂໍ້ຄວາມເປັນສຽງເວົ້າທີ່ມີຄວາມຊື່ສັດສູງທີ່ມີອາລົມ. ຜູ້ໃຊ້ສາມາດເລືອກສຽງທີ່ຫຼາກຫຼາຍຈາກ Spongebob Squarepants ເຖິງ HAL 9000 ຈາກ 2001: A Space Odyssey.
ໂຄງການດັ່ງກ່າວໄດ້ຖືກພັດທະນາໂດຍນັກຄົ້ນຄວ້າ MIT ທີ່ບໍ່ເປີດເຜີຍຊື່ທີ່ເຮັດວຽກພາຍໃຕ້ຊື່ 15. ຜູ້ພັດທະນາໄດ້ລະບຸວ່າໂຄງການດັ່ງກ່າວໄດ້ຖືກຄິດໃນເບື້ອງຕົ້ນເປັນສ່ວນຫນຶ່ງຂອງໂຄງການໂອກາດການຄົ້ນຄວ້າລະດັບປະລິນຍາຕີຂອງມະຫາວິທະຍາໄລ.
ຫຼາຍສຽງທີ່ມີຢູ່ໃນ 15.ai ແມ່ນໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຊຸດຂໍ້ມູນສາທາລະນະຂອງຕົວລະຄອນຈາກ My Little Pony: Friendship is Magic. ແຟນລາຍການທີ່ມັກໃນການສະແດງໄດ້ສ້າງຄວາມຮ່ວມມືກັນເພື່ອເກັບກຳ, ຖອດຂໍ້ຄວາມ ແລະປະມວນຜົນຊົ່ວໂມງສົນທະນາ ໂດຍມີເປົ້າໝາຍໃນການສ້າງຕົວສ້າງການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າທີ່ຖືກຕ້ອງຂອງຕົວລະຄອນທີ່ເຂົາເຈົ້າມັກ.
15.ai ສາມາດເຮັດຫຍັງໄດ້ແດ່?
ຄໍາຮ້ອງສະຫມັກເວັບໄຊຕ໌ 15.ai ເຮັດວຽກໂດຍການເລືອກຫນຶ່ງໃນຫລາຍສິບຕົວລະຄອນ fictional ທີ່ຕົວແບບໄດ້ຮັບການຝຶກອົບຮົມແລະສົ່ງຂໍ້ຄວາມເຂົ້າ. ຫຼັງຈາກການຄລິກໃສ່ສ້າງ, ຜູ້ໃຊ້ຄວນຈະໄດ້ຮັບສາມຄລິບສຽງຂອງລັກສະນະ fictional ເວົ້າສາຍທີ່ໄດ້ຮັບ.
ນັບຕັ້ງແຕ່ ການຮຽນຮູ້ລຶກລັບ ແບບຈໍາລອງທີ່ໃຊ້ແມ່ນບໍ່ຖືກກໍານົດ, 15.ai ອອກມາເປັນຄໍາເວົ້າທີ່ແຕກຕ່າງກັນເລັກນ້ອຍທຸກໆຄັ້ງ. ຄ້າຍຄືກັນກັບວິທີທີ່ນັກສະແດງອາດຈະຕ້ອງການເວລາຫຼາຍຄັ້ງເພື່ອໃຫ້ມີການຈັດສົ່ງທີ່ຖືກຕ້ອງ, 15.ai ສ້າງຮູບແບບການຈັດສົ່ງທີ່ແຕກຕ່າງກັນທຸກໆຄັ້ງຈົນກ່ວາຜູ້ໃຊ້ຊອກຫາຜົນໄດ້ຮັບທີ່ພວກເຂົາມັກ.
ໂຄງການດັ່ງກ່າວປະກອບມີຄຸນສົມບັດທີ່ເປັນເອກະລັກທີ່ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ທີ່ຈະແກ້ໄຂຄວາມຮູ້ສຶກຂອງສາຍທີ່ຜະລິດໄດ້ດ້ວຍຕົນເອງໂດຍນໍາໃຊ້ contextualizers ຈິດໃຈ. ຕົວກໍານົດການເຫຼົ່ານີ້ແມ່ນສາມາດ deduce ຄວາມຮູ້ສຶກຂອງ emojis ປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້ໂດຍໃຊ້ MIT's DeepMoji model
ອີງຕາມຜູ້ພັດທະນາ, ສິ່ງທີ່ກໍານົດ 15.ai ນອກເຫນືອຈາກໂຄງການ TTS ທີ່ຄ້າຍຄືກັນອື່ນໆແມ່ນວ່າຕົວແບບອີງໃສ່ຂໍ້ມູນຫນ້ອຍຫຼາຍເພື່ອໂຄນສຽງຢ່າງຖືກຕ້ອງໃນຂະນະທີ່ "ຮັກສາອາລົມແລະຄວາມທໍາມະຊາດ intact".
15.ai ເຮັດວຽກແນວໃດ?
ໃຫ້ເບິ່ງເຂົ້າໄປໃນເຕັກໂນໂລຢີທີ່ຢູ່ເບື້ອງຫຼັງ 15.ai.
ຫນ້າທໍາອິດ, ຜູ້ພັດທະນາຕົ້ນຕໍຂອງ 15.ai ເວົ້າວ່າໂຄງການໃຊ້ຮູບແບບທີ່ກໍາຫນົດເອງເພື່ອສ້າງສຽງທີ່ມີສະພາບຄວາມຮູ້ສຶກທີ່ແຕກຕ່າງກັນ. ເນື່ອງຈາກຜູ້ຂຽນຍັງບໍ່ທັນໄດ້ເຜີຍແຜ່ເອກະສານລະອຽດກ່ຽວກັບໂຄງການ, ພວກເຮົາພຽງແຕ່ສາມາດສ້າງສົມມຸດຕິຖານຢ່າງກວ້າງຂວາງກ່ຽວກັບສິ່ງທີ່ເກີດຂຶ້ນຢູ່ເບື້ອງຫຼັງ.
ດຶງເອົາ Phonemes ໄດ້
ທໍາອິດ, ໃຫ້ເບິ່ງວິທີການທີ່ໂປລແກລມວິເຄາະຂໍ້ຄວາມທີ່ປ້ອນເຂົ້າ. ກ່ອນທີ່ໂປຣແກມສາມາດສ້າງສຽງເວົ້າໄດ້, ມັນຕ້ອງປ່ຽນແຕ່ລະຄຳສັບຕ່າງໆເຂົ້າໃນການເກັບກຳ phonemes ຂອງມັນ. ຕົວຢ່າງ, ຄໍາວ່າ "ຫມາ" ແມ່ນປະກອບດ້ວຍສາມ phonemes: /d/, /ɒ/, ແລະ /ɡ/.
ແຕ່ 15.ai ຮູ້ໄດ້ແນວໃດວ່າໂທລະສັບໃດທີ່ຈະໃຊ້ສໍາລັບແຕ່ລະຄໍາ?
ອີງຕາມ 15.ai's About page, ໂຄງການໃຊ້ຕາຕະລາງຊອກຫາວັດຈະນານຸກົມ. ຕາຕະລາງໃຊ້ Oxford Dictionaries API, Wiktionary, ແລະ CMU Pronouncing Dictionary ເປັນແຫຼ່ງ. 15.ai ໃຊ້ເວັບໄຊທ໌ອື່ນໆເຊັ່ນ Reddit ແລະ Urban Dictionary ເປັນແຫຼ່ງສໍາລັບຄໍາສັບແລະປະໂຫຍກທີ່ສ້າງຂື້ນໃຫມ່.
ຖ້າຄໍາໃດບໍ່ມີຢູ່ໃນວັດຈະນານຸກົມ, ການອອກສຽງຂອງມັນຖືກ deduced ໂດຍໃຊ້ກົດລະບຽບ phonological ທີ່ຕົວແບບໄດ້ຮຽນຮູ້ຈາກ LibriTTS ຊຸດຂໍ້ມູນ. ຊຸດຂໍ້ມູນນີ້ແມ່ນ corpus-ຊຸດຂໍ້ມູນຂອງຄໍາສັບທີ່ຂຽນ ຫຼືເວົ້າໃນພາສາກໍາເນີດ ຫຼືພາສາທ້ອງຖິ່ນ-ຂອງປະມານ 585 ຊົ່ວໂມງຂອງຄົນເວົ້າພາສາອັງກິດ.
ການຝັງອາລົມ
ອີງຕາມຜູ້ພັດທະນາ, ຮູບແບບພະຍາຍາມຄາດເດົາຄວາມຮູ້ສຶກທີ່ຮັບຮູ້ຂອງຂໍ້ຄວາມທີ່ປ້ອນເຂົ້າ. ຮູບແບບດັ່ງກ່າວເຮັດສໍາເລັດວຽກງານນີ້ຜ່ານ DeepMoji ການວິເຄາະຄວາມຮູ້ສຶກ ຕົວແບບ. ຮູບແບບສະເພາະນີ້ໄດ້ຮັບການຝຶກອົບຮົມໃນຫຼາຍຕື້ tweets ກັບ emojis ໂດຍມີເປົ້າຫມາຍຄວາມເຂົ້າໃຈວິທີການໃຊ້ພາສາເພື່ອສະແດງຄວາມຮູ້ສຶກ. ຜົນໄດ້ຮັບຂອງແບບຈໍາລອງໄດ້ຖືກຝັງເຂົ້າໄປໃນຕົວແບບ TTS ເພື່ອຈັດການຜົນຜະລິດໄປສູ່ຄວາມຮູ້ສຶກທີ່ຕ້ອງການ.
ເມື່ອ phonemes ແລະ sentiment ໄດ້ຖືກສະກັດອອກຈາກຂໍ້ຄວາມທີ່ປ້ອນເຂົ້າ, ມັນເຖິງເວລາທີ່ຈະສັງເຄາະສຽງເວົ້າ.
ການໂຄນສຽງ ແລະສັງເຄາະ
ຕົວແບບຂໍ້ຄວາມເປັນສຽງເວົ້າເຊັ່ນ 15.ai ເປັນທີ່ຮູ້ຈັກເປັນຕົວແບບຫຼາຍລຳໂພງ. ຮູບແບບເຫຼົ່ານີ້ຖືກສ້າງຂຶ້ນເພື່ອໃຫ້ສາມາດຮຽນຮູ້ວິທີການເວົ້າໃນສຽງທີ່ແຕກຕ່າງກັນ. ເພື່ອຝຶກອົບຮົມຕົວແບບຂອງພວກເຮົາຢ່າງຖືກຕ້ອງ, ພວກເຮົາຕ້ອງຊອກຫາວິທີທີ່ຈະສະກັດລັກສະນະສຽງທີ່ເປັນເອກະລັກແລະເປັນຕົວແທນໃນແບບທີ່ຄອມພິວເຕີສາມາດເຂົ້າໃຈໄດ້. ຂະບວນການນີ້ຖືກເອີ້ນວ່າການຝັງລໍາໂພງ.
ຮູບແບບການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າໃນປັດຈຸບັນໃຊ້ ເຄືອຂ່າຍ neural ເພື່ອສ້າງຜົນຜະລິດສຽງທີ່ແທ້ຈິງ. ເຄືອຂ່າຍ neural ໂດຍປົກກະຕິປະກອບດ້ວຍສອງພາກສ່ວນຕົ້ນຕໍ: ຕົວເຂົ້າລະຫັດແລະຕົວຖອດລະຫັດ.
ຕົວເຂົ້າລະຫັດພະຍາຍາມສ້າງ vector ສະຫຼຸບອັນດຽວໂດຍອີງໃສ່ vector input ຕ່າງໆ. ຂໍ້ມູນກ່ຽວກັບ phonemes, ລັກສະນະຄວາມຮູ້ສຶກ, ແລະລັກສະນະສຽງແມ່ນໄດ້ຖືກຈັດໃສ່ໃນຕົວເຂົ້າລະຫັດເພື່ອສ້າງການເປັນຕົວແທນຂອງຜົນຜະລິດທີ່ຄວນຈະເປັນ. ຈາກນັ້ນຕົວຖອດລະຫັດຈະປ່ຽນການສະແດງຜົນນີ້ເປັນສຽງ ແລະໃຫ້ຄະແນນຄວາມໝັ້ນໃຈ.
ຄໍາຮ້ອງສະຫມັກເວັບໄຊຕ໌ 15.ai ຫຼັງຈາກນັ້ນໃຫ້ຜົນໄດ້ຮັບສາມດ້ານເທິງດ້ວຍຄະແນນຄວາມຫມັ້ນໃຈທີ່ດີທີ່ສຸດ.
ບັນຫາ
ດ້ວຍການເພີ່ມຂຶ້ນຂອງເນື້ອຫາທີ່ສ້າງ AI ເຊັ່ນ: deepfakes, ການພັດທະນາ AI ຂັ້ນສູງທີ່ສາມາດ mimic ຄົນທີ່ແທ້ຈິງສາມາດເປັນບັນຫາດ້ານຈັນຍາບັນທີ່ຮ້າຍແຮງ.
ໃນປັດຈຸບັນ, ສຽງທີ່ທ່ານສາມາດເລືອກຈາກຄໍາຮ້ອງສະຫມັກເວັບໄຊຕ໌ 15.ai ແມ່ນຕົວລະຄອນທີ່ສົມມຸດຕິຖານທັງຫມົດ. ຢ່າງໃດກໍຕາມ, ມັນບໍ່ໄດ້ຢຸດ app ຈາກ garnering ການໂຕ້ຖຽງອອນໄລນ໌.
ນັກສະແດງສຽງບໍ່ຫຼາຍປານໃດໄດ້ຊຸກຍູ້ໃຫ້ກັບຄືນໄປບ່ອນນໍາໃຊ້ເຕັກໂນໂລຢີການໂຄນສຽງ. ຄວາມກັງວົນຈາກພວກເຂົາລວມເຖິງການປອມຕົວ, ການໃຊ້ສຽງຂອງເຂົາເຈົ້າໃນເນື້ອຫາທີ່ຊັດເຈນ, ແລະຄວາມເປັນໄປໄດ້ທີ່ເຕັກໂນໂລຢີອາດຈະເຮັດໃຫ້ບົດບາດຂອງນັກສະແດງສຽງລ້າສະໄຫມ.
ການຂັດແຍ້ງອີກອັນຫນຶ່ງໄດ້ເກີດຂື້ນໃນຕົ້ນປີ 2022 ເມື່ອບໍລິສັດທີ່ເອີ້ນວ່າ Voiceverse NFT ຖືກຄົ້ນພົບວ່າກໍາລັງໃຊ້ 15.ai ເພື່ອສ້າງເນື້ອຫາສໍາລັບການໂຄສະນາການຕະຫຼາດຂອງພວກເຂົາ.
ສະຫຼຸບ
ການປ່ຽນຂໍ້ຄວາມເປັນສຽງເວົ້າແມ່ນຂ້ອນຂ້າງແຜ່ຫຼາຍໃນຊີວິດປະຈໍາວັນ. ຜູ້ຊ່ວຍສຽງ, GPS ນໍາທາງ. ແລະການໂທຫາໂທລະສັບອັດຕະໂນມັດໄດ້ກາຍເປັນສະຖານທີ່ທົ່ວໄປແລ້ວ. ຢ່າງໃດກໍຕາມ, ຄໍາຮ້ອງສະຫມັກເຫຼົ່ານີ້ແມ່ນເຫັນໄດ້ຊັດເຈນທີ່ບໍ່ແມ່ນມະນຸດພຽງພໍທີ່ພວກເຮົາສາມາດບອກໄດ້ວ່າມັນເປັນຄໍາເວົ້າທີ່ເຮັດດ້ວຍເຄື່ອງຈັກ.
ເທກໂນໂລຍີ TTS ທີ່ມີສຽງເປັນທຳມະຊາດ ແລະໃຫ້ອາລົມອາດຈະເປີດປະຕູໃຫ້ກັບແອັບພລິເຄຊັນໃໝ່. ຢ່າງໃດກໍຕາມ, ຈັນຍາບັນຂອງ cloning ສຽງຍັງເປັນຄໍາຖາມທີ່ດີທີ່ສຸດ. ມັນແນ່ນອນວ່າມັນເຮັດໃຫ້ມີຄວາມຮູ້ສຶກວ່າເປັນຫຍັງນັກຄົ້ນຄວ້າຈໍານວນຫຼາຍເຫຼົ່ານີ້ໄດ້ລັງເລທີ່ຈະແບ່ງປັນ algorithm ກັບສາທາລະນະ.
ອອກຈາກ Reply ເປັນ