ມັນເປັນວຽກງານທີ່ສໍາຄັນແລະຄວາມປາຖະຫນາໃນວິໄສທັດຄອມພິວເຕີແລະກາຟິກເພື່ອຜະລິດຮູບເງົາຮູບແບບທີ່ມີສັນຍາລັກທີ່ສູງທີ່ສຸດ.
ເຖິງແມ່ນວ່າຮູບແບບທີ່ມີປະສິດທິພາບຫຼາຍຮູບແບບສໍາລັບການປັບຮູບບຸກຄົນໂດຍອີງໃສ່ StyleGAN ທີ່ມີທ່າແຮງໄດ້ຖືກສະເຫນີ, ເຕັກນິກການຮັດກຸມຮູບພາບເຫຼົ່ານີ້ມີຂໍ້ບົກຜ່ອງທີ່ຊັດເຈນເມື່ອນໍາໃຊ້ກັບວິດີໂອ, ເຊັ່ນ: ຂະຫນາດກອບຄົງທີ່, ຄວາມຕ້ອງການການຈັດຕໍາແຫນ່ງໃບຫນ້າ, ບໍ່ມີລາຍລະອຽດທີ່ບໍ່ແມ່ນໃບຫນ້າ. , ແລະຄວາມບໍ່ສອດຄ່ອງຊົ່ວຄາວ.
ກອບການປະຕິວັດ VToonify ຖືກໃຊ້ເພື່ອຮັບມືກັບການຖ່າຍທອດຮູບແບບວິດີໂອຮູບຄົນທີ່ມີຄວາມລະອຽດສູງທີ່ຄວບຄຸມໄດ້ຍາກ.
ພວກເຮົາຈະກວດສອບການສຶກສາຫຼ້າສຸດກ່ຽວກັບ VToonify ໃນບົດຄວາມນີ້, ລວມທັງການເຮັດວຽກຂອງມັນ, ຂໍ້ເສຍ, ແລະປັດໃຈອື່ນໆ.
Vtoonify ແມ່ນຫຍັງ?
VToonify framework ອະນຸຍາດໃຫ້ປັບແຕ່ງການຖ່າຍທອດຮູບແບບວິດີໂອຮູບຄົນທີ່ມີຄວາມລະອຽດສູງ.
VToonify ໃຊ້ຊັ້ນກາງ ແລະຄວາມລະອຽດສູງຂອງ StyleGAN ເພື່ອສ້າງຮູບແຕ້ມສິລະປະຄຸນນະພາບສູງໂດຍອີງໃສ່ຄຸນລັກສະນະຂອງເນື້ອຫາຫຼາຍຂະໜາດທີ່ດຶງມາຈາກຕົວເຂົ້າລະຫັດເພື່ອເກັບລາຍລະອຽດກອບ.
ສະຖາປັດຕະຍະກໍາ convolutional ຜົນໄດ້ຮັບຢ່າງເຕັມທີ່ເອົາໃບຫນ້າທີ່ບໍ່ສອດຄ່ອງຢູ່ໃນຮູບເງົາຂະຫນາດຕົວແປເປັນວັດສະດຸປ້ອນ, ສົ່ງຜົນໃຫ້ພາກພື້ນທັງຫມົດທີ່ມີການເຄື່ອນໄຫວທີ່ແທ້ຈິງໃນຜົນໄດ້ຮັບ.
ກອບນີ້ແມ່ນເຂົ້າກັນໄດ້ກັບຮູບແບບ toonification ຮູບພາບທີ່ອີງໃສ່ StyleGAN ໃນປັດຈຸບັນ, ອະນຸຍາດໃຫ້ພວກເຂົາຂະຫຍາຍໄປສູ່ toonification ວິດີໂອ, ແລະສືບທອດລັກສະນະທີ່ຫນ້າສົນໃຈເຊັ່ນ: ການປັບແຕ່ງສີແລະການປັບຄວາມເຂັ້ມຂົ້ນ.
ນີ້ ການສຶກສາ ແນະນຳສອງຕົວຫຍໍ້ຂອງ VToonify ໂດຍອີງໃສ່ Toonify ແລະ DualStyleGAN ສຳລັບການຖ່າຍທອດຮູບແບບວິດີໂອຮູບຄົນຕາມຄໍເລັກຊັນ ແລະຕົວຢ່າງຕາມລຳດັບ.
ການຄົ້ນພົບການທົດລອງຢ່າງກວ້າງຂວາງສະແດງໃຫ້ເຫັນວ່າໂຄງຮ່າງການ VToonify ທີ່ໄດ້ສະເຫນີປະຕິບັດໄດ້ດີກວ່າວິທີການທີ່ມີຢູ່ໃນການສ້າງຮູບເງົາສິລະປະທີ່ມີຄຸນະພາບສູງ, ສອດຄ່ອງຊົ່ວຄາວກັບຕົວກໍານົດການຮູບແບບທີ່ປ່ຽນແປງໄດ້.
ນັກຄົ້ນຄວ້າສະຫນອງການ ປື້ມບັນທຶກ Google Colab, ດັ່ງນັ້ນເຈົ້າສາມາດເອົາມືຂອງເຈົ້າເປື້ອນໃສ່ມັນ.
ມັນເຮັດວຽກແນວໃດ?
ເພື່ອເຮັດສຳເລັດການໂອນຮູບແບບວິດີໂອຮູບຄົນທີ່ມີຄວາມລະອຽດສູງທີ່ສາມາດປັບໄດ້, VToonify ໄດ້ລວມເອົາຂໍ້ດີຂອງກອບການແປຮູບພາບກັບກອບທີ່ອີງໃສ່ StyleGAN.
ເພື່ອຮອງຮັບຂະໜາດວັດສະດຸປ້ອນທີ່ຕ່າງກັນ, ລະບົບການແປຮູບພາບນຳໃຊ້ເຄືອຂ່າຍແບບຄົບວົງຈອນ. ໃນທາງກົງກັນຂ້າມ, ການຝຶກອົບຮົມຈາກຮອຍຂີດຂ່ວນ, ເຮັດໃຫ້ລະບົບສາຍສົ່ງທີ່ມີຄວາມລະອຽດສູງແລະຄວບຄຸມບໍ່ໄດ້.
ຮູບແບບ StyleGAN ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນແມ່ນໃຊ້ໃນກອບທີ່ອີງໃສ່ StyleGAN ສໍາລັບການໂອນຮູບແບບທີ່ມີຄວາມລະອຽດສູງແລະຄວບຄຸມ, ເຖິງແມ່ນວ່າມັນຖືກຈໍາກັດກັບຂະຫນາດຮູບພາບຄົງທີ່ແລະການສູນເສຍລາຍລະອຽດ.
StyleGAN ຖືກແກ້ໄຂໃນກອບການປະສົມໂດຍການລຶບຄຸນສົມບັດການປ້ອນຂໍ້ມູນທີ່ມີຂະໜາດຄົງທີ່ ແລະຊັ້ນຂໍ້ມູນທີ່ມີຄວາມລະອຽດຕໍ່າ, ສົ່ງຜົນໃຫ້ມີສະຖາປັດຕະຍະກຳຕົວສ້າງຕົວເຂົ້າລະຫັດແບບເຕັມຮູບແບບທີ່ຄ້າຍຄືກັບກອບການແປຮູບພາບ.
ເພື່ອຮັກສາລາຍລະອຽດຂອງກອບ, ຝຶກອົບຮົມຕົວເຂົ້າລະຫັດເພື່ອສະກັດເນື້ອໃນຫຼາຍຂະຫນາດຂອງກອບການປ້ອນຂໍ້ມູນເປັນຄວາມຕ້ອງການເນື້ອຫາເພີ່ມເຕີມຕໍ່ກັບເຄື່ອງກໍາເນີດໄຟຟ້າ. Vtoonify ສືບທອດຄວາມຢືດຢຸ່ນຂອງການຄວບຄຸມແບບ StyleGAN ແບບຈໍາລອງໂດຍການໃສ່ມັນເຂົ້າໄປໃນເຄື່ອງກໍາເນີດເພື່ອກັ່ນທັງຂໍ້ມູນແລະຮູບແບບຂອງມັນ.
ຂໍ້ຈໍາກັດຂອງ StyleGAN & ສະເຫນີ Vtoonify
ຮູບແຕ້ມແບບສິລະປະແມ່ນເປັນເລື່ອງທຳມະດາໃນຊີວິດປະຈຳວັນຂອງພວກເຮົາ ແລະໃນທຸລະກິດສ້າງສັນເຊັ່ນ: ສິລະປະ, ສື່ມວນຊົນສັງຄົມ ຮູບແທນຕົວ, ຮູບເງົາ, ການໂຄສະນາການບັນເທີງ, ແລະອື່ນໆ.
ກັບການພັດທະນາຂອງ ການຮຽນຮູ້ລຶກລັບ ເທັກໂນໂລຍີ, ດຽວນີ້ສາມາດສ້າງຮູບຊົງສິລະປະທີ່ມີຄຸນນະພາບສູງຈາກຮູບໃບ ໜ້າ ໃນຊີວິດຈິງໂດຍໃຊ້ການໂອນຮູບແບບຮູບຄົນແບບອັດຕະໂນມັດ.
ມີຫຼາຍວິທີທີ່ປະສົບຜົນສໍາເລັດທີ່ສ້າງຂື້ນສໍາລັບການໂອນຮູບແບບໂດຍອີງໃສ່ຮູບພາບ, ຫຼາຍໆຢ່າງແມ່ນສາມາດເຂົ້າເຖິງຜູ້ໃຊ້ທີ່ເລີ່ມຕົ້ນໃນຮູບແບບຂອງແອັບພລິເຄຊັນມືຖືໄດ້ງ່າຍ. ເນື້ອຫາວິດີໂອໄດ້ກາຍເປັນຕົວຫຼັກຂອງສື່ສື່ສັງຄົມອອນລາຍຂອງພວກເຮົາຢ່າງໄວວາໃນຫຼາຍປີທີ່ຜ່ານມາ.
ການເພີ່ມຂຶ້ນຂອງສື່ມວນຊົນສັງຄົມແລະຮູບເງົາ ephemeral ໄດ້ເພີ່ມຄວາມຕ້ອງການຂອງການແກ້ໄຂວິດີໂອທີ່ມີນະວັດກໍາ, ເຊັ່ນ: ການໂອນຮູບແບບວິດີໂອ portrait, ເພື່ອສ້າງວິດີໂອທີ່ປະສົບຜົນສໍາເລັດແລະຫນ້າສົນໃຈ.
ເຕັກນິກການຮັດກຸມຮູບພາບທີ່ມີຢູ່ແລ້ວມີຂໍ້ເສຍທີ່ສໍາຄັນເມື່ອນໍາໃຊ້ກັບຮູບເງົາ, ຈໍາກັດຜົນປະໂຫຍດຂອງເຂົາເຈົ້າໃນການຈັດຮູບແບບວິດີໂອຮູບຄົນອັດຕະໂນມັດ.
StyleGAN ເປັນກະດູກສັນຫຼັງທົ່ວໄປສໍາລັບການພັດທະນາຮູບແບບການໂອນຮູບແບບຮູບຄົນເນື່ອງຈາກຄວາມສາມາດໃນການສ້າງໃບຫນ້າທີ່ມີຄຸນນະພາບສູງດ້ວຍການຈັດການຮູບແບບທີ່ສາມາດປັບໄດ້.
ລະບົບທີ່ອີງໃສ່ StyleGAN (ຍັງເອີ້ນວ່າຮູບ toonification) ຈະເຂົ້າລະຫັດໃບໜ້າຕົວຈິງເຂົ້າໄປໃນພື້ນທີ່ລັບຂອງ StyleGAN ແລະຫຼັງຈາກນັ້ນນຳໃຊ້ລະຫັດສະໄຕລ໌ຜົນໄດ້ຮັບກັບ StyleGAN ອື່ນທີ່ປັບລະອຽດໃສ່ຊຸດຂໍ້ມູນຮູບແຕ້ມແບບສິລະປະເພື່ອສ້າງເວີຊັນທີ່ມີສະໄຕລ໌.
StyleGAN ສ້າງຮູບພາບທີ່ມີໃບຫນ້າທີ່ສອດຄ່ອງກັນແລະຂະຫນາດຄົງທີ່, ເຊິ່ງບໍ່ມັກໃບຫນ້າແບບເຄື່ອນໄຫວໃນ footage ໂລກທີ່ແທ້ຈິງ. ການຕັດໃບໜ້າ ແລະການຈັດຮຽງໃນວິດີໂອບາງຄັ້ງເຮັດໃຫ້ໜ້າຕາເປັນບາງສ່ວນ ແລະທ່າທາງທີ່ງຸ່ມງ່າມ. ນັກຄົ້ນຄວ້າເອີ້ນບັນຫານີ້ວ່າ 'ການຈຳກັດການປູກພືດຄົງທີ່' ຂອງ StyleGAN.
ສໍາລັບໃບຫນ້າທີ່ບໍ່ສອດຄ່ອງ, StyleGAN3 ໄດ້ຖືກສະເຫນີ; ແນວໃດກໍ່ຕາມ, ມັນພຽງແຕ່ສະຫນັບສະຫນູນຂະຫນາດຮູບພາບທີ່ກໍານົດໄວ້.
ນອກຈາກນັ້ນ, ການສຶກສາທີ່ຜ່ານມາຄົ້ນພົບວ່າການເຂົ້າລະຫັດໃບຫນ້າທີ່ບໍ່ສອດຄ່ອງແມ່ນມີຄວາມທ້າທາຍຫຼາຍກ່ວາໃບຫນ້າທີ່ສອດຄ່ອງກັນ. ການເຂົ້າລະຫັດໃບໜ້າບໍ່ຖືກຕ້ອງເປັນອັນຕະລາຍຕໍ່ການໂອນຮູບແບບຮູບຄົນ, ເຊິ່ງກໍ່ໃຫ້ເກີດບັນຫາເຊັ່ນ: ການປ່ຽນແປງຕົວຕົນ ແລະອົງປະກອບທີ່ຂາດຫາຍໄປໃນກອບທີ່ສ້າງຂຶ້ນໃໝ່ ແລະຈັດຮູບແບບ.
ດັ່ງທີ່ໄດ້ສົນທະນາກັນແລ້ວ, ເທັກນິກທີ່ມີປະສິດທິພາບໃນການໂອນຮູບແບບວິດີໂອຕາມຮູບຄົນຕ້ອງຈັດການກັບບັນຫາຕໍ່ໄປນີ້:
- ເພື່ອຮັກສາການເຄື່ອນໄຫວຕົວຈິງ, ວິທີການຕ້ອງສາມາດຈັດການກັບໃບຫນ້າທີ່ບໍ່ສອດຄ່ອງກັນແລະຂະຫນາດວິດີໂອທີ່ແຕກຕ່າງກັນ. ຂະຫນາດວິດີໂອຂະຫນາດໃຫຍ່, ຫຼືມຸມກວ້າງຂອງມຸມເບິ່ງ, ສາມາດບັນທຶກຂໍ້ມູນເພີ່ມເຕີມໃນຂະນະທີ່ຮັກສາໃບຫນ້າຈາກການເຄື່ອນຍ້າຍອອກຈາກກອບ.
- ເພື່ອແຂ່ງຂັນກັບເຄື່ອງມື HD ທີ່ໃຊ້ທົ່ວໄປໃນມື້ນີ້, ວິດີໂອຄວາມລະອຽດສູງແມ່ນມີຄວາມຈໍາເປັນ.
- ການຄວບຄຸມຮູບແບບທີ່ມີຄວາມຍືດຫຍຸ່ນຄວນໄດ້ຮັບການສະເຫນີໃຫ້ຜູ້ໃຊ້ສາມາດປ່ຽນແປງແລະເລືອກເອົາທາງເລືອກຂອງເຂົາເຈົ້າໃນເວລາທີ່ການພັດທະນາລະບົບການໂຕ້ຕອບຜູ້ໃຊ້ທີ່ແທ້ຈິງ.
ເພື່ອຈຸດປະສົງນັ້ນ, ນັກຄົ້ນຄວ້າແນະນໍາ VToonify, ກອບການປະສົມໃຫມ່ສໍາລັບການ toonification ວິດີໂອ. ເພື່ອເອົາຊະນະຂໍ້ຈໍາກັດການປູກພືດຄົງທີ່, ນັກຄົ້ນຄວ້າທໍາອິດສຶກສາການປຽບທຽບການແປພາສາໃນ StyleGAN.
VToonify ປະສົມປະສານຜົນປະໂຫຍດຂອງສະຖາປັດຕະຍະກໍາທີ່ອີງໃສ່ StyleGAN ແລະກອບການແປພາສາຮູບພາບເພື່ອບັນລຸການໂອນຮູບແບບວິດີໂອຮູບຄົນທີ່ມີຄວາມລະອຽດສູງທີ່ສາມາດປັບໄດ້.
ຕໍ່ໄປນີ້ແມ່ນການປະກອບສ່ວນທີ່ສໍາຄັນ:
- ນັກຄົ້ນຄວ້າສືບສວນການຈໍາກັດການປູກພືດຄົງທີ່ຂອງ StyleGAN ແລະສະເຫນີການແກ້ໄຂໂດຍອີງໃສ່ການປຽບທຽບການແປພາສາ.
- ນັກຄົ້ນຄວ້າໄດ້ນໍາສະເຫນີໂຄງຮ່າງການ VToonify ແບບ convolutional ທີ່ເປັນເອກະລັກສໍາລັບການຖ່າຍທອດຮູບແບບວິດີໂອຮູບຄົນທີ່ມີຄວາມລະອຽດສູງທີ່ມີການຄວບຄຸມທີ່ສະຫນັບສະຫນູນໃບຫນ້າທີ່ບໍ່ສອດຄ່ອງແລະຂະຫນາດວິດີໂອທີ່ແຕກຕ່າງກັນ.
- ນັກຄົ້ນຄວ້າກໍ່ສ້າງ VToonify ຢູ່ເທິງກະດູກສັນຫຼັງຂອງ Toonify ແລະ DualStyleGAN ແລະ condense ກະດູກສັນຫຼັງໃນທັງຂໍ້ມູນແລະຮູບແບບເພື່ອໃຫ້ສາມາດໂອນຮູບແບບວິດີໂອຮູບຄົນຕາມການເກັບກໍາແລະຕົວຢ່າງ.
ການປຽບທຽບ Vtoonify ກັບຕົວແບບທີ່ທັນສະໄຫມອື່ນໆ
ແຈ້ງໃຫ້ຊາບ
ມັນເຮັດຫນ້າທີ່ເປັນພື້ນຖານສໍາລັບການໂອນຮູບແບບທີ່ອີງໃສ່ການເກັບກໍາຢູ່ໃນໃບຫນ້າທີ່ສອດຄ່ອງໂດຍໃຊ້ StyleGAN. ເພື່ອດຶງເອົາລະຫັດສະໄຕລ໌, ນັກຄົ້ນຄວ້າຕ້ອງຈັດຮຽງໜ້າ ແລະຕັດຮູບ 256256 ສຳລັບ PSP. Toonify ຖືກນໍາໃຊ້ເພື່ອສ້າງຜົນໄດ້ຮັບທີ່ມີຮູບແບບທີ່ມີລະຫັດຮູບແບບ 1024*1024.
ສຸດທ້າຍ, ພວກເຂົາເຈົ້າ re-align ຜົນໄດ້ຮັບໃນວິດີໂອກັບສະຖານທີ່ຕົ້ນສະບັບຂອງຕົນ. ພື້ນທີ່ທີ່ບໍ່ມີສະໄຕໄດ້ຖືກຕັ້ງເປັນສີດໍາ.
DualStyleGAN
ມັນເປັນກະດູກສັນຫຼັງສໍາລັບການໂອນຮູບແບບທີ່ອີງໃສ່ຕົວຢ່າງໂດຍອີງໃສ່ StyleGAN. ພວກເຂົາໃຊ້ຂໍ້ມູນດຽວກັນກັບເຕັກນິກກ່ອນການປຸງແຕ່ງແລະຫຼັງການປຸງແຕ່ງເປັນ Toonify.
Pix2pixHD
ມັນເປັນຮູບແບບການແປພາສາຮູບພາບເປັນຮູບພາບທີ່ຖືກນໍາໃຊ້ທົ່ວໄປເພື່ອ condense ແບບຈໍາລອງກ່ອນການຝຶກອົບຮົມສໍາລັບການດັດແກ້ທີ່ມີຄວາມລະອຽດສູງ. ມັນໄດ້ຖືກຝຶກອົບຮົມໂດຍໃຊ້ຂໍ້ມູນຄູ່.
ນັກຄົ້ນຄວ້າໄດ້ນໍາໃຊ້ pix2pixHD ເປັນການປ້ອນຂໍ້ມູນແຜນທີ່ຕົວຢ່າງເພີ່ມເຕີມຂອງມັນນັບຕັ້ງແຕ່ມັນໃຊ້ແຜນທີ່ການວິເຄາະທີ່ສະກັດອອກມາ.
ການເຄື່ອນໄຫວຄໍາສັ່ງທໍາອິດ
FOM ແມ່ນຕົວແບບພາບເຄື່ອນໄຫວແບບປົກກະຕິ. ມັນໄດ້ຖືກຝຶກອົບຮົມກ່ຽວກັບ 256256 ຮູບພາບແລະປະຕິບັດບໍ່ດີກັບຂະຫນາດຮູບພາບອື່ນໆ. ດ້ວຍເຫດນີ້, ນັກຄົ້ນຄວ້າໄດ້ປັບຂະໜາດຂອງເຟຣມວິດີໂອເປັນ 256*256 ສຳລັບ FOM ໃຫ້ເປັນພາບເຄື່ອນໄຫວ ແລະຈາກນັ້ນປັບຂະໜາດຜົນໃຫ້ເປັນຂະໜາດຕົ້ນສະບັບ.
ສໍາລັບການປຽບທຽບທີ່ຍຸຕິທໍາ, FOM ຈ້າງກອບ stylized ທໍາອິດຂອງວິທີການຂອງຕົນເປັນຮູບພາບການອ້າງອິງຂອງຕົນ.
ດາກາ
ມັນເປັນຮູບແບບການເຄື່ອນໄຫວໃບຫນ້າ 3D. ພວກເຂົາໃຊ້ວິທີການກະກຽມຂໍ້ມູນດຽວກັນແລະວິທີການຫລັງການປຸງແຕ່ງເປັນ FOM.
ຂໍ້ດີ
- ມັນສາມາດໄດ້ຮັບການຈ້າງງານໃນສິລະປະ, avatars ສື່ມວນຊົນສັງຄົມ, ຮູບເງົາ, ການໂຄສະນາການບັນເທີງ, ແລະອື່ນໆ.
- Vtoonify ຍັງສາມາດຖືກນໍາໃຊ້ໃນ metaverse ໄດ້.
ຂໍ້ຈໍາກັດ
- ວິທີການນີ້ສະກັດເອົາທັງຂໍ້ມູນແລະຕົວແບບຈາກກະດູກສັນຫຼັງທີ່ອີງໃສ່ StyleGAN, ສົ່ງຜົນໃຫ້ຂໍ້ມູນແລະຄວາມລໍາອຽງຂອງຕົວແບບ.
- ວັດຖຸບູຮານສ່ວນໃຫຍ່ແມ່ນເກີດມາຈາກຄວາມແຕກຕ່າງຂອງຂະຫນາດລະຫວ່າງພາກພື້ນໃບຫນ້າ stylized ແລະພາກສ່ວນອື່ນໆ.
- ຍຸດທະສາດນີ້ແມ່ນປະສົບຜົນສໍາເລັດຫນ້ອຍໃນເວລາທີ່ຈັດການກັບສິ່ງຕ່າງໆໃນພາກພື້ນໃບຫນ້າ.
ສະຫຼຸບ
ສຸດທ້າຍ, VToonify ແມ່ນກອບສໍາລັບ toonification ວິດີໂອທີ່ມີຄວາມລະອຽດສູງຄວບຄຸມຮູບແບບ.
ໂຄງຮ່າງການນີ້ບັນລຸໄດ້ປະສິດທິພາບທີ່ດີໃນການຈັດການວິດີໂອແລະເຮັດໃຫ້ການຄວບຄຸມຢ່າງກວ້າງຂວາງກ່ຽວກັບຮູບແບບໂຄງສ້າງ, ຮູບແບບສີ, ແລະລະດັບຮູບແບບໂດຍການ condensing ຮູບແບບ toonification ຮູບພາບທີ່ອີງໃສ່ StyleGAN ໃນຂໍ້ກໍານົດຂອງທັງສອງຂອງເຂົາເຈົ້າ. ຂໍ້ມູນສັງເຄາະ ແລະໂຄງສ້າງເຄືອຂ່າຍ.
ອອກຈາກ Reply ເປັນ