វាជាកិច្ចការសំខាន់ និងគួរឱ្យចង់បានក្នុងចក្ខុវិស័យកុំព្យូទ័រ និងក្រាហ្វិក ដើម្បីផលិតខ្សែភាពយន្តបែបច្នៃប្រឌិតប្រកបដោយសមត្ថភាពខ្ពស់បំផុត។
ទោះបីជាគំរូដ៏មានប្រសិទ្ធភាពជាច្រើនសម្រាប់ការបំប្លែងរូបភាពបញ្ឈរដោយផ្អែកលើ StyleGAN ដ៏ខ្លាំងក្លាត្រូវបានស្នើឡើងក៏ដោយ បច្ចេកទេសតម្រង់ទិសរូបភាពទាំងនេះមានគុណវិបត្តិច្បាស់លាស់នៅពេលប្រើជាមួយវីដេអូ ដូចជាទំហំស៊ុមថេរ តម្រូវការសម្រាប់ការតម្រឹមមុខ អវត្តមាននៃព័ត៌មានលម្អិតដែលមិនមែនជាទម្រង់មុខ។ និងភាពមិនស៊ីសង្វាក់គ្នាបណ្តោះអាសន្ន។
ក្របខ័ណ្ឌ VToonify បដិវត្តត្រូវបានប្រើដើម្បីដោះស្រាយការផ្ទេរស្ទីលវីដេអូបញ្ឈរដែលមានគុណភាពបង្ហាញខ្ពស់ដែលគ្រប់គ្រងដោយពិបាក។
យើងនឹងពិនិត្យមើលការសិក្សាថ្មីៗបំផុតនៅលើ VToonify នៅក្នុងអត្ថបទនេះ រួមទាំងមុខងារ គុណវិបត្តិ និងកត្តាផ្សេងៗទៀតរបស់វា។
តើ Vtoonify ជាអ្វី?
ក្របខ័ណ្ឌ VToonify អនុញ្ញាតឱ្យមានការបញ្ជូនរចនាប័ទ្មវីដេអូបញ្ឈរកម្រិតខ្ពស់ដែលអាចប្ដូរតាមបំណង។
VToonify ប្រើស្រទាប់កម្រិតមធ្យម និងគុណភាពបង្ហាញខ្ពស់របស់ StyleGAN ដើម្បីបង្កើតរូបភាពសិល្បៈដែលមានគុណភាពខ្ពស់ដោយផ្អែកលើលក្ខណៈមាតិកាពហុមាត្រដ្ឋានដែលទាញយកដោយកម្មវិធីបំប្លែងកូដដើម្បីរក្សាព័ត៌មានលម្អិតនៃស៊ុម។
លទ្ធផលនៃស្ថាបត្យកម្ម convolutional ពេញលេញយកមុខដែលមិនតម្រឹមនៅក្នុងខ្សែភាពយន្តទំហំអថេរជាការបញ្ចូល ដែលបណ្តាលឱ្យមានផ្ទៃមុខទាំងមូលជាមួយនឹងចលនាជាក់ស្តែងនៅក្នុងលទ្ធផល។
ក្របខណ្ឌនេះគឺត្រូវគ្នាជាមួយនឹងគំរូ toonification រូបភាពដែលមានមូលដ្ឋានលើ StyleGAN នាពេលបច្ចុប្បន្ន ដែលអនុញ្ញាតឱ្យពួកវាត្រូវបានពង្រីកទៅជាវីដេអូ toonification និងទទួលមរតកនូវលក្ខណៈទាក់ទាញដូចជាការកែតម្រូវពណ៌ និងអាំងតង់ស៊ីតេតាមបំណង។
នេះ ការសិក្សា ណែនាំការបញ្ជូនបន្តពីរនៃ VToonify ដោយផ្អែកលើ Toonify និង DualStyleGAN សម្រាប់ការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរផ្អែកលើការប្រមូល និងគំរូរៀងៗខ្លួន។
ការរកឃើញពិសោធន៍យ៉ាងទូលំទូលាយបង្ហាញថា ក្របខ័ណ្ឌ VToonify ដែលបានស្នើឡើងមានប្រសិទ្ធភាពជាងវិធីសាស្រ្តដែលមានស្រាប់ក្នុងការផលិតខ្សែភាពយន្តបែបសិល្បៈដែលមានគុណភាពខ្ពស់ និងស្របគ្នាជាបណ្ដោះអាសន្នជាមួយនឹងប៉ារ៉ាម៉ែត្ររចនាប័ទ្មអថេរ។
អ្នកស្រាវជ្រាវផ្តល់ សៀវភៅកត់ត្រា Google Colabដូច្នេះអ្នកអាចធ្វើឱ្យដៃរបស់អ្នកកខ្វក់នៅលើវា។
តើវាដំណើរការយ៉ាងដូចម្តេច?
ដើម្បីសម្រេចបានការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរដែលមានគុណភាពបង្ហាញខ្ពស់ដែលអាចលៃតម្រូវបាន VToonify រួមបញ្ចូលគ្នានូវគុណសម្បត្តិនៃក្របខ័ណ្ឌការបកប្រែរូបភាពជាមួយនឹងក្របខ័ណ្ឌដែលមានមូលដ្ឋានលើ StyleGAN ។
ដើម្បីសម្របតាមទំហំបញ្ចូលខុសៗគ្នា ប្រព័ន្ធបកប្រែរូបភាពប្រើបណ្តាញបំប្លែងយ៉ាងពេញលេញ។ ម៉្យាងវិញទៀតការបណ្តុះបណ្តាលពីទទេ ធ្វើឱ្យការបញ្ជូនរចនាប័ទ្មដែលគ្រប់គ្រងដោយគុណភាពបង្ហាញខ្ពស់ និងមិនអាចគ្រប់គ្រងបាន។
គំរូ StyleGAN ដែលត្រូវបានបណ្តុះបណ្តាលជាមុន ត្រូវបានប្រើនៅក្នុងក្របខ័ណ្ឌដែលមានមូលដ្ឋានលើ StyleGAN សម្រាប់ការផ្ទេររចនាប័ទ្មដែលមានគុណភាពបង្ហាញខ្ពស់ និងការគ្រប់គ្រង ទោះបីជាវាត្រូវបានកំណត់ចំពោះទំហំរូបភាពថេរ និងការបាត់បង់ព័ត៌មានលម្អិតក៏ដោយ។
StyleGAN ត្រូវបានកែប្រែក្នុងក្របខ័ណ្ឌកូនកាត់ដោយលុបមុខងារបញ្ចូលទំហំថេររបស់វា និងស្រទាប់កម្រិតគុណភាពទាប ដែលជាលទ្ធផលមានស្ថាបត្យកម្មម៉ាស៊ីនបំប្លែងបំប្លែងបំប្លែងពេញលេញស្រដៀងនឹងក្របខ័ណ្ឌបកប្រែរូបភាព។
ដើម្បីរក្សាព័ត៌មានលម្អិតអំពីស៊ុម សូមបណ្តុះបណ្តាលឧបករណ៍បំប្លែងកូដដើម្បីទាញយកលក្ខណៈមាតិកាពហុមាត្រដ្ឋាននៃស៊ុមបញ្ចូលដែលជាតម្រូវការមាតិកាបន្ថែមចំពោះម៉ាស៊ីនភ្លើង។ Vtoonify ទទួលមរតកនូវភាពបត់បែននៃការគ្រប់គ្រងរចនាប័ទ្មរបស់ម៉ូដែល StyleGAN ដោយដាក់វាចូលទៅក្នុងម៉ាស៊ីនភ្លើងដើម្បីចម្រាញ់ទាំងទិន្នន័យ និងម៉ូដែលរបស់វា។
ដែនកំណត់នៃ StyleGAN & Vtoonify ដែលបានស្នើឡើង
ការថតរូបបែបសិល្បៈគឺជារឿងធម្មតានៅក្នុងជីវិតប្រចាំថ្ងៃរបស់យើង ក៏ដូចជានៅក្នុងអាជីវកម្មប្រកបដោយភាពច្នៃប្រឌិតដូចជាសិល្បៈ។ ប្រព័ន្ធផ្សព្វផ្សាយសង្គម រូបតំណាង ភាពយន្ត ការផ្សាយពាណិជ្ជកម្មកម្សាន្ត និងអ្វីៗផ្សេងទៀត។
ជាមួយនឹងការអភិវឌ្ឍនៃ ការរៀនសូត្រជ្រៅ បច្ចេកវិទ្យា ឥឡូវនេះ វាអាចបង្កើតរូបភាពសិល្បៈដែលមានគុណភាពខ្ពស់ពីរូបថតមុខជីវិតពិត ដោយប្រើការផ្ទេររចនាប័ទ្មបញ្ឈរដោយស្វ័យប្រវត្តិ។
មានវិធីជោគជ័យជាច្រើនដែលត្រូវបានបង្កើតឡើងសម្រាប់ការផ្ទេររចនាប័ទ្មផ្អែកលើរូបភាព ដែលភាគច្រើនអាចចូលដំណើរការបានយ៉ាងងាយស្រួលសម្រាប់អ្នកប្រើប្រាស់ដំបូងក្នុងទម្រង់នៃកម្មវិធីទូរស័ព្ទ។ សម្ភារៈវីដេអូបានក្លាយជាចំណុចសំខាន់នៃព័ត៌មានប្រព័ន្ធផ្សព្វផ្សាយសង្គមរបស់យើងយ៉ាងឆាប់រហ័សក្នុងរយៈពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ។
ការកើនឡើងនៃបណ្តាញទំនាក់ទំនងសង្គម និងខ្សែភាពយន្តដែលមានភាពច្របូកច្របល់បានបង្កើនតម្រូវការសម្រាប់ការកែសម្រួលវីដេអូប្រកបដោយភាពច្នៃប្រឌិត ដូចជាការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរ ដើម្បីបង្កើតវីដេអូដែលទទួលបានជោគជ័យ និងគួរឱ្យចាប់អារម្មណ៍។
បច្ចេកទេសតម្រង់ទិសរូបភាពដែលមានស្រាប់មានគុណវិបត្តិយ៉ាងសំខាន់នៅពេលអនុវត្តចំពោះភាពយន្ត ដោយកំណត់អត្ថប្រយោជន៍របស់វានៅក្នុងការកំណត់រចនាប័ទ្មវីដេអូបញ្ឈរដោយស្វ័យប្រវត្តិ។
StyleGAN គឺជាឆ្អឹងខ្នងទូទៅសម្រាប់បង្កើតគំរូផ្ទេររចនាប័ទ្មរូបភាពបញ្ឈរ ដោយសារសមត្ថភាពរបស់វាក្នុងការបង្កើតមុខដែលមានគុណភាពខ្ពស់ជាមួយនឹងការគ្រប់គ្រងរចនាប័ទ្មដែលអាចលៃតម្រូវបាន។
ប្រព័ន្ធដែលមានមូលដ្ឋានលើ StyleGAN (ត្រូវបានគេស្គាល់ថាជារូបភាព toonification) អ៊ិនកូដមុខពិតទៅក្នុងលំហរសម្ងាត់ StyleGAN ហើយបន្ទាប់មកអនុវត្តកូដរចនាប័ទ្មលទ្ធផលទៅ StyleGAN មួយផ្សេងទៀតដែលបានកែសម្រួលយ៉ាងល្អិតល្អន់នៅលើសំណុំទិន្នន័យរូបភាពសិល្បៈដើម្បីបង្កើតកំណែទាន់សម័យ។
StyleGAN បង្កើតរូបភាពជាមួយនឹងមុខដែលតម្រឹម និងក្នុងទំហំថេរ ដែលមិនអនុគ្រោះដល់មុខដែលមានចលនានៅក្នុងវីដេអូពិភពពិត។ ការច្រឹបមុខ និងការតម្រឹមនៅក្នុងវីដេអូ ជួនកាលបណ្តាលឱ្យមានមុខផ្នែកមួយ និងកាយវិការឆ្គង។ អ្នកស្រាវជ្រាវហៅបញ្ហានេះថា 'ការរឹតបន្តឹងដំណាំថេរ' របស់ StyleGAN ។
សម្រាប់មុខមិនតម្រឹម StyleGAN3 ត្រូវបានស្នើឡើង។ ទោះយ៉ាងណាក៏ដោយ វាគាំទ្រតែទំហំរូបភាពដែលបានកំណត់ប៉ុណ្ណោះ។
លើសពីនេះ ការសិក្សាថ្មីៗនេះបានរកឃើញថាការអ៊ិនកូដមុខមិនតម្រឹមគឺពិបាកជាងមុខដែលតម្រឹម។ ការអ៊ិនកូដមុខមិនត្រឹមត្រូវគឺមានគ្រោះថ្នាក់ដល់ការផ្ទេររចនាប័ទ្មបញ្ឈរ ដែលបណ្តាលឱ្យមានបញ្ហាដូចជាការកែប្រែអត្តសញ្ញាណ និងការបាត់សមាសធាតុនៅក្នុងស៊ុមដែលបានបង្កើតឡើងវិញ និងរចនាប័ទ្ម។
ដូចដែលបានពិភាក្សា បច្ចេកទេសដ៏មានប្រសិទ្ធភាពសម្រាប់ការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរត្រូវតែដោះស្រាយបញ្ហាខាងក្រោម៖
- ដើម្បីរក្សាចលនាជាក់ស្តែង វិធីសាស្រ្តត្រូវតែអាចដោះស្រាយជាមួយនឹងមុខមិនតម្រឹម និងទំហំវីដេអូខុសៗគ្នា។ ទំហំវីដេអូធំ ឬទិដ្ឋភាពធំទូលាយអាចថតយកព័ត៌មានបន្ថែមខណៈពេលដែលរក្សាមុខមិនឱ្យចេញពីស៊ុម។
- ដើម្បីប្រកួតប្រជែងជាមួយឧបករណ៍ HD ដែលប្រើជាទូទៅនាពេលបច្ចុប្បន្ននេះ វីដេអូដែលមានគុណភាពបង្ហាញខ្ពស់គឺចាំបាច់។
- ការគ្រប់គ្រងរចនាប័ទ្មដែលអាចបត់បែនបានគួរតែត្រូវបានផ្តល់ជូនសម្រាប់អ្នកប្រើប្រាស់ដើម្បីផ្លាស់ប្តូរ និងជ្រើសរើសជម្រើសរបស់ពួកគេនៅពេលបង្កើតប្រព័ន្ធអន្តរកម្មអ្នកប្រើប្រាស់ជាក់ស្តែង។
ចំពោះគោលបំណងនោះ អ្នកស្រាវជ្រាវស្នើឱ្យ VToonify ដែលជាក្របខ័ណ្ឌកូនកាត់ប្រលោមលោកសម្រាប់ការបំប្លែងវីដេអូ។ ដើម្បីជំនះឧបសគ្គដំណាំថេរ អ្នកស្រាវជ្រាវដំបូងសិក្សាអំពីភាពស្មើគ្នានៃការបកប្រែនៅក្នុង StyleGAN ។
VToonify រួមបញ្ចូលគ្នានូវអត្ថប្រយោជន៍នៃស្ថាបត្យកម្មដែលមានមូលដ្ឋានលើ StyleGAN និងក្របខ័ណ្ឌបកប្រែរូបភាព ដើម្បីសម្រេចបាននូវការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរដែលមានគុណភាពបង្ហាញខ្ពស់ដែលអាចលៃតម្រូវបាន។
ខាងក្រោមនេះគឺជាការរួមចំណែកដ៏សំខាន់៖
- អ្នកស្រាវជ្រាវស៊ើបអង្កេតលើឧបសគ្គដំណាំថេររបស់ StyleGAN ហើយស្នើដំណោះស្រាយដោយផ្អែកលើភាពស្មើគ្នានៃការបកប្រែ។
- អ្នកស្រាវជ្រាវបង្ហាញនូវក្របខ័ណ្ឌ VToonify ដែលមានលក្ខណៈពេញលេញតែមួយគត់សម្រាប់ការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរដែលមានគុណភាពបង្ហាញខ្ពស់ដែលបានគ្រប់គ្រង ដែលគាំទ្រមុខមិនតម្រឹម និងទំហំវីដេអូខុសៗគ្នា។
- អ្នកស្រាវជ្រាវបានសាងសង់ VToonify នៅលើឆ្អឹងខ្នងរបស់ Toonify និង DualStyleGAN ហើយបង្រួមឆ្អឹងខ្នងទាំងផ្នែកទិន្នន័យ និងគំរូ ដើម្បីអនុញ្ញាតការផ្ទេររចនាប័ទ្មវីដេអូបញ្ឈរផ្អែកលើការប្រមូល និងគំរូ។
ការប្រៀបធៀប Vtoonify ជាមួយម៉ូដែលទំនើបផ្សេងទៀត។
ធ្វើឱ្យច្បាស់
វាបម្រើជាមូលដ្ឋានគ្រឹះសម្រាប់ការផ្ទេររចនាប័ទ្មផ្អែកលើការប្រមូលនៅលើមុខដែលបានតម្រឹមដោយប្រើ StyleGAN ។ ដើម្បីទាញយកកូដរចនាប័ទ្ម អ្នកស្រាវជ្រាវត្រូវតែតម្រឹមមុខ និងច្រឹបរូបថត 256256 សម្រាប់ PSP ។ Toonify ត្រូវបានប្រើដើម្បីបង្កើតលទ្ធផលទាន់សម័យជាមួយនឹងលេខកូដរចនាប័ទ្ម 1024*1024 ។
ជាចុងក្រោយ ពួកគេតម្រឹមលទ្ធផលនៅក្នុងវីដេអូឡើងវិញទៅទីតាំងដើមរបស់វា។ តំបន់ដែលមិនមានរចនាប័ទ្មត្រូវបានកំណត់ទៅជាពណ៌ខ្មៅ។
DualStyleGAN
វាគឺជាឆ្អឹងខ្នងសម្រាប់ការផ្ទេររចនាប័ទ្មដែលមានមូលដ្ឋានលើគំរូដោយផ្អែកលើ StyleGAN ។ ពួកគេប្រើបច្ចេកទេសទិន្នន័យមុន និងក្រោយដំណើរការដូចគ្នានឹង Toonify ។
Pix2pixHD
វាជាគំរូបកប្រែរូបភាពមួយទៅរូបភាពដែលត្រូវបានប្រើជាទូទៅដើម្បីបង្រួមគំរូដែលបានបណ្តុះបណ្តាលជាមុនសម្រាប់ការកែសម្រួលគុណភាពខ្ពស់។ វាត្រូវបានបណ្តុះបណ្តាលដោយប្រើទិន្នន័យដែលបានផ្គូផ្គង។
អ្នកស្រាវជ្រាវប្រើប្រាស់ pix2pixHD ជាធាតុបញ្ចូលផែនទីឧទាហរណ៍របស់វា ចាប់តាំងពីវាប្រើផែនទីញែកដែលបានស្រង់ចេញ។
ចលនាលំដាប់ទីមួយ
FOM គឺជាគំរូចលនារូបភាពធម្មតា។ វាត្រូវបានបណ្តុះបណ្តាលលើរូបភាព 256256 និងដំណើរការមិនល្អជាមួយនឹងទំហំរូបភាពផ្សេងទៀត។ ជាលទ្ធផល អ្នកស្រាវជ្រាវដំបូងធ្វើមាត្រដ្ឋានស៊ុមវីដេអូទៅ 256*256 សម្រាប់ FOM ទៅជាចលនា ហើយបន្ទាប់មកប្តូរទំហំលទ្ធផលទៅទំហំដើមរបស់វា។
សម្រាប់ការប្រៀបធៀបដោយយុត្តិធម៌ FOM ប្រើប្រាស់ស៊ុមរចនាប័ទ្មដំបូងនៃវិធីសាស្រ្តរបស់វាជារូបភាពរចនាប័ទ្មយោងរបស់វា។
ដាកាន
វាជាគំរូចលនាមុខ 3D។ ពួកគេប្រើវិធីរៀបចំទិន្នន័យដូចគ្នា និងវិធីសាស្ត្រក្រោយដំណើរការដូច FOM ។
គុណសម្បត្តិ
- វាអាចត្រូវបានគេប្រើប្រាស់ក្នុងវិស័យសិល្បៈ រូបតំណាងប្រព័ន្ធផ្សព្វផ្សាយសង្គម ភាពយន្ត ការផ្សាយពាណិជ្ជកម្មកម្សាន្តជាដើម។
- Vtoonify ក៏អាចត្រូវបានប្រើប្រាស់នៅក្នុង metaverse ផងដែរ។
ដែនកំណត់
- វិធីសាស្រ្តនេះទាញយកទាំងទិន្នន័យ និងគំរូពីឆ្អឹងខ្នងដែលមានមូលដ្ឋានលើ StyleGAN ដែលបណ្តាលឱ្យមានទិន្នន័យ និងគំរូលំអៀង។
- វត្ថុបុរាណភាគច្រើនបណ្តាលមកពីភាពខុសគ្នានៃទំហំរវាងតំបន់មុខដែលមានរចនាប័ទ្ម និងផ្នែកផ្សេងទៀត។
- យុទ្ធសាស្ត្រនេះមិនសូវជោគជ័យទេ នៅពេលដោះស្រាយរឿងនៅក្នុងតំបន់ប្រឈមមុខ។
សន្និដ្ឋាន
ជាចុងក្រោយ VToonify គឺជាក្របខ័ណ្ឌមួយសម្រាប់ការកំណត់រចនាប័ទ្មវីដេអូដែលមានគុណភាពបង្ហាញខ្ពស់ដែលគ្រប់គ្រងដោយរចនាប័ទ្ម។
ក្របខ័ណ្ឌនេះសម្រេចបាននូវការអនុវត្តដ៏អស្ចារ្យក្នុងការដោះស្រាយវីដេអូ និងអនុញ្ញាតឱ្យមានការគ្រប់គ្រងយ៉ាងទូលំទូលាយលើរចនាសម្ព័ន រចនាប័ទ្មពណ៌ និងកម្រិតរចនាប័ទ្មដោយ condensing គំរូ toonification រូបភាពដែលមានមូលដ្ឋានលើ StyleGAN នៅក្នុងលក្ខខណ្ឌនៃទាំងពីររបស់ពួកគេ ទិន្នន័យសំយោគ និងរចនាសម្ព័ន្ធបណ្តាញ។
សូមផ្ដល់យោបល់