អ្នកប្រហែលជាធ្លាប់បានឮអំពីរបៀបដែលគំរូ AI អត្ថបទទៅរូបភាពដ៏មានឥទ្ធិពលបានក្លាយទៅជាក្នុងរយៈពេលពីរបីឆ្នាំកន្លងមកនេះ។ ប៉ុន្តែតើអ្នកដឹងទេថាបច្ចេកវិទ្យាដូចគ្នានេះអាចជួយឱ្យលោតពី 2D ទៅ 3D?
ម៉ូដែល 3D ដែលបង្កើតដោយ AI មានករណីប្រើប្រាស់យ៉ាងទូលំទូលាយនៅក្នុងទិដ្ឋភាពឌីជីថលនាពេលបច្ចុប្បន្ននេះ។ វីដេអូហ្គេម ហើយខ្សែភាពយន្តពឹងផ្អែកលើសិល្បករ 3D ដែលមានជំនាញ និងកម្មវិធីគំរូដូចជា Blender ដើម្បីបង្កើតទ្រព្យសម្បត្តិ 3D ដើម្បីបញ្ចូលឈុតឆាកដែលបង្កើតដោយកុំព្យូទ័រ។
ទោះជាយ៉ាងណាក៏ដោយ តើវាអាចទៅរួចទេដែលថាឧស្សាហកម្មនេះអាចប្រើការរៀនម៉ាស៊ីនដើម្បីបង្កើតទ្រព្យសម្បត្តិ 3D ដោយមានការខិតខំប្រឹងប្រែងតិច ស្រដៀងទៅនឹងរបៀបដែលសិល្បករ 2D សព្វថ្ងៃនេះកំពុងចាប់ផ្តើមទទួលយកបច្ចេកវិទ្យាដូចជា DALL-E និង ពាក់កណ្តាលដំណើរ?
អត្ថបទនេះនឹងស្វែងយល់អំពីក្បួនដោះស្រាយប្រលោមលោកដែលព្យាយាមបង្កើតគំរូអត្ថបទទៅ 3D ដែលមានប្រសិទ្ធភាពដោយប្រើដែលមានស្រាប់ ម៉ូដែលចែកចាយ.
តើអ្វីជា ក្តីស្រមៃ?
បញ្ហាចម្បងមួយជាមួយការបង្កើតគំរូចែកចាយដែលបង្កើតទ្រព្យសម្បត្តិ 3D ដោយផ្ទាល់គឺថាមិនមានទិន្នន័យ 3D ច្រើនទេ។ ម៉ូដែល 2D diffusion មានថាមពលខ្លាំង ដោយសារតែសំណុំទិន្នន័យដ៏ធំនៃរូបភាពដែលបានរកឃើញនៅលើអ៊ីនធឺណិត។ មិនអាចនិយាយដូចគ្នាជាមួយនឹងទ្រព្យសម្បត្តិ 3D បានទេ។
បច្ចេកទេសបង្កើត 3D មួយចំនួនដំណើរការជុំវិញការខ្វះខាតទិន្នន័យនេះ ដោយទាញយកអត្ថប្រយោជន៍ពីទិន្នន័យ 2D ដ៏សម្បូរបែបនេះ។
DreamFusion គឺជាគំរូទូទៅដែលអាចបង្កើតគំរូ 3D ដោយផ្អែកលើការពិពណ៌នាអត្ថបទដែលបានផ្តល់។ គំរូ DreamFusion ប្រើគំរូផ្សព្វផ្សាយពីអត្ថបទមួយទៅរូបភាពដែលបានបណ្តុះបណ្តាលជាមុន ដើម្បីបង្កើតគំរូបីវិមាត្រពិតប្រាកដពីប្រអប់បញ្ចូលអត្ថបទ។
ទោះបីជាមិនមានទិន្នន័យបណ្តុះបណ្តាល 3D ក៏ដោយ វិធីសាស្រ្តនេះបានបង្កើតទ្រព្យសម្បត្តិ 3D ជាប់គ្នាជាមួយនឹងរូបរាង និងជម្រៅនៃភាពស្មោះត្រង់ខ្ពស់។
តើវាដំណើរការយ៉ាងដូចម្តេច?
ក្បួនដោះស្រាយ DreamFusion មានគំរូសំខាន់ពីរ៖ គំរូ 2D diffusion និង a បណ្តាញសរសៃប្រសាទ ដែលអាចបំប្លែងរូបភាព 2D ទៅជាឈុត 3D ដ៏ស្អិតរមួត។
គំរូអត្ថបទទៅរូបភាពរបស់ Google
ផ្នែកដំបូងនៃក្បួនដោះស្រាយគឺជាគំរូនៃការសាយភាយ។ គំរូនេះទទួលខុសត្រូវចំពោះការបំប្លែងអត្ថបទទៅជារូបភាព។
Imagen គឺជាគំរូនៃការសាយភាយដែលអាចបង្កើតគំរូដ៏ធំនៃបំរែបំរួលរូបភាពនៃវត្ថុជាក់លាក់មួយ។ ក្នុងករណីនេះ បំរែបំរួលរូបភាពរបស់យើងគួរតែគ្របដណ្តប់គ្រប់មុំដែលអាចធ្វើបាននៃវត្ថុដែលបានផ្តល់។ ឧទាហរណ៍ ប្រសិនបើយើងចង់បង្កើតគំរូ 3D នៃសេះ យើងនឹងចង់បានរូបភាព 2D របស់សេះពីគ្រប់មុំដែលអាចធ្វើទៅបាន។ គោលដៅគឺប្រើប្រាស់ Imagen ដើម្បីផ្តល់ព័ត៌មានឱ្យបានច្រើនតាមដែលអាចធ្វើទៅបាន (ពណ៌ ការឆ្លុះបញ្ចាំង ដង់ស៊ីតេ) សម្រាប់គំរូបន្ទាប់នៅក្នុងក្បួនដោះស្រាយរបស់យើង។
ការបង្កើតគំរូ 3D ជាមួយ NeRF
បន្ទាប់មក Dreamfusion ប្រើគំរូដែលគេស្គាល់ថា a វាលរស្មីនៃសរសៃប្រសាទ ឬ NeRF ដើម្បីបង្កើតគំរូ 3D ពីសំណុំរូបភាពដែលបានបង្កើត។ NeRFs អាចបង្កើតឈុត 3D ស្មុគ្រស្មាញដែលបានផ្តល់ឱ្យសំណុំទិន្នន័យនៃរូបភាព 2D ។
ចូរយើងព្យាយាមយល់ពីរបៀបដែល NeRF ដំណើរការ។
គំរូនេះមានគោលបំណងបង្កើតមុខងារឈុតឆាកកម្រិតសំឡេងបន្តដែលធ្វើឱ្យប្រសើរឡើងពីសំណុំទិន្នន័យដែលបានផ្តល់នៃរូបភាព 2D ។
ប្រសិនបើគំរូបង្កើតមុខងារមួយ តើការបញ្ចូល និងទិន្នផលជាអ្វី?
មុខងារឈុតថតក្នុងទីតាំង 3D និងទិសដៅមើល 2D ជាការបញ្ចូល។ បន្ទាប់មកមុខងារនេះបញ្ចេញពណ៌មួយ (ក្នុងទម្រង់ RGB) និងដង់ស៊ីតេបរិមាណជាក់លាក់។
ដើម្បីបង្កើតរូបភាព 2D ពីទិដ្ឋភាពជាក់លាក់មួយ គំរូនឹងបង្កើតសំណុំនៃចំណុច 3D ហើយដំណើរការចំណុចទាំងនោះតាមរយៈមុខងារកន្លែងកើតហេតុ ដើម្បីត្រឡប់សំណុំនៃពណ៌ និងតម្លៃដង់ស៊ីតេកម្រិតសំឡេង។ បន្ទាប់មក បច្ចេកទេសបង្ហាញកម្រិតសំឡេងនឹងបំប្លែងតម្លៃទាំងនោះទៅជាលទ្ធផលរូបភាព 2D។
ការប្រើប្រាស់ NeRF និង 2D Diffusion Models រួមគ្នា
ឥឡូវនេះយើងដឹងពីរបៀបដែល NeRF ដំណើរការ សូមមើលពីរបៀបដែលគំរូនេះអាចបង្កើតគំរូ 3D ត្រឹមត្រូវពីរូបភាពដែលបានបង្កើតរបស់យើង។
សម្រាប់ប្រអប់បញ្ចូលអត្ថបទនីមួយៗ DreamFusion បណ្តុះបណ្តាល NeRF ដែលចាប់ផ្តើមដោយចៃដន្យពីដំបូង។ ការធ្វើម្តងទៀតនីមួយៗជ្រើសរើសទីតាំងកាមេរ៉ាចៃដន្យនៅក្នុងសំណុំនៃកូអរដោនេស្វ៊ែរ។ សូមគិតអំពីគំរូដែលដាក់ក្នុងរង្វង់កញ្ចក់។ រាល់ពេលដែលយើងបង្កើតរូបភាពថ្មីនៃគំរូ 3D របស់យើង យើងនឹងជ្រើសរើសចំនុចចៃដន្យមួយនៅក្នុងរង្វង់របស់យើងជាចំនុចសំខាន់នៃលទ្ធផលរបស់យើង។ DreamFusion ក៏នឹងជ្រើសរើសទីតាំងពន្លឺចៃដន្យផងដែរ។ l ដើម្បីប្រើសម្រាប់ការបង្ហាញ។
នៅពេលដែលយើងមានកាមេរ៉ា និងទីតាំងពន្លឺ ម៉ូដែល NeRF នឹងត្រូវបានបង្ហាញ។ DreamFusion ក៏នឹងជ្រើសរើសដោយចៃដន្យរវាងពណ៌ render, textureless render, និង rendering of the albedo ដោយគ្មានស្រមោលណាមួយឡើយ។
យើងបាននិយាយមុននេះថា យើងចង់ឱ្យគំរូអត្ថបទទៅរូបភាពរបស់យើង (Imagen) ផលិតរូបភាពគ្រប់គ្រាន់ដើម្បីបង្កើតគំរូតំណាង។
តើ Dreamfusion សម្រេចបាននេះដោយរបៀបណា?
Dreamfusion គ្រាន់តែកែប្រែប្រអប់បញ្ចូលបន្តិចបន្តួចដើម្បីសម្រេចបានមុំដែលចង់បាន។ ឧទាហរណ៍ យើងអាចសម្រេចបានមុំកម្ពស់ខ្ពស់ដោយបន្ថែម "ទិដ្ឋភាពលើក្បាល" ទៅប្រអប់បញ្ចូលរបស់យើង។ យើងអាចបង្កើតមុំផ្សេងទៀតដោយបន្ថែមឃ្លាដូចជា "ទិដ្ឋភាពខាងមុខ" "ទិដ្ឋភាពចំហៀង" និង "ទិដ្ឋភាពខាងក្រោយ"។
ឈុតត្រូវបានបង្ហាញម្តងហើយម្តងទៀតពីទីតាំងកាមេរ៉ាចៃដន្យ។ ការបង្ហាញទាំងនេះបន្ទាប់មកឆ្លងកាត់មុខងារការបាត់បង់ពិន្ទុ។ វិធីសាស្រ្តចុះជម្រាលដ៏សាមញ្ញមួយនឹងធ្វើអោយប្រសើរឡើងបន្តិចម្តងៗ ម៉ូដែល 3D រហូតទាល់តែវាត្រូវគ្នានឹងទិដ្ឋភាពដែលបានពិពណ៌នាដោយអត្ថបទ។
នៅពេលដែលយើងបង្ហាញគំរូ 3D ដោយប្រើ NeRF យើងអាចប្រើវាបាន ក្បួនដោះស្រាយ Marching Cubes ដើម្បីបញ្ចេញសំណាញ់ 3D នៃគំរូរបស់យើង។ សំណាញ់នេះអាចត្រូវបាននាំចូលទៅក្នុងកម្មវិធីបង្ហាញ 3D ដ៏ពេញនិយម ឬកម្មវិធីគំរូ។
ដែនកំណត់
ខណៈពេលដែលលទ្ធផលរបស់ DreamFusion គឺគួរឱ្យចាប់អារម្មណ៍គ្រប់គ្រាន់ ចាប់តាំងពីវាប្រើគំរូផ្សព្វផ្សាយពីអត្ថបទទៅរូបភាពដែលមានស្រាប់តាមរបៀបថ្មី អ្នកស្រាវជ្រាវបានកត់សម្គាល់ពីដែនកំណត់មួយចំនួន។
មុខងារបាត់បង់ SDS ត្រូវបានគេសង្កេតឃើញដើម្បីផ្តល់លទ្ធផលដែលឆ្អែតឆ្អន់ និងហួសកម្រិត។ អ្នកអាចសង្កេតឃើញវានៅក្នុងពណ៌ខុសពីធម្មជាតិ និងកង្វះព័ត៌មានលម្អិតច្បាស់លាស់ដែលរកឃើញនៅក្នុងលទ្ធផល។
ក្បួនដោះស្រាយ DreamFusion ត្រូវបានកំណត់ផងដែរដោយគុណភាពបង្ហាញនៃរូបភាពម៉ូដែល Imagen ដែលមានទំហំ 64 x 64 ភីកសែល។ នេះនាំឱ្យម៉ូដែលសំយោគខ្វះព័ត៌មានលំអិត។
ជាចុងក្រោយ អ្នកស្រាវជ្រាវបានកត់សម្គាល់ថា មានការប្រឈមជាប់គ្នាក្នុងការសំយោគគំរូ 3D ពីទិន្នន័យ 2D ។ មានគំរូ 3D ជាច្រើនដែលយើងអាចបង្កើតបានពីសំណុំនៃរូបភាព 2D ដែលធ្វើឱ្យការបង្កើនប្រសិទ្ធភាពពិតជាពិបាក និងសូម្បីតែមិនច្បាស់លាស់។
សន្និដ្ឋាន
ការបង្ហាញរូបភាព 3D របស់ DreamFusion ដំណើរការបានយ៉ាងល្អដោយសារតែសមត្ថភាពនៃគំរូផ្សព្វផ្សាយពីអត្ថបទទៅរូបភាពក្នុងការបង្កើតវត្ថុឬទិដ្ឋភាពណាមួយ។ វាគួរឱ្យចាប់អារម្មណ៍ពីរបៀបដែលបណ្តាញសរសៃប្រសាទអាចយល់ពីទិដ្ឋភាពមួយនៅក្នុងលំហ 3D ដោយមិនមានទិន្នន័យហ្វឹកហាត់ 3D ណាមួយឡើយ។ ខ្ញុំសូមណែនាំឱ្យអាន ក្រដាសទាំងមូល ដើម្បីស្វែងយល់បន្ថែមអំពីព័ត៌មានលម្អិតបច្ចេកទេសនៃក្បួនដោះស្រាយ DreamFusion ។
សង្ឃឹមថាបច្ចេកវិទ្យានេះនឹងប្រសើរឡើងដើម្បីបង្កើតគំរូ 3D ជាក់ស្តែងនៃរូបថត។ ស្រមៃមើលវីដេអូហ្គេមទាំងមូល ឬការក្លែងធ្វើដែលប្រើបរិស្ថានដែលបង្កើតដោយ AI ។ វាអាចកាត់បន្ថយរបាំងនៃការចូលសម្រាប់អ្នកបង្កើតវីដេអូហ្គេមដើម្បីបង្កើតពិភព 3D ដ៏អស្ចារ្យ!
តើអ្នកគិតថាគំរូអត្ថបទទៅ 3D នឹងដើរតួនាទីអ្វីនាពេលអនាគត?
សូមផ្ដល់យោបល់