DALL-E 2 vs Imagen - រូបភាព និងសិល្បៈដែលបង្កើតដោយ AI

មាតិកា[លាក់][បង្ហាញ]

តើការបង្កើតអត្ថបទទៅរូបភាពគឺជាអ្វី?
តើ DALLE 2 ជាអ្វី?+-
- តើវាដំណើរការយ៉ាងដូចម្តេច?
- ដែនកំណត់
តើ Google Imagen AI ជាអ្វី?+-
- តើវាដំណើរការយ៉ាងដូចម្តេច?
ការសម្តែងរបស់ DALLE 2 vs Imagen
សន្និដ្ឋាន

ក្នុងរយៈពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ គំរូសិក្សាស៊ីជម្រៅបានកាន់តែមានប្រសិទ្ធភាពក្នុងការយល់ដឹងអំពីភាសារបស់មនុស្ស។

គិតអំពីគម្រោងដូចជា GPT-3ដែលឥឡូវនេះអាចបង្កើតអត្ថបទ និងគេហទំព័រទាំងមូល។ GitHub បានណែនាំថ្មីៗនេះ GitHub Copilotសេវាកម្មដែលផ្តល់ព័ត៌មានសង្ខេបនៃកូដទាំងមូលដោយគ្រាន់តែពិពណ៌នាអំពីប្រភេទនៃកូដដែលអ្នកត្រូវការ។

អ្នកស្រាវជ្រាវនៅ OpenAI, Facebook និង Google បាននិងកំពុងធ្វើការលើមធ្យោបាយដើម្បីប្រើប្រាស់ការរៀនសូត្រយ៉ាងស៊ីជម្រៅ ដើម្បីដោះស្រាយកិច្ចការមួយផ្សេងទៀត៖ ការដាក់ចំណងជើងរូបភាព។ ដោយប្រើសំណុំទិន្នន័យធំជាមួយនឹងធាតុរាប់លាន ពួកគេបានមកជាមួយនឹងមួយចំនួន ការភ្ញាក់ផ្អើល លទ្ធផល.

ថ្មីៗនេះ អ្នកស្រាវជ្រាវទាំងនេះបានព្យាយាមអនុវត្តកិច្ចការផ្ទុយគ្នា៖ បង្កើតរូបភាពពីចំណងជើង។ តើឥឡូវអាចបង្កើតរូបភាពថ្មីទាំងស្រុងចេញពីការពិពណ៌នាបានទេ?

មគ្គុទ្ទេសក៍នេះនឹងស្វែងយល់ពីគំរូអត្ថបទទៅរូបភាពកម្រិតខ្ពស់បំផុតពីរ៖ DALL-E 2 របស់ OpenAI និង Imagen AI របស់ Google ។ គម្រោងនីមួយៗទាំងនេះបានណែនាំពីវិធីសាស្ត្រដែលអាចនឹងផ្លាស់ប្តូរសង្គមដូចដែលយើងដឹង។

ប៉ុន្តែជាដំបូង ចូរយើងយល់ពីអត្ថន័យនៃការបង្កើតអត្ថបទទៅរូបភាព។

តើការបង្កើតអត្ថបទទៅរូបភាពគឺជាអ្វី?

គំរូអត្ថបទទៅរូបភាព អនុញ្ញាតឱ្យកុំព្យូទ័របង្កើតរូបភាពថ្មី និងប្លែកដោយផ្អែកលើការជម្រុញ។ ឥឡូវនេះ មនុស្សអាចផ្តល់នូវការពិពណ៌នាអត្ថបទនៃរូបភាពដែលពួកគេចង់ផលិត ហើយគំរូនឹងព្យាយាមបង្កើតរូបភាពដែលផ្គូផ្គងនឹងការពិពណ៌នានោះឱ្យជិតបំផុតតាមដែលអាចធ្វើទៅបាន។

គំរូសិក្សារបស់ម៉ាស៊ីនបានបង្កើនការប្រើប្រាស់សំណុំទិន្នន័យធំដែលមានគូចំណងជើងរូបភាព ដើម្បីកែលម្អការអនុវត្តបន្ថែមទៀត។

អត្ថបទទៅរូបភាពភាគច្រើន ម៉ូដែលប្រើគំរូភាសាប្លែង ដើម្បីបកស្រាយការជម្រុញ។ ប្រភេទនៃគំរូនេះគឺ ក បណ្តាញសរសៃប្រសាទ ដែលព្យាយាមរៀនបរិបទ និងអត្ថន័យនៃភាសាធម្មជាតិ។

បន្ទាប់មកគឺម៉ូដែលទូទៅដូចជា ម៉ូដែលចែកចាយ និងបណ្តាញសត្រូវទូទៅត្រូវបានប្រើសម្រាប់ការសំយោគរូបភាព។

តើ DALLE 2 ជាអ្វី?

DALL-E 2 បង្កើតរូបភាព និងសិល្បៈជាក់ស្តែង

DALL-E2 គឺជាគំរូកុំព្យូទ័រដោយ OpenAI ដែលត្រូវបានចេញផ្សាយក្នុងខែមេសា ឆ្នាំ 2022។ គំរូនេះត្រូវបានបណ្តុះបណ្តាលលើមូលដ្ឋានទិន្នន័យនៃរូបភាពរាប់លានសន្លឹក ដើម្បីភ្ជាប់ពាក្យ និងឃ្លាទៅកាន់រូបភាព។

អ្នកប្រើអាចវាយឃ្លាសាមញ្ញមួយដូចជា "ឆ្មាស៊ីឡាសាណា" ហើយ DALL-E 2 នឹងបង្កើតការបកស្រាយរបស់វាអំពីអ្វីដែលឃ្លានេះកំពុងព្យាយាមពណ៌នា។

ក្រៅពីការបង្កើតរូបភាពពីទទេ DALL-E 2 ក៏អាចកែសម្រួលរូបភាពដែលមានស្រាប់ផងដែរ។ នៅក្នុងឧទាហរណ៍ខាងក្រោម DALL-E អាចបង្កើតរូបភាពដែលបានកែប្រែនៃបន្ទប់ជាមួយនឹងសាឡុងបន្ថែម។

DALL-E 2 អាចកែសម្រួលរូបភាពដែលមានស្រាប់

DALL-E 2 គឺគ្រាន់តែជាគម្រោងមួយក្នុងចំណោមគម្រោងស្រដៀងគ្នាជាច្រើនដែល OpenAI បានចេញផ្សាយក្នុងរយៈពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ។ GPT-3 របស់ OpenAI បានក្លាយជាព័ត៌មានគួរឱ្យចាប់អារម្មណ៍នៅពេលដែលវាហាក់ដូចជាបង្កើតអត្ថបទនៃរចនាប័ទ្មខុសៗគ្នា។

បច្ចុប្បន្ន DALL-E 2 នៅតែស្ថិតក្នុងការសាកល្បងបេតា។ អ្នកប្រើប្រាស់ដែលចាប់អារម្មណ៍អាចចុះឈ្មោះសម្រាប់ពួកគេ។ បញ្ជីរង់ចាំ ហើយរង់ចាំការចូលប្រើ។

តើវាដំណើរការយ៉ាងដូចម្តេច?

ខណៈពេលដែលលទ្ធផលនៃ DALL-E 2 គួរឱ្យចាប់អារម្មណ៍ អ្នកប្រហែលជាឆ្ងល់ថាតើវាដំណើរការយ៉ាងដូចម្តេច។

DALL-E 2 គឺជាឧទាហរណ៍នៃការអនុវត្តពហុមុខងារនៃគម្រោង GPT-3 របស់ OpenAI ។

ទិដ្ឋភាពទូទៅនៃស្ថាបត្យកម្ម DALL-E 2

ទីមួយ ប្រអប់បញ្ចូលអត្ថបទរបស់អ្នកប្រើត្រូវបានដាក់ចូលទៅក្នុងឧបករណ៍បំប្លែងអត្ថបទដែលផ្គូផ្គងប្រអប់បញ្ចូលទៅកន្លែងតំណាង។ DALL-E 2 ប្រើគំរូ OpenAI មួយផ្សេងទៀតដែលហៅថា CLIP ( Contrastive Language-Image Pre-Training) ដើម្បីទទួលបានព័ត៌មាន semantic ពីភាសាធម្មជាតិ។

បន្ទាប់មកគឺម៉ូដែលដែលគេស្គាល់ថាជា មុន គូសផែនទីការអ៊ិនកូដអត្ថបទទៅជាការអ៊ិនកូដរូបភាព។ ការបំប្លែងរូបភាពនេះគួរតែចាប់យកព័ត៌មានដែលរកឃើញនៅក្នុងជំហាននៃការអ៊ិនកូដអត្ថបទ។

ដើម្បីបង្កើតរូបភាពពិត DALL-E 2 ប្រើឧបករណ៍ឌិកូដរូបភាពដើម្បីបង្កើតរូបភាពដោយប្រើព័ត៌មាន semantic និងព័ត៌មានលម្អិតនៃការអ៊ិនកូដរូបភាព។ OpenAI ប្រើកំណែដែលបានកែប្រែនៃ ហ្គីតា គំរូដើម្បីបង្កើតរូបភាព។ GLIDE ពឹងផ្អែកលើ ក គំរូនៃការសាយភាយ ដើម្បីបង្កើតរូបភាព។

ការបន្ថែម GLIDE ទៅនឹងម៉ូដែល DALL-E 2 បានបើកដំណើរការរូបភាពជាក់ស្តែងបន្ថែមទៀត។ ដោយសារគំរូ GLIDE ត្រូវបានកំណត់លក្ខណៈដោយចៃដន្យ ឬដោយចៃដន្យ ម៉ូដែល DALL-E 2 អាចបង្កើតការប្រែប្រួលបានយ៉ាងងាយស្រួលដោយដំណើរការគំរូម្តងហើយម្តងទៀត។

ដែនកំណត់

ទោះបីជាលទ្ធផលគួរឱ្យចាប់អារម្មណ៍នៃម៉ូដែល DALL-E 2 ក៏ដោយក៏វានៅតែប្រឈមនឹងដែនកំណត់មួយចំនួន។

អត្ថបទអក្ខរាវិរុទ្ធ

គំរូធ្វើឱ្យអក្ខរាវិរុទ្ធនៃពាក្យនៅក្នុងសញ្ញា

ការជម្រុញដែលព្យាយាមធ្វើឱ្យ DALL-E 2 បង្កើតអត្ថបទបង្ហាញថាវាពិបាកក្នុងការប្រកបពាក្យ។ អ្នកជំនាញសន្មតថានេះប្រហែលជាដោយសារតែព័ត៌មានអក្ខរាវិរុទ្ធមិនមែនជាផ្នែកនៃ សំណុំទិន្នន័យបណ្តុះបណ្តាល.

ហេតុផលសមាសភាព

គំរូតស៊ូជាមួយការដាក់វត្ថុក្នុងលំហ

អ្នកស្រាវជ្រាវសង្កេតឃើញថា DALL-E 2 នៅតែមានការលំបាកខ្លះៗជាមួយនឹងហេតុផលសមាសភាព។ និយាយឱ្យសាមញ្ញ គំរូអាចយល់ពីទិដ្ឋភាពបុគ្គលនៃរូបភាព ខណៈពេលដែលនៅតែមានបញ្ហាក្នុងការស្វែងរកទំនាក់ទំនងរវាងទិដ្ឋភាពទាំងនេះ។

ឧទាហរណ៍ ប្រសិនបើបានផ្តល់ប្រអប់បញ្ចូលថា "គូបក្រហមនៅលើកំពូលនៃគូបពណ៌ខៀវ" នោះ DALL-E នឹងបង្កើតគូបពណ៌ខៀវ និងគូបក្រហមយ៉ាងត្រឹមត្រូវ ប៉ុន្តែមិនអាចដាក់ពួកវាបានត្រឹមត្រូវ។ គំរូនេះក៏ត្រូវបានគេសង្កេតឃើញថាមានការលំបាកជាមួយនឹងការជម្រុញដែលទាមទារចំនួនជាក់លាក់នៃវត្ថុដែលត្រូវដកចេញ។

ភាពលំអៀងនៅក្នុងសំណុំទិន្នន័យ

ប្រសិនបើប្រអប់បញ្ចូលមិនមានព័ត៌មានលម្អិតផ្សេងទៀតទេ នោះ DALL-E ត្រូវបានគេសង្កេតឃើញដើម្បីពណ៌នាមនុស្សស្បែកស ឬលោកខាងលិច និងបរិស្ថាន។ ភាពលំអៀងតំណាងនេះកើតឡើងដោយសារតែភាពសម្បូរបែបនៃរូបភាពភាគខាងលិចនៅក្នុងសំណុំទិន្នន័យ។

DALL-E 2 មានភាពលំអៀងយេនឌ័រ

គំរូនេះក៏ត្រូវបានគេសង្កេតឃើញដើម្បីធ្វើតាមគំរូយេនឌ័រ។ ជាឧទាហរណ៍ ការវាយបញ្ចូលក្នុងប្រអប់បញ្ចូល "អ្នកបម្រើលើយន្តហោះ" ភាគច្រើនបង្កើតរូបភាពរបស់អ្នកបម្រើលើយន្តហោះជាស្ត្រី។

តើ Google Imagen AI ជាអ្វី?

DALL-E 2 vs Imagen - Imagen គឺល្អជាងក្នុងការប្រកប និងសមាសភាព

របស់ Google រូបភាព AI គឺជាគំរូដែលមានគោលបំណងបង្កើតរូបភាពពិតប្រាកដពីអត្ថបទបញ្ចូល។ ស្រដៀងទៅនឹង DALL-E ម៉ូដែលនេះក៏ប្រើគំរូភាសាបំប្លែងដើម្បីយល់ពីអត្ថបទ និងពឹងផ្អែកលើការប្រើប្រាស់គំរូចែកចាយដើម្បីបង្កើតរូបភាពដែលមានគុណភាពខ្ពស់។

ទន្ទឹមនឹង Imagen ក្រុមហ៊ុន Google ក៏បានបញ្ចេញនូវស្តង់ដារសម្រាប់គំរូអត្ថបទទៅរូបភាពដែលហៅថា DrawBench ។ ដោយប្រើ DrawBench ពួកគេអាចសង្កេតឃើញថាអ្នកវាយតម្លៃមនុស្សចូលចិត្តទិន្នផល Imagen ជាងម៉ូដែលផ្សេងទៀតរួមទាំង DALL-E 2 ។

តើវាដំណើរការយ៉ាងដូចម្តេច?

imagen ប្រើគំរូ diffusion ដើម្បីបង្កើតការងារដែលមានគុណភាពបង្ហាញខ្ពស់។

ស្រដៀងទៅនឹង DALL-E ដែរ Imagen ដំបូងបំប្លែងសារណែនាំរបស់អ្នកប្រើទៅជាអត្ថបទដែលបង្កប់តាមរយៈកម្មវិធីបំប្លែងអត្ថបទដែលបង្កក។

Imagen ប្រើគំរូចែកចាយដែលរៀនពីរបៀបបំប្លែងគំរូនៃសំលេងរំខានទៅជារូបភាព។ លទ្ធផលដំបូងនៃរូបភាពទាំងនេះមានគុណភាពបង្ហាញទាប ហើយក្រោយមកត្រូវបានឆ្លងកាត់គំរូមួយផ្សេងទៀតដែលគេស្គាល់ថាជាគំរូនៃការសាយភាយកម្រិតច្បាស់ ដើម្បីបង្កើនគុណភាពបង្ហាញនៃរូបភាពចុងក្រោយ។ គំរូនៃការសាយភាយដំបូងបញ្ចេញរូបភាព 64 × 64 ភីកសែល ហើយក្រោយមកត្រូវបានផ្លុំឡើងរហូតដល់រូបភាព 1024 × 1024 ដែលមានគុណភាពបង្ហាញខ្ពស់។

ផ្អែកលើការស្រាវជ្រាវរបស់ក្រុម Imagen គំរូភាសាដែលបង្កកដ៏ធំដែលត្រូវបានបណ្តុះបណ្តាលតែលើទិន្នន័យអត្ថបទនៅតែជាឧបករណ៍បំប្លែងអត្ថបទដែលមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការបង្កើតអត្ថបទទៅរូបភាព។

ការសិក្សាក៏ណែនាំអំពីគោលគំនិតនៃកម្រិតថាមវន្តផងដែរ។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យរូបភាពមើលទៅមានលក្ខណៈជាក់ស្តែងជាងមុនដោយបង្កើនទម្ងន់ណែនាំនៅពេលបង្កើតរូបភាព។

ការសម្តែងរបស់ DALLE 2 vs Imagen

លទ្ធផលបឋមពីស្តង់ដាររបស់ Google បង្ហាញថាអ្នកឆ្លើយតបរបស់មនុស្សចូលចិត្តរូបភាពដែលបង្កើតដោយ Imagen លើ DALL-E 2 និងគំរូអត្ថបទទៅរូបភាពផ្សេងទៀតដូចជា Latent Diffusion និង VQGAN+CLIP ។

លទ្ធផល DALL-E 2 ទល់នឹង Imagen ដោយប្រើ DrawBench ពី Google

លទ្ធផលដែលទទួលបានពីក្រុម Imagen ក៏បានបង្ហាញផងដែរថា គំរូរបស់ពួកគេដំណើរការបានល្អជាងក្នុងការសរសេរអត្ថបទ ដែលជាចំណុចខ្សោយដែលគេស្គាល់នៃគំរូ DALL-E 2។

ទោះជាយ៉ាងណាក៏ដោយ ដោយសារ Google មិនទាន់បញ្ចេញគំរូនេះដល់សាធារណជននៅឡើយ វានៅតែត្រូវមើលថាតើគំរូរបស់ Google មានភាពត្រឹមត្រូវកម្រិតណា។

សន្និដ្ឋាន

ការកើនឡើងនៃគំរូអត្ថបទពីរូបភាពទៅរូបភាពជាក់ស្តែងគឺមានភាពចម្រូងចម្រាសដោយសារតែម៉ូដែលទាំងនេះមានភាពចាស់ទុំសម្រាប់ការប្រើប្រាស់ដែលគ្មានសីលធម៌។

បច្ចេកវិទ្យានេះអាចនាំទៅដល់ការបង្កើតខ្លឹមសារច្បាស់លាស់ ឬជាឧបករណ៍សម្រាប់ព័ត៌មានមិនពិត។ អ្នកស្រាវជ្រាវទាំងពី Google និង OpenAI បានដឹងអំពីរឿងនេះ ដែលនេះជាផ្នែកមួយដែលធ្វើឱ្យបច្ចេកវិទ្យាទាំងនេះនៅតែមិនអាចចូលប្រើបានសម្រាប់មនុស្សគ្រប់គ្នា។

គំរូអត្ថបទទៅរូបភាពក៏មានផលប៉ះពាល់សេដ្ឋកិច្ចយ៉ាងសំខាន់ផងដែរ។ តើអាជីពដូចជាតារាបង្ហាញម៉ូត អ្នកថតរូប និងសិល្បករនឹងរងផលប៉ះពាល់ទេ ប្រសិនបើម៉ូដែលដូចជា DALL-E ក្លាយជារឿងសំខាន់?

នៅពេលនេះម៉ូដែលទាំងនេះនៅតែមានដែនកំណត់។ ការកាន់រូបភាពដែលបង្កើតដោយ AI ដើម្បីធ្វើការត្រួតពិនិត្យនឹងបង្ហាញពីភាពមិនល្អឥតខ្ចោះរបស់វា។ ជាមួយនឹងទាំង OpenAI និង Google ប្រកួតប្រជែងសម្រាប់ម៉ូដែលដែលមានប្រសិទ្ធភាពបំផុត វាអាចជាបញ្ហានៃពេលវេលា មុនពេលដែលលទ្ធផលដ៏ល្អឥតខ្ចោះពិតប្រាកដមួយត្រូវបានបង្កើតឡើង៖ រូបភាពដែលមិនអាចបែងចែកបានពីវត្ថុពិត។

តើអ្នកគិតថានឹងមានអ្វីកើតឡើងនៅពេលដែលបច្ចេកវិទ្យាដើរទៅឆ្ងាយ?

DALL-E 2 vs Imagen - រូបភាព និងសិល្បៈដែលបង្កើតដោយ AI

តើការបង្កើតអត្ថបទទៅរូបភាពគឺជាអ្វី?

តើ DALLE 2 ជាអ្វី?

តើវាដំណើរការយ៉ាងដូចម្តេច?

ដែនកំណត់

តើ Google Imagen AI ជាអ្វី?

តើវាដំណើរការយ៉ាងដូចម្តេច?

ការសម្តែងរបស់ DALLE 2 vs Imagen

សន្និដ្ឋាន

អំពីពួកយើង Deion Menor

អត្ថបទបន្ថែមអំពី HashDork៖

វិធីកាត់បន្ថយភាពច្របូកច្របល់ក្នុង AI របស់អ្នក។

Colossyan ទល់នឹង Heygen

ព្រឹត្តិបត្រព័ត៌មានបច្ចេកវិទ្យានាពេលអនាគតនេះមិនជះឥទ្ធិពលទេ។

DALL-E 2 vs Imagen - រូបភាព និងសិល្បៈដែលបង្កើតដោយ AI

តើការបង្កើតអត្ថបទទៅរូបភាពគឺជាអ្វី?

តើ DALLE 2 ជាអ្វី?

តើ​វា​ដំណើរការ​យ៉ាង​ដូចម្តេច?

ដែនកំណត់

តើ Google Imagen AI ជាអ្វី?

តើ​វា​ដំណើរការ​យ៉ាង​ដូចម្តេច?

ការសម្តែងរបស់ DALLE 2 vs Imagen

សន្និដ្ឋាន

អំពីពួកយើង Deion Menor

អត្ថបទបន្ថែមអំពី HashDork៖

វិធីកាត់បន្ថយភាពច្របូកច្របល់ក្នុង AI របស់អ្នក។

ឧបករណ៍ AI ល្អបំផុតទាំង 10 សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម

Colossyan ទល់នឹង Heygen

ឧបករណ៍បង្កើតវីដេអូដែលមានចលនា AI ល្អបំផុតទាំង 10

អន្តរកម្មកម្មវិធីអាន

សូមផ្ដល់យោបល់ បោះបង់ការឆ្លើយតប

ព្រឹត្តិបត្រព័ត៌មានបច្ចេកវិទ្យានាពេលអនាគតនេះមិនជះឥទ្ធិពលទេ។

តើវាដំណើរការយ៉ាងដូចម្តេច?

តើវាដំណើរការយ៉ាងដូចម្តេច?

សូមផ្ដល់យោបល់