ក្នុងរយៈពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ គំរូសិក្សាស៊ីជម្រៅបានកាន់តែមានប្រសិទ្ធភាពក្នុងការយល់ដឹងអំពីភាសារបស់មនុស្ស។
គិតអំពីគម្រោងដូចជា GPT-3ដែលឥឡូវនេះអាចបង្កើតអត្ថបទ និងគេហទំព័រទាំងមូល។ GitHub បានណែនាំថ្មីៗនេះ GitHub Copilotសេវាកម្មដែលផ្តល់ព័ត៌មានសង្ខេបនៃកូដទាំងមូលដោយគ្រាន់តែពិពណ៌នាអំពីប្រភេទនៃកូដដែលអ្នកត្រូវការ។
អ្នកស្រាវជ្រាវនៅ OpenAI, Facebook និង Google បាននិងកំពុងធ្វើការលើមធ្យោបាយដើម្បីប្រើប្រាស់ការរៀនសូត្រយ៉ាងស៊ីជម្រៅ ដើម្បីដោះស្រាយកិច្ចការមួយផ្សេងទៀត៖ ការដាក់ចំណងជើងរូបភាព។ ដោយប្រើសំណុំទិន្នន័យធំជាមួយនឹងធាតុរាប់លាន ពួកគេបានមកជាមួយនឹងមួយចំនួន ការភ្ញាក់ផ្អើល លទ្ធផល.
ថ្មីៗនេះ អ្នកស្រាវជ្រាវទាំងនេះបានព្យាយាមអនុវត្តកិច្ចការផ្ទុយគ្នា៖ បង្កើតរូបភាពពីចំណងជើង។ តើឥឡូវអាចបង្កើតរូបភាពថ្មីទាំងស្រុងចេញពីការពិពណ៌នាបានទេ?
មគ្គុទ្ទេសក៍នេះនឹងស្វែងយល់ពីគំរូអត្ថបទទៅរូបភាពកម្រិតខ្ពស់បំផុតពីរ៖ DALL-E 2 របស់ OpenAI និង Imagen AI របស់ Google ។ គម្រោងនីមួយៗទាំងនេះបានណែនាំពីវិធីសាស្ត្រដែលអាចនឹងផ្លាស់ប្តូរសង្គមដូចដែលយើងដឹង។
ប៉ុន្តែជាដំបូង ចូរយើងយល់ពីអត្ថន័យនៃការបង្កើតអត្ថបទទៅរូបភាព។
តើការបង្កើតអត្ថបទទៅរូបភាពគឺជាអ្វី?
គំរូអត្ថបទទៅរូបភាព អនុញ្ញាតឱ្យកុំព្យូទ័របង្កើតរូបភាពថ្មី និងប្លែកដោយផ្អែកលើការជម្រុញ។ ឥឡូវនេះ មនុស្សអាចផ្តល់នូវការពិពណ៌នាអត្ថបទនៃរូបភាពដែលពួកគេចង់ផលិត ហើយគំរូនឹងព្យាយាមបង្កើតរូបភាពដែលផ្គូផ្គងនឹងការពិពណ៌នានោះឱ្យជិតបំផុតតាមដែលអាចធ្វើទៅបាន។
គំរូសិក្សារបស់ម៉ាស៊ីនបានបង្កើនការប្រើប្រាស់សំណុំទិន្នន័យធំដែលមានគូចំណងជើងរូបភាព ដើម្បីកែលម្អការអនុវត្តបន្ថែមទៀត។
អត្ថបទទៅរូបភាពភាគច្រើន ម៉ូដែលប្រើគំរូភាសាប្លែង ដើម្បីបកស្រាយការជម្រុញ។ ប្រភេទនៃគំរូនេះគឺ ក បណ្តាញសរសៃប្រសាទ ដែលព្យាយាមរៀនបរិបទ និងអត្ថន័យនៃភាសាធម្មជាតិ។
បន្ទាប់មកគឺម៉ូដែលទូទៅដូចជា ម៉ូដែលចែកចាយ និងបណ្តាញសត្រូវទូទៅត្រូវបានប្រើសម្រាប់ការសំយោគរូបភាព។
តើ DALLE 2 ជាអ្វី?
DALL-E2 គឺជាគំរូកុំព្យូទ័រដោយ OpenAI ដែលត្រូវបានចេញផ្សាយក្នុងខែមេសា ឆ្នាំ 2022។ គំរូនេះត្រូវបានបណ្តុះបណ្តាលលើមូលដ្ឋានទិន្នន័យនៃរូបភាពរាប់លានសន្លឹក ដើម្បីភ្ជាប់ពាក្យ និងឃ្លាទៅកាន់រូបភាព។
អ្នកប្រើអាចវាយឃ្លាសាមញ្ញមួយដូចជា "ឆ្មាស៊ីឡាសាណា" ហើយ DALL-E 2 នឹងបង្កើតការបកស្រាយរបស់វាអំពីអ្វីដែលឃ្លានេះកំពុងព្យាយាមពណ៌នា។
ក្រៅពីការបង្កើតរូបភាពពីទទេ DALL-E 2 ក៏អាចកែសម្រួលរូបភាពដែលមានស្រាប់ផងដែរ។ នៅក្នុងឧទាហរណ៍ខាងក្រោម DALL-E អាចបង្កើតរូបភាពដែលបានកែប្រែនៃបន្ទប់ជាមួយនឹងសាឡុងបន្ថែម។
DALL-E 2 គឺគ្រាន់តែជាគម្រោងមួយក្នុងចំណោមគម្រោងស្រដៀងគ្នាជាច្រើនដែល OpenAI បានចេញផ្សាយក្នុងរយៈពេលប៉ុន្មានឆ្នាំចុងក្រោយនេះ។ GPT-3 របស់ OpenAI បានក្លាយជាព័ត៌មានគួរឱ្យចាប់អារម្មណ៍នៅពេលដែលវាហាក់ដូចជាបង្កើតអត្ថបទនៃរចនាប័ទ្មខុសៗគ្នា។
បច្ចុប្បន្ន DALL-E 2 នៅតែស្ថិតក្នុងការសាកល្បងបេតា។ អ្នកប្រើប្រាស់ដែលចាប់អារម្មណ៍អាចចុះឈ្មោះសម្រាប់ពួកគេ។ បញ្ជីរង់ចាំ ហើយរង់ចាំការចូលប្រើ។
តើវាដំណើរការយ៉ាងដូចម្តេច?
ខណៈពេលដែលលទ្ធផលនៃ DALL-E 2 គួរឱ្យចាប់អារម្មណ៍ អ្នកប្រហែលជាឆ្ងល់ថាតើវាដំណើរការយ៉ាងដូចម្តេច។
DALL-E 2 គឺជាឧទាហរណ៍នៃការអនុវត្តពហុមុខងារនៃគម្រោង GPT-3 របស់ OpenAI ។
ទីមួយ ប្រអប់បញ្ចូលអត្ថបទរបស់អ្នកប្រើត្រូវបានដាក់ចូលទៅក្នុងឧបករណ៍បំប្លែងអត្ថបទដែលផ្គូផ្គងប្រអប់បញ្ចូលទៅកន្លែងតំណាង។ DALL-E 2 ប្រើគំរូ OpenAI មួយផ្សេងទៀតដែលហៅថា CLIP ( Contrastive Language-Image Pre-Training) ដើម្បីទទួលបានព័ត៌មាន semantic ពីភាសាធម្មជាតិ។
បន្ទាប់មកគឺម៉ូដែលដែលគេស្គាល់ថាជា មុន គូសផែនទីការអ៊ិនកូដអត្ថបទទៅជាការអ៊ិនកូដរូបភាព។ ការបំប្លែងរូបភាពនេះគួរតែចាប់យកព័ត៌មានដែលរកឃើញនៅក្នុងជំហាននៃការអ៊ិនកូដអត្ថបទ។
ដើម្បីបង្កើតរូបភាពពិត DALL-E 2 ប្រើឧបករណ៍ឌិកូដរូបភាពដើម្បីបង្កើតរូបភាពដោយប្រើព័ត៌មាន semantic និងព័ត៌មានលម្អិតនៃការអ៊ិនកូដរូបភាព។ OpenAI ប្រើកំណែដែលបានកែប្រែនៃ ហ្គីតា គំរូដើម្បីបង្កើតរូបភាព។ GLIDE ពឹងផ្អែកលើ ក គំរូនៃការសាយភាយ ដើម្បីបង្កើតរូបភាព។
ការបន្ថែម GLIDE ទៅនឹងម៉ូដែល DALL-E 2 បានបើកដំណើរការរូបភាពជាក់ស្តែងបន្ថែមទៀត។ ដោយសារគំរូ GLIDE ត្រូវបានកំណត់លក្ខណៈដោយចៃដន្យ ឬដោយចៃដន្យ ម៉ូដែល DALL-E 2 អាចបង្កើតការប្រែប្រួលបានយ៉ាងងាយស្រួលដោយដំណើរការគំរូម្តងហើយម្តងទៀត។
ដែនកំណត់
ទោះបីជាលទ្ធផលគួរឱ្យចាប់អារម្មណ៍នៃម៉ូដែល DALL-E 2 ក៏ដោយក៏វានៅតែប្រឈមនឹងដែនកំណត់មួយចំនួន។
អត្ថបទអក្ខរាវិរុទ្ធ
ការជម្រុញដែលព្យាយាមធ្វើឱ្យ DALL-E 2 បង្កើតអត្ថបទបង្ហាញថាវាពិបាកក្នុងការប្រកបពាក្យ។ អ្នកជំនាញសន្មតថានេះប្រហែលជាដោយសារតែព័ត៌មានអក្ខរាវិរុទ្ធមិនមែនជាផ្នែកនៃ សំណុំទិន្នន័យបណ្តុះបណ្តាល.
ហេតុផលសមាសភាព
អ្នកស្រាវជ្រាវសង្កេតឃើញថា DALL-E 2 នៅតែមានការលំបាកខ្លះៗជាមួយនឹងហេតុផលសមាសភាព។ និយាយឱ្យសាមញ្ញ គំរូអាចយល់ពីទិដ្ឋភាពបុគ្គលនៃរូបភាព ខណៈពេលដែលនៅតែមានបញ្ហាក្នុងការស្វែងរកទំនាក់ទំនងរវាងទិដ្ឋភាពទាំងនេះ។
ឧទាហរណ៍ ប្រសិនបើបានផ្តល់ប្រអប់បញ្ចូលថា "គូបក្រហមនៅលើកំពូលនៃគូបពណ៌ខៀវ" នោះ DALL-E នឹងបង្កើតគូបពណ៌ខៀវ និងគូបក្រហមយ៉ាងត្រឹមត្រូវ ប៉ុន្តែមិនអាចដាក់ពួកវាបានត្រឹមត្រូវ។ គំរូនេះក៏ត្រូវបានគេសង្កេតឃើញថាមានការលំបាកជាមួយនឹងការជម្រុញដែលទាមទារចំនួនជាក់លាក់នៃវត្ថុដែលត្រូវដកចេញ។
ភាពលំអៀងនៅក្នុងសំណុំទិន្នន័យ
ប្រសិនបើប្រអប់បញ្ចូលមិនមានព័ត៌មានលម្អិតផ្សេងទៀតទេ នោះ DALL-E ត្រូវបានគេសង្កេតឃើញដើម្បីពណ៌នាមនុស្សស្បែកស ឬលោកខាងលិច និងបរិស្ថាន។ ភាពលំអៀងតំណាងនេះកើតឡើងដោយសារតែភាពសម្បូរបែបនៃរូបភាពភាគខាងលិចនៅក្នុងសំណុំទិន្នន័យ។
គំរូនេះក៏ត្រូវបានគេសង្កេតឃើញដើម្បីធ្វើតាមគំរូយេនឌ័រ។ ជាឧទាហរណ៍ ការវាយបញ្ចូលក្នុងប្រអប់បញ្ចូល "អ្នកបម្រើលើយន្តហោះ" ភាគច្រើនបង្កើតរូបភាពរបស់អ្នកបម្រើលើយន្តហោះជាស្ត្រី។
តើ Google Imagen AI ជាអ្វី?
របស់ Google រូបភាព AI គឺជាគំរូដែលមានគោលបំណងបង្កើតរូបភាពពិតប្រាកដពីអត្ថបទបញ្ចូល។ ស្រដៀងទៅនឹង DALL-E ម៉ូដែលនេះក៏ប្រើគំរូភាសាបំប្លែងដើម្បីយល់ពីអត្ថបទ និងពឹងផ្អែកលើការប្រើប្រាស់គំរូចែកចាយដើម្បីបង្កើតរូបភាពដែលមានគុណភាពខ្ពស់។
ទន្ទឹមនឹង Imagen ក្រុមហ៊ុន Google ក៏បានបញ្ចេញនូវស្តង់ដារសម្រាប់គំរូអត្ថបទទៅរូបភាពដែលហៅថា DrawBench ។ ដោយប្រើ DrawBench ពួកគេអាចសង្កេតឃើញថាអ្នកវាយតម្លៃមនុស្សចូលចិត្តទិន្នផល Imagen ជាងម៉ូដែលផ្សេងទៀតរួមទាំង DALL-E 2 ។
តើវាដំណើរការយ៉ាងដូចម្តេច?
ស្រដៀងទៅនឹង DALL-E ដែរ Imagen ដំបូងបំប្លែងសារណែនាំរបស់អ្នកប្រើទៅជាអត្ថបទដែលបង្កប់តាមរយៈកម្មវិធីបំប្លែងអត្ថបទដែលបង្កក។
Imagen ប្រើគំរូចែកចាយដែលរៀនពីរបៀបបំប្លែងគំរូនៃសំលេងរំខានទៅជារូបភាព។ លទ្ធផលដំបូងនៃរូបភាពទាំងនេះមានគុណភាពបង្ហាញទាប ហើយក្រោយមកត្រូវបានឆ្លងកាត់គំរូមួយផ្សេងទៀតដែលគេស្គាល់ថាជាគំរូនៃការសាយភាយកម្រិតច្បាស់ ដើម្បីបង្កើនគុណភាពបង្ហាញនៃរូបភាពចុងក្រោយ។ គំរូនៃការសាយភាយដំបូងបញ្ចេញរូបភាព 64 × 64 ភីកសែល ហើយក្រោយមកត្រូវបានផ្លុំឡើងរហូតដល់រូបភាព 1024 × 1024 ដែលមានគុណភាពបង្ហាញខ្ពស់។
ផ្អែកលើការស្រាវជ្រាវរបស់ក្រុម Imagen គំរូភាសាដែលបង្កកដ៏ធំដែលត្រូវបានបណ្តុះបណ្តាលតែលើទិន្នន័យអត្ថបទនៅតែជាឧបករណ៍បំប្លែងអត្ថបទដែលមានប្រសិទ្ធភាពខ្ពស់សម្រាប់ការបង្កើតអត្ថបទទៅរូបភាព។
ការសិក្សាក៏ណែនាំអំពីគោលគំនិតនៃកម្រិតថាមវន្តផងដែរ។ វិធីសាស្រ្តនេះអនុញ្ញាតឱ្យរូបភាពមើលទៅមានលក្ខណៈជាក់ស្តែងជាងមុនដោយបង្កើនទម្ងន់ណែនាំនៅពេលបង្កើតរូបភាព។
ការសម្តែងរបស់ DALLE 2 vs Imagen
លទ្ធផលបឋមពីស្តង់ដាររបស់ Google បង្ហាញថាអ្នកឆ្លើយតបរបស់មនុស្សចូលចិត្តរូបភាពដែលបង្កើតដោយ Imagen លើ DALL-E 2 និងគំរូអត្ថបទទៅរូបភាពផ្សេងទៀតដូចជា Latent Diffusion និង VQGAN+CLIP ។
លទ្ធផលដែលទទួលបានពីក្រុម Imagen ក៏បានបង្ហាញផងដែរថា គំរូរបស់ពួកគេដំណើរការបានល្អជាងក្នុងការសរសេរអត្ថបទ ដែលជាចំណុចខ្សោយដែលគេស្គាល់នៃគំរូ DALL-E 2។
ទោះជាយ៉ាងណាក៏ដោយ ដោយសារ Google មិនទាន់បញ្ចេញគំរូនេះដល់សាធារណជននៅឡើយ វានៅតែត្រូវមើលថាតើគំរូរបស់ Google មានភាពត្រឹមត្រូវកម្រិតណា។
សន្និដ្ឋាន
ការកើនឡើងនៃគំរូអត្ថបទពីរូបភាពទៅរូបភាពជាក់ស្តែងគឺមានភាពចម្រូងចម្រាសដោយសារតែម៉ូដែលទាំងនេះមានភាពចាស់ទុំសម្រាប់ការប្រើប្រាស់ដែលគ្មានសីលធម៌។
បច្ចេកវិទ្យានេះអាចនាំទៅដល់ការបង្កើតខ្លឹមសារច្បាស់លាស់ ឬជាឧបករណ៍សម្រាប់ព័ត៌មានមិនពិត។ អ្នកស្រាវជ្រាវទាំងពី Google និង OpenAI បានដឹងអំពីរឿងនេះ ដែលនេះជាផ្នែកមួយដែលធ្វើឱ្យបច្ចេកវិទ្យាទាំងនេះនៅតែមិនអាចចូលប្រើបានសម្រាប់មនុស្សគ្រប់គ្នា។
គំរូអត្ថបទទៅរូបភាពក៏មានផលប៉ះពាល់សេដ្ឋកិច្ចយ៉ាងសំខាន់ផងដែរ។ តើអាជីពដូចជាតារាបង្ហាញម៉ូត អ្នកថតរូប និងសិល្បករនឹងរងផលប៉ះពាល់ទេ ប្រសិនបើម៉ូដែលដូចជា DALL-E ក្លាយជារឿងសំខាន់?
នៅពេលនេះម៉ូដែលទាំងនេះនៅតែមានដែនកំណត់។ ការកាន់រូបភាពដែលបង្កើតដោយ AI ដើម្បីធ្វើការត្រួតពិនិត្យនឹងបង្ហាញពីភាពមិនល្អឥតខ្ចោះរបស់វា។ ជាមួយនឹងទាំង OpenAI និង Google ប្រកួតប្រជែងសម្រាប់ម៉ូដែលដែលមានប្រសិទ្ធភាពបំផុត វាអាចជាបញ្ហានៃពេលវេលា មុនពេលដែលលទ្ធផលដ៏ល្អឥតខ្ចោះពិតប្រាកដមួយត្រូវបានបង្កើតឡើង៖ រូបភាពដែលមិនអាចបែងចែកបានពីវត្ថុពិត។
តើអ្នកគិតថានឹងមានអ្វីកើតឡើងនៅពេលដែលបច្ចេកវិទ្យាដើរទៅឆ្ងាយ?
សូមផ្ដល់យោបល់