អ្នកទំនងជាដឹងថាកុំព្យូទ័រអាចពណ៌នារូបភាពបាន។
ជាឧទាហរណ៍ រូបភាពឆ្កែលេងជាមួយកូនរបស់អ្នកអាចបកប្រែជា 'ឆ្កែ និងកូននៅក្នុងសួន'។ ប៉ុន្តែតើអ្នកដឹងទេថាវិធីផ្ទុយគ្នាឥឡូវនេះគឺអាចធ្វើទៅបានដែរឬទេ? អ្នកវាយពាក្យមួយចំនួន ហើយម៉ាស៊ីនបង្កើតរូបភាពថ្មី។
មិនដូចការស្វែងរកតាម Google ដែលស្វែងរករូបថតដែលមានស្រាប់នោះទេ នេះគឺថ្មីទាំងអស់។ ក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ OpenAI គឺជាអង្គការឈានមុខគេមួយ ដោយរាយការណ៍ពីលទ្ធផលគួរឱ្យភ្ញាក់ផ្អើល។
ពួកគេបណ្តុះបណ្តាលក្បួនដោះស្រាយរបស់ពួកគេលើមូលដ្ឋានទិន្នន័យអត្ថបទ និងរូបភាពដ៏ធំ។ ពួកគេបានបោះពុម្ពក្រដាសមួយនៅលើគំរូរូបភាព GLIDE របស់ពួកគេ ដែលត្រូវបានបណ្តុះបណ្តាលលើរូបថតរាប់រយលានសន្លឹក។ នៅក្នុងលក្ខខណ្ឌនៃ photorealism វាដំណើរការជាងម៉ូដែល 'DALL-E' មុនរបស់ពួកគេ។
នៅក្នុងការប្រកាសនេះ យើងនឹងពិនិត្យមើល GLIDE របស់ OpenAI ដែលជាគំនិតផ្តួចផ្តើមដ៏គួរឱ្យចាប់អារម្មណ៍មួយក្នុងចំនោមគំនិតផ្តួចផ្តើមដ៏គួរឱ្យចាប់អារម្មណ៍ជាច្រើនដែលមានគោលបំណងផលិត និងផ្លាស់ប្តូររូបភាពជាក់ស្តែងជាមួយនឹងគំរូចែកចាយតាមអត្ថបទ។ តោះចាប់ផ្ដើម។
តើអ្វីជា បើក AI Glide?
ខណៈពេលដែលរូបភាពភាគច្រើនអាចត្រូវបានពិពណ៌នាជាពាក្យ ការបង្កើតរូបភាពពីការបញ្ចូលអត្ថបទត្រូវការចំណេះដឹងឯកទេស និងពេលវេលាដ៏សំខាន់។
ការអនុញ្ញាតឱ្យភ្នាក់ងារ AI ផលិតរូបភាពជាក់ស្តែងពីភាសាធម្មជាតិ មិនត្រឹមតែអនុញ្ញាតឱ្យមនុស្សបង្កើតសម្ភារៈដែលមើលឃើញសម្បូរបែប និងចម្រុះជាមួយនឹងភាពងាយស្រួលដែលមិនធ្លាប់មានពីមុនមកប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអនុញ្ញាតឱ្យមានការកែលម្អឡើងវិញសាមញ្ញជាងមុន និងការគ្រប់គ្រងល្អិតល្អន់នៃរូបភាពដែលបានបង្កើត។
GLIDE អាចត្រូវបានប្រើដើម្បីកែសម្រួលរូបថតដែលមានស្រាប់ដោយប្រើសារជាភាសាធម្មជាតិដើម្បីបញ្ចូលវត្ថុថ្មី បង្កើតស្រមោល និងការឆ្លុះបញ្ចាំង អនុវត្ត ការលាបរូបភាព, លល។
វាក៏អាចប្រែក្លាយការគូរបន្ទាត់ជាមូលដ្ឋានទៅជារូបថតជាក់ស្តែង ហើយវាមានសមត្ថភាពផលិត និងជួសជុលគំរូសូន្យពិសេសសម្រាប់ស្ថានភាពស្មុគស្មាញ។
ការស្រាវជ្រាវថ្មីៗបានបង្ហាញថា គំរូនៃការសាយភាយដែលមានមូលដ្ឋានលើលទ្ធភាពក៏អាចបង្កើតរូបភាពសំយោគដែលមានគុណភាពខ្ពស់ផងដែរ ជាពិសេសនៅពេលរួមបញ្ចូលគ្នាជាមួយនឹងវិធីសាស្រ្តណែនាំដែលធ្វើអោយមានតុល្យភាពរវាងភាពខុសគ្នា និងភាពស្មោះត្រង់។
OpenAI បានបោះពុម្ពផ្សាយ គំរូនៃការសាយភាយដែលបានណែនាំ នៅក្នុងខែឧសភា ដែលអនុញ្ញាតឱ្យគំរូនៃការសាយភាយមានលក្ខខណ្ឌនៅលើស្លាកសញ្ញានៃអ្នកចាត់ថ្នាក់។ GLIDE ធ្វើអោយប្រសើរឡើងនូវភាពជោគជ័យនេះដោយនាំយកការចែកចាយតាមការណែនាំទៅនឹងបញ្ហានៃការបង្កើតរូបភាពតាមលក្ខខណ្ឌអត្ថបទ។
បន្ទាប់ពីការបណ្តុះបណ្តាលគំរូនៃការសាយភាយ GLIDE ប៉ារ៉ាម៉ែត្រចំនួន 3.5 ពាន់លានដោយប្រើឧបករណ៍បំប្លែងអត្ថបទដើម្បីដាក់លក្ខខណ្ឌលើការពិពណ៌នាភាសាធម្មជាតិ អ្នកស្រាវជ្រាវបានសាកល្បងយុទ្ធសាស្រ្តណែនាំជំនួសពីរ៖ ការណែនាំ CLIP និងការណែនាំដោយគ្មានចំណាត់ថ្នាក់។
CLIP គឺជាបច្ចេកទេសដែលអាចធ្វើមាត្រដ្ឋានបានសម្រាប់ការរៀនតំណាងរួមនៃអត្ថបទ និងរូបភាពដែលផ្តល់ពិន្ទុដោយផ្អែកលើទំហំរូបភាពជិតទៅនឹងចំណងជើង។
ក្រុមការងារបានប្រើយុទ្ធសាស្រ្តនេះនៅក្នុងគំរូចែកចាយរបស់ពួកគេដោយជំនួសអ្នកចាត់ថ្នាក់ដោយគំរូ CLIP ដែល "ណែនាំ" គំរូ។ ទន្ទឹមនឹងនេះ ការណែនាំដោយគ្មានចំណាត់ថ្នាក់គឺជាយុទ្ធសាស្ត្រសម្រាប់ដឹកនាំគំរូនៃការសាយភាយដែលមិនពាក់ព័ន្ធនឹងការបណ្តុះបណ្តាលអ្នកចាត់ថ្នាក់ដាច់ដោយឡែក។
ស្ថាបត្យកម្ម GLIDE
ស្ថាបត្យកម្ម GLIDE មានធាតុផ្សំបីយ៉ាង៖ គំរូអាប់ដេតសាយភាយ (ADM) ដែលត្រូវបានបណ្តុះបណ្តាលដើម្បីបង្កើតរូបភាព 64 × 64 គំរូអត្ថបទ (ប្លែង) ដែលមានឥទ្ធិពលលើការបង្កើតរូបភាពតាមរយៈប្រអប់បញ្ចូលអត្ថបទ និងគំរូគំរូដែលបំប្លែងទំហំតូច 64 × 64 របស់យើង។ រូបភាពដែលអាចបកស្រាយបានកាន់តែច្រើន 256 x 256 ភីកសែល។
សមាសធាតុពីរដំបូងធ្វើការជាមួយគ្នាដើម្បីគ្រប់គ្រងដំណើរការបង្កើតរូបភាព ដូច្នេះវាឆ្លុះបញ្ចាំងយ៉ាងត្រឹមត្រូវនូវប្រអប់បញ្ចូលអត្ថបទ ខណៈដែលសមាសធាតុបន្ទាប់គឺតម្រូវឱ្យធ្វើឱ្យរូបភាពដែលយើងបង្កើតកាន់តែងាយស្រួលយល់។ គម្រោង GLIDE ត្រូវបានបំផុសគំនិតដោយ ក របាយការណ៍ចេញផ្សាយនៅឆ្នាំ ២០២០ ដែលបង្ហាញថាបច្ចេកទេសរបស់ ADM ដំណើរការលើសពីគំរូនៃការបង្កើតដ៏ពេញនិយម និងទាន់សម័យនាពេលបច្ចុប្បន្នទាក់ទងនឹងគុណភាពគំរូរូបភាព។
សម្រាប់ ADM អ្នកនិពន្ធ GLIDE បានប្រើប្រាស់ម៉ូដែល ImageNet 64 x 64 ដូចគ្នាជាមួយ Dhariwal និង Nichol ប៉ុន្តែមាន 512 channels ជំនួសឱ្យ 64។ គំរូ ImageNet មានប៉ារ៉ាម៉ែត្រប្រហែល 2.3 ពាន់លានដែលជាលទ្ធផលនៃបញ្ហានេះ។
ក្រុម GLIDE មិនដូច Dhariwal និង Nichol ទេ ចង់មានការគ្រប់គ្រងផ្ទាល់កាន់តែខ្លាំងលើដំណើរការបង្កើតរូបភាព ដូច្នេះពួកគេបានបញ្ចូលគ្នានូវគំរូដែលមើលឃើញជាមួយនឹងឧបករណ៍បំលែងដែលបើកការយកចិត្តទុកដាក់។ GLIDE ផ្តល់ឱ្យអ្នកនូវការគ្រប់គ្រងមួយចំនួនលើដំណើរការបង្កើតរូបភាពដោយដំណើរការការបញ្ចូលអត្ថបទ។
នេះត្រូវបានសម្រេចដោយការបណ្តុះបណ្តាលគំរូប្លែងលើសំណុំទិន្នន័យធំដែលសមស្របនៃរូបថត និងចំណងជើង (ស្រដៀងទៅនឹងអ្វីដែលប្រើក្នុងគម្រោង DALL-E)។
អត្ថបទដំបូងត្រូវបានបំប្លែងជាស៊េរីនៃ K tokens ដើម្បីដាក់លក្ខខណ្ឌ។ បន្ទាប់ពីនោះសញ្ញាសម្ងាត់ត្រូវបានផ្ទុកទៅក្នុងគំរូប្លែង។ បន្ទាប់មកទិន្នផលនៃ transformer អាចត្រូវបានប្រើតាមពីរវិធី។ សម្រាប់គំរូ ADM ការបង្កប់សញ្ញាសម្ងាត់ចុងក្រោយត្រូវបានប្រើប្រាស់ជំនួសឱ្យការបង្កប់ថ្នាក់។
ទីពីរ ស្រទាប់ចុងក្រោយនៃការបង្កប់និមិត្តសញ្ញា - ស៊េរីនៃវ៉ិចទ័រលក្ខណៈពិសេស - ត្រូវបានព្យាករដោយឯករាជ្យទៅនឹងវិមាត្រសម្រាប់ស្រទាប់យកចិត្តទុកដាក់នីមួយៗនៅក្នុងគំរូ ADM ហើយភ្ជាប់ទៅបរិបទនៃការយកចិត្តទុកដាក់នីមួយៗ។
តាមពិតទៅ នេះអនុញ្ញាតឱ្យគំរូ ADM បង្កើតរូបភាពពីបន្សំថ្មីនៃនិមិត្តសញ្ញាអត្ថបទស្រដៀងគ្នាក្នុងទម្រង់ប្លែក និងរូបភាពជាក់ស្តែង ដោយផ្អែកលើការយល់ដឹងដែលបានរៀនពីពាក្យបញ្ចូល និងរូបភាពដែលពាក់ព័ន្ធរបស់វា។ ឧបករណ៍បំប្លែងការអ៊ិនកូដអត្ថបទនេះមាន 1.2 ពាន់លានប៉ារ៉ាម៉ែត្រ ហើយប្រើប្រាស់ 24 ប្លុកដែលនៅសល់ដែលមានទទឹង 2048 ។
ជាចុងក្រោយ គំរូនៃការសាយភាយ upsampler រួមបញ្ចូលប៉ារ៉ាម៉ែត្រប្រហែល 1.5 ពាន់លាន ហើយប្រែប្រួលពីគំរូមូលដ្ឋាន ដែលឧបករណ៍បំប្លែងអត្ថបទរបស់វាតូចជាង ជាមួយនឹងទទឹង 1024 និង 384 ប៉ុស្តិ៍មូលដ្ឋាន បើប្រៀបធៀបទៅនឹងគំរូមូលដ្ឋាន។ ម៉ូដែលនេះ ដូចដែលឈ្មោះបានបង្ហាញ ជំនួយក្នុងការធ្វើឱ្យប្រសើរឡើងនៃគំរូក្នុងគោលបំណងធ្វើឱ្យប្រសើរឡើងនូវការបកស្រាយសម្រាប់ទាំងម៉ាស៊ីន និងមនុស្ស។
គំរូនៃការសាយភាយ
GLIDE បង្កើតរូបភាពដោយប្រើកំណែ ADM ផ្ទាល់របស់វា (ADM-G សម្រាប់ "ណែនាំ")។ គំរូ ADM-G គឺជាការកែប្រែនៃគំរូ U-net សាយភាយ។ គំរូបំប៉ោង U-net មានភាពខុសគ្នាយ៉ាងខ្លាំងពីបច្ចេកទេសសំយោគរូបភាពទូទៅដូចជា VAE, GAN និង transformers ។
ពួកគេបង្កើតខ្សែសង្វាក់ Markov នៃជំហាននៃការសាយភាយ ដើម្បីបញ្ចូលសំឡេងរំខានបន្តិចម្តងៗទៅក្នុងទិន្នន័យ ហើយបន្ទាប់មករៀនដើម្បីបញ្ច្រាសដំណើរការសាយភាយ និងបង្កើតឡើងវិញនូវគំរូទិន្នន័យដែលត្រូវការពីសំលេងរំខានតែម្នាក់ឯង។ វាដំណើរការជាពីរដំណាក់កាល៖ ការសាយភាយទៅមុខ និងបញ្ច្រាស។
វិធីសាស្ត្រនៃការសាយភាយទៅមុខ ដែលផ្តល់ចំណុចទិន្នន័យពីការចែកចាយពិតរបស់គំរូ បន្ថែមសំលេងរំខានតិចតួចដល់គំរូតាមស៊េរីជំហានដែលបានកំណត់ជាមុន។ នៅពេលដែលជំហានកើនឡើងក្នុងទំហំ និងចូលទៅជិតភាពគ្មានទីបញ្ចប់ គំរូបាត់បង់លក្ខណៈដែលអាចស្គាល់បានទាំងអស់ ហើយលំដាប់ចាប់ផ្តើមស្រដៀងទៅនឹងខ្សែកោង isotropic Gaussian ។
ក្នុងអំឡុងពេលនៃការសាយភាយថយក្រោយ ដំណាក់កាល, គំរូនៃការសាយភាយ រៀនបញ្ច្រាសឥទ្ធិពលនៃសំលេងរំខានបន្ថែមលើរូបភាព ហើយនាំរូបភាពដែលបានផលិតត្រឡប់ទៅរូបរាងដើមវិញ ដោយព្យាយាមស្រដៀងទៅនឹងការចែកចាយគំរូបញ្ចូលដើម។
គំរូដែលបានបញ្ចប់អាចធ្វើដូច្នេះបានជាមួយនឹងការបញ្ចូលសំលេងរំខាន Gaussian ពិតប្រាកដ និងការបញ្ចូលភ្លាមៗ។ វិធីសាស្ត្រ ADM-G ប្រែប្រួលពីគំរូមុនក្នុងនោះ ទាំង CLIP ឬឧបករណ៍បំប្លែងតាមបំណង ជះឥទ្ធិពលដល់ដំណាក់កាលនៃការសាយភាយថយក្រោយដោយប្រើប្រាស់និមិត្តសញ្ញាប្រអប់បញ្ចូលអត្ថបទដែលត្រូវបានបញ្ចូល។
សមត្ថភាពរអិល
1. ការបង្កើតរូបភាព
ការប្រើប្រាស់ GLIDE ដែលពេញនិយម និងប្រើប្រាស់យ៉ាងទូលំទូលាយ ប្រហែលជាការសំយោគរូបភាព។ ទោះបីជារូបភាពមានលក្ខណៈតិចតួចក៏ដោយ ហើយ GLIDE មានការលំបាកជាមួយទម្រង់សត្វ/មនុស្ស សក្តានុពលសម្រាប់ការផលិតរូបភាពតែមួយដងគឺស្ទើរតែគ្មានទីបញ្ចប់។
វាអាចបង្កើតរូបថតសត្វ តារាល្បីៗ ទេសភាព អគារ និងអ្វីៗជាច្រើនទៀត ហើយវាអាចធ្វើវាបានតាមរចនាបថសិល្បៈផ្សេងៗ ក៏ដូចជារូបថតជាក់ស្តែងផងដែរ។ អ្នកនិពន្ធនៃអ្នកស្រាវជ្រាវអះអាងថា GLIDE មានសមត្ថភាពក្នុងការបកស្រាយ និងសម្របខ្លួននូវភាពខុសគ្នាយ៉ាងទូលំទូលាយនៃការបញ្ចូលអត្ថបទទៅជាទម្រង់ដែលមើលឃើញ ដូចដែលបានឃើញនៅក្នុងគំរូខាងក្រោម។
2. ផ្ទាំងគំនូររលោង
ការគូររូបដោយស្វ័យប្រវត្តិរបស់ GLIDE គឺជាការប្រើប្រាស់ដ៏គួរឱ្យចាប់អារម្មណ៍បំផុត។ GLIDE អាចយករូបភាពដែលមានស្រាប់ជាការបញ្ចូល ដំណើរការវាដោយប្រើប្រអប់បញ្ចូលអត្ថបទក្នុងចិត្តសម្រាប់ទីតាំងដែលត្រូវផ្លាស់ប្តូរ ហើយបន្ទាប់មកធ្វើការកែប្រែសកម្មចំពោះផ្នែកទាំងនោះដោយភាពងាយស្រួល។
វាត្រូវតែប្រើដោយភ្ជាប់ជាមួយគំរូកែសម្រួល ដូចជា SDEdit ដើម្បីទទួលបានលទ្ធផលកាន់តែប្រសើរ។ នៅពេលអនាគត កម្មវិធីដែលទាញយកអត្ថប្រយោជន៍ពីសមត្ថភាពបែបនេះអាចនឹងមានសារៈសំខាន់ក្នុងការបង្កើតវិធីសាស្រ្តផ្លាស់ប្តូររូបភាពដោយគ្មានកូដ។
សន្និដ្ឋាន
ឥឡូវនេះ យើងបានឆ្លងកាត់ដំណើរការហើយ អ្នកគួរតែយល់ពីមូលដ្ឋានគ្រឹះនៃរបៀបដែល GLIDE ដំណើរការ ក៏ដូចជាទំហំនៃសមត្ថភាពរបស់វាក្នុងការបង្កើតរូបភាព និងការកែប្រែក្នុងរូបភាព។
សូមផ្ដល់យោបល់