បើក AI Glide (Diffusion) - ការបង្កើតរូបភាពដោយគ្រាន់តែបញ្ចូលអត្ថបទ

មាតិកា[លាក់][បង្ហាញ]

តើ Open AI Glide ជាអ្វី?
ស្ថាបត្យកម្ម GLIDE
គំរូនៃការសាយភាយ
សមត្ថភាពរអិល+-
- 1. ការបង្កើតរូបភាព
- 2. ផ្ទាំងគំនូររលោង
សន្និដ្ឋាន

អ្នកទំនងជាដឹងថាកុំព្យូទ័រអាចពណ៌នារូបភាពបាន។

ជាឧទាហរណ៍ រូបភាពឆ្កែលេងជាមួយកូនរបស់អ្នកអាចបកប្រែជា 'ឆ្កែ និងកូននៅក្នុងសួន'។ ប៉ុន្តែតើអ្នកដឹងទេថាវិធីផ្ទុយគ្នាឥឡូវនេះគឺអាចធ្វើទៅបានដែរឬទេ? អ្នកវាយពាក្យមួយចំនួន ហើយម៉ាស៊ីនបង្កើតរូបភាពថ្មី។

មិនដូចការស្វែងរកតាម Google ដែលស្វែងរករូបថតដែលមានស្រាប់នោះទេ នេះគឺថ្មីទាំងអស់។ ក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ OpenAI គឺជាអង្គការឈានមុខគេមួយ ដោយរាយការណ៍ពីលទ្ធផលគួរឱ្យភ្ញាក់ផ្អើល។

ពួកគេបណ្តុះបណ្តាលក្បួនដោះស្រាយរបស់ពួកគេលើមូលដ្ឋានទិន្នន័យអត្ថបទ និងរូបភាពដ៏ធំ។ ពួកគេបានបោះពុម្ពក្រដាសមួយនៅលើគំរូរូបភាព GLIDE របស់ពួកគេ ដែលត្រូវបានបណ្តុះបណ្តាលលើរូបថតរាប់រយលានសន្លឹក។ នៅក្នុងលក្ខខណ្ឌនៃ photorealism វាដំណើរការជាងម៉ូដែល 'DALL-E' មុនរបស់ពួកគេ។

នៅក្នុងការប្រកាសនេះ យើងនឹងពិនិត្យមើល GLIDE របស់ OpenAI ដែលជាគំនិតផ្តួចផ្តើមដ៏គួរឱ្យចាប់អារម្មណ៍មួយក្នុងចំនោមគំនិតផ្តួចផ្តើមដ៏គួរឱ្យចាប់អារម្មណ៍ជាច្រើនដែលមានគោលបំណងផលិត និងផ្លាស់ប្តូររូបភាពជាក់ស្តែងជាមួយនឹងគំរូចែកចាយតាមអត្ថបទ។ តោះចាប់ផ្ដើម។

តើអ្វីជា បើក AI Glide?

ខណៈពេលដែលរូបភាពភាគច្រើនអាចត្រូវបានពិពណ៌នាជាពាក្យ ការបង្កើតរូបភាពពីការបញ្ចូលអត្ថបទត្រូវការចំណេះដឹងឯកទេស និងពេលវេលាដ៏សំខាន់។

ការអនុញ្ញាតឱ្យភ្នាក់ងារ AI ផលិតរូបភាពជាក់ស្តែងពីភាសាធម្មជាតិ មិនត្រឹមតែអនុញ្ញាតឱ្យមនុស្សបង្កើតសម្ភារៈដែលមើលឃើញសម្បូរបែប និងចម្រុះជាមួយនឹងភាពងាយស្រួលដែលមិនធ្លាប់មានពីមុនមកប៉ុណ្ណោះទេ ប៉ុន្តែថែមទាំងអនុញ្ញាតឱ្យមានការកែលម្អឡើងវិញសាមញ្ញជាងមុន និងការគ្រប់គ្រងល្អិតល្អន់នៃរូបភាពដែលបានបង្កើត។

GLIDE អាចត្រូវបានប្រើដើម្បីកែសម្រួលរូបថតដែលមានស្រាប់ដោយប្រើសារជាភាសាធម្មជាតិដើម្បីបញ្ចូលវត្ថុថ្មី បង្កើតស្រមោល និងការឆ្លុះបញ្ចាំង អនុវត្ត ការលាបរូបភាព, លល។

វាក៏អាចប្រែក្លាយការគូរបន្ទាត់ជាមូលដ្ឋានទៅជារូបថតជាក់ស្តែង ហើយវាមានសមត្ថភាពផលិត និងជួសជុលគំរូសូន្យពិសេសសម្រាប់ស្ថានភាពស្មុគស្មាញ។

ការស្រាវជ្រាវថ្មីៗបានបង្ហាញថា គំរូនៃការសាយភាយដែលមានមូលដ្ឋានលើលទ្ធភាពក៏អាចបង្កើតរូបភាពសំយោគដែលមានគុណភាពខ្ពស់ផងដែរ ជាពិសេសនៅពេលរួមបញ្ចូលគ្នាជាមួយនឹងវិធីសាស្រ្តណែនាំដែលធ្វើអោយមានតុល្យភាពរវាងភាពខុសគ្នា និងភាពស្មោះត្រង់។

បើក AI Glide

OpenAI បានបោះពុម្ពផ្សាយ គំរូនៃការសាយភាយដែលបានណែនាំ នៅក្នុងខែឧសភា ដែលអនុញ្ញាតឱ្យគំរូនៃការសាយភាយមានលក្ខខណ្ឌនៅលើស្លាកសញ្ញានៃអ្នកចាត់ថ្នាក់។ GLIDE ធ្វើអោយប្រសើរឡើងនូវភាពជោគជ័យនេះដោយនាំយកការចែកចាយតាមការណែនាំទៅនឹងបញ្ហានៃការបង្កើតរូបភាពតាមលក្ខខណ្ឌអត្ថបទ។

បន្ទាប់ពីការបណ្តុះបណ្តាលគំរូនៃការសាយភាយ GLIDE ប៉ារ៉ាម៉ែត្រចំនួន 3.5 ពាន់លានដោយប្រើឧបករណ៍បំប្លែងអត្ថបទដើម្បីដាក់លក្ខខណ្ឌលើការពិពណ៌នាភាសាធម្មជាតិ អ្នកស្រាវជ្រាវបានសាកល្បងយុទ្ធសាស្រ្តណែនាំជំនួសពីរ៖ ការណែនាំ CLIP និងការណែនាំដោយគ្មានចំណាត់ថ្នាក់។

CLIP គឺជាបច្ចេកទេសដែលអាចធ្វើមាត្រដ្ឋានបានសម្រាប់ការរៀនតំណាងរួមនៃអត្ថបទ និងរូបភាពដែលផ្តល់ពិន្ទុដោយផ្អែកលើទំហំរូបភាពជិតទៅនឹងចំណងជើង។

ក្រុមការងារបានប្រើយុទ្ធសាស្រ្តនេះនៅក្នុងគំរូចែកចាយរបស់ពួកគេដោយជំនួសអ្នកចាត់ថ្នាក់ដោយគំរូ CLIP ដែល "ណែនាំ" គំរូ។ ទន្ទឹមនឹងនេះ ការណែនាំដោយគ្មានចំណាត់ថ្នាក់គឺជាយុទ្ធសាស្ត្រសម្រាប់ដឹកនាំគំរូនៃការសាយភាយដែលមិនពាក់ព័ន្ធនឹងការបណ្តុះបណ្តាលអ្នកចាត់ថ្នាក់ដាច់ដោយឡែក។

ស្ថាបត្យកម្ម GLIDE

ស្ថាបត្យកម្ម GLIDE មានធាតុផ្សំបីយ៉ាង៖ គំរូអាប់ដេតសាយភាយ (ADM) ដែលត្រូវបានបណ្តុះបណ្តាលដើម្បីបង្កើតរូបភាព 64 × 64 គំរូអត្ថបទ (ប្លែង) ដែលមានឥទ្ធិពលលើការបង្កើតរូបភាពតាមរយៈប្រអប់បញ្ចូលអត្ថបទ និងគំរូគំរូដែលបំប្លែងទំហំតូច 64 × 64 របស់យើង។ រូបភាពដែលអាចបកស្រាយបានកាន់តែច្រើន 256 x 256 ភីកសែល។

សមាសធាតុពីរដំបូងធ្វើការជាមួយគ្នាដើម្បីគ្រប់គ្រងដំណើរការបង្កើតរូបភាព ដូច្នេះវាឆ្លុះបញ្ចាំងយ៉ាងត្រឹមត្រូវនូវប្រអប់បញ្ចូលអត្ថបទ ខណៈដែលសមាសធាតុបន្ទាប់គឺតម្រូវឱ្យធ្វើឱ្យរូបភាពដែលយើងបង្កើតកាន់តែងាយស្រួលយល់។ គម្រោង GLIDE ត្រូវបានបំផុសគំនិតដោយ ក របាយការណ៍ចេញផ្សាយនៅឆ្នាំ ២០២០ ដែលបង្ហាញថាបច្ចេកទេសរបស់ ADM ដំណើរការលើសពីគំរូនៃការបង្កើតដ៏ពេញនិយម និងទាន់សម័យនាពេលបច្ចុប្បន្នទាក់ទងនឹងគុណភាពគំរូរូបភាព។

សម្រាប់ ADM អ្នកនិពន្ធ GLIDE បានប្រើប្រាស់ម៉ូដែល ImageNet 64 x 64 ដូចគ្នាជាមួយ Dhariwal និង Nichol ប៉ុន្តែមាន 512 channels ជំនួសឱ្យ 64។ គំរូ ImageNet មានប៉ារ៉ាម៉ែត្រប្រហែល 2.3 ពាន់លានដែលជាលទ្ធផលនៃបញ្ហានេះ។

ក្រុម GLIDE មិនដូច Dhariwal និង Nichol ទេ ចង់មានការគ្រប់គ្រងផ្ទាល់កាន់តែខ្លាំងលើដំណើរការបង្កើតរូបភាព ដូច្នេះពួកគេបានបញ្ចូលគ្នានូវគំរូដែលមើលឃើញជាមួយនឹងឧបករណ៍បំលែងដែលបើកការយកចិត្តទុកដាក់។ GLIDE ផ្តល់ឱ្យអ្នកនូវការគ្រប់គ្រងមួយចំនួនលើដំណើរការបង្កើតរូបភាពដោយដំណើរការការបញ្ចូលអត្ថបទ។

រំកិលប្រៀបធៀបជាមួយម៉ូដែលផ្សេងទៀត។

នេះត្រូវបានសម្រេចដោយការបណ្តុះបណ្តាលគំរូប្លែងលើសំណុំទិន្នន័យធំដែលសមស្របនៃរូបថត និងចំណងជើង (ស្រដៀងទៅនឹងអ្វីដែលប្រើក្នុងគម្រោង DALL-E)។

អត្ថបទដំបូងត្រូវបានបំប្លែងជាស៊េរីនៃ K tokens ដើម្បីដាក់លក្ខខណ្ឌ។ បន្ទាប់ពីនោះសញ្ញាសម្ងាត់ត្រូវបានផ្ទុកទៅក្នុងគំរូប្លែង។ បន្ទាប់មកទិន្នផលនៃ transformer អាចត្រូវបានប្រើតាមពីរវិធី។ សម្រាប់គំរូ ADM ការបង្កប់សញ្ញាសម្ងាត់ចុងក្រោយត្រូវបានប្រើប្រាស់ជំនួសឱ្យការបង្កប់ថ្នាក់។

ទីពីរ ស្រទាប់ចុងក្រោយនៃការបង្កប់និមិត្តសញ្ញា - ស៊េរីនៃវ៉ិចទ័រលក្ខណៈពិសេស - ត្រូវបានព្យាករដោយឯករាជ្យទៅនឹងវិមាត្រសម្រាប់ស្រទាប់យកចិត្តទុកដាក់នីមួយៗនៅក្នុងគំរូ ADM ហើយភ្ជាប់ទៅបរិបទនៃការយកចិត្តទុកដាក់នីមួយៗ។

តាមពិតទៅ នេះអនុញ្ញាតឱ្យគំរូ ADM បង្កើតរូបភាពពីបន្សំថ្មីនៃនិមិត្តសញ្ញាអត្ថបទស្រដៀងគ្នាក្នុងទម្រង់ប្លែក និងរូបភាពជាក់ស្តែង ដោយផ្អែកលើការយល់ដឹងដែលបានរៀនពីពាក្យបញ្ចូល និងរូបភាពដែលពាក់ព័ន្ធរបស់វា។ ឧបករណ៍បំប្លែងការអ៊ិនកូដអត្ថបទនេះមាន 1.2 ពាន់លានប៉ារ៉ាម៉ែត្រ ហើយប្រើប្រាស់ 24 ប្លុកដែលនៅសល់ដែលមានទទឹង 2048 ។

ជាចុងក្រោយ គំរូនៃការសាយភាយ upsampler រួមបញ្ចូលប៉ារ៉ាម៉ែត្រប្រហែល 1.5 ពាន់លាន ហើយប្រែប្រួលពីគំរូមូលដ្ឋាន ដែលឧបករណ៍បំប្លែងអត្ថបទរបស់វាតូចជាង ជាមួយនឹងទទឹង 1024 និង 384 ប៉ុស្តិ៍មូលដ្ឋាន បើប្រៀបធៀបទៅនឹងគំរូមូលដ្ឋាន។ ម៉ូដែលនេះ ដូចដែលឈ្មោះបានបង្ហាញ ជំនួយក្នុងការធ្វើឱ្យប្រសើរឡើងនៃគំរូក្នុងគោលបំណងធ្វើឱ្យប្រសើរឡើងនូវការបកស្រាយសម្រាប់ទាំងម៉ាស៊ីន និងមនុស្ស។

រំកិលរូបភាពតូចៗដែលបានត្រង

គំរូនៃការសាយភាយ

GLIDE បង្កើតរូបភាពដោយប្រើកំណែ ADM ផ្ទាល់របស់វា (ADM-G សម្រាប់ "ណែនាំ")។ គំរូ ADM-G គឺជាការកែប្រែនៃគំរូ U-net សាយភាយ។ គំរូបំប៉ោង U-net មានភាពខុសគ្នាយ៉ាងខ្លាំងពីបច្ចេកទេសសំយោគរូបភាពទូទៅដូចជា VAE, GAN និង transformers ។

ម៉ូដែលចែកចាយ

ពួកគេបង្កើតខ្សែសង្វាក់ Markov នៃជំហាននៃការសាយភាយ ដើម្បីបញ្ចូលសំឡេងរំខានបន្តិចម្តងៗទៅក្នុងទិន្នន័យ ហើយបន្ទាប់មករៀនដើម្បីបញ្ច្រាសដំណើរការសាយភាយ និងបង្កើតឡើងវិញនូវគំរូទិន្នន័យដែលត្រូវការពីសំលេងរំខានតែម្នាក់ឯង។ វាដំណើរការជាពីរដំណាក់កាល៖ ការសាយភាយទៅមុខ និងបញ្ច្រាស។

វិធីសាស្ត្រនៃការសាយភាយទៅមុខ ដែលផ្តល់ចំណុចទិន្នន័យពីការចែកចាយពិតរបស់គំរូ បន្ថែមសំលេងរំខានតិចតួចដល់គំរូតាមស៊េរីជំហានដែលបានកំណត់ជាមុន។ នៅពេលដែលជំហានកើនឡើងក្នុងទំហំ និងចូលទៅជិតភាពគ្មានទីបញ្ចប់ គំរូបាត់បង់លក្ខណៈដែលអាចស្គាល់បានទាំងអស់ ហើយលំដាប់ចាប់ផ្តើមស្រដៀងទៅនឹងខ្សែកោង isotropic Gaussian ។

រូបភាពរំកិលគ្មានសំលេងរំខាន

ក្នុងអំឡុងពេលនៃការសាយភាយថយក្រោយ ដំណាក់កាល, គំរូនៃការសាយភាយ រៀនបញ្ច្រាសឥទ្ធិពលនៃសំលេងរំខានបន្ថែមលើរូបភាព ហើយនាំរូបភាពដែលបានផលិតត្រឡប់ទៅរូបរាងដើមវិញ ដោយព្យាយាមស្រដៀងទៅនឹងការចែកចាយគំរូបញ្ចូលដើម។

គំរូដែលបានបញ្ចប់អាចធ្វើដូច្នេះបានជាមួយនឹងការបញ្ចូលសំលេងរំខាន Gaussian ពិតប្រាកដ និងការបញ្ចូលភ្លាមៗ។ វិធីសាស្ត្រ ADM-G ប្រែប្រួលពីគំរូមុនក្នុងនោះ ទាំង CLIP ឬឧបករណ៍បំប្លែងតាមបំណង ជះឥទ្ធិពលដល់ដំណាក់កាលនៃការសាយភាយថយក្រោយដោយប្រើប្រាស់និមិត្តសញ្ញាប្រអប់បញ្ចូលអត្ថបទដែលត្រូវបានបញ្ចូល។

សមត្ថភាពរអិល

1. ការបង្កើតរូបភាព

ការប្រើប្រាស់ GLIDE ដែលពេញនិយម និងប្រើប្រាស់យ៉ាងទូលំទូលាយ ប្រហែលជាការសំយោគរូបភាព។ ទោះបីជារូបភាពមានលក្ខណៈតិចតួចក៏ដោយ ហើយ GLIDE មានការលំបាកជាមួយទម្រង់សត្វ/មនុស្ស សក្តានុពលសម្រាប់ការផលិតរូបភាពតែមួយដងគឺស្ទើរតែគ្មានទីបញ្ចប់។

ការបង្កើតរូបភាពជាមួយ GLIDE

វាអាចបង្កើតរូបថតសត្វ តារាល្បីៗ ទេសភាព អគារ និងអ្វីៗជាច្រើនទៀត ហើយវាអាចធ្វើវាបានតាមរចនាបថសិល្បៈផ្សេងៗ ក៏ដូចជារូបថតជាក់ស្តែងផងដែរ។ អ្នកនិពន្ធនៃអ្នកស្រាវជ្រាវអះអាងថា GLIDE មានសមត្ថភាពក្នុងការបកស្រាយ និងសម្របខ្លួននូវភាពខុសគ្នាយ៉ាងទូលំទូលាយនៃការបញ្ចូលអត្ថបទទៅជាទម្រង់ដែលមើលឃើញ ដូចដែលបានឃើញនៅក្នុងគំរូខាងក្រោម។

2. ផ្ទាំងគំនូររលោង

ការគូររូបដោយស្វ័យប្រវត្តិរបស់ GLIDE គឺជាការប្រើប្រាស់ដ៏គួរឱ្យចាប់អារម្មណ៍បំផុត។ GLIDE អាចយករូបភាពដែលមានស្រាប់ជាការបញ្ចូល ដំណើរការវាដោយប្រើប្រអប់បញ្ចូលអត្ថបទក្នុងចិត្តសម្រាប់ទីតាំងដែលត្រូវផ្លាស់ប្តូរ ហើយបន្ទាប់មកធ្វើការកែប្រែសកម្មចំពោះផ្នែកទាំងនោះដោយភាពងាយស្រួល។

វាត្រូវតែប្រើដោយភ្ជាប់ជាមួយគំរូកែសម្រួល ដូចជា SDEdit ដើម្បីទទួលបានលទ្ធផលកាន់តែប្រសើរ។ នៅពេលអនាគត កម្មវិធីដែលទាញយកអត្ថប្រយោជន៍ពីសមត្ថភាពបែបនេះអាចនឹងមានសារៈសំខាន់ក្នុងការបង្កើតវិធីសាស្រ្តផ្លាស់ប្តូររូបភាពដោយគ្មានកូដ។

សន្និដ្ឋាន

ឥឡូវនេះ យើងបានឆ្លងកាត់ដំណើរការហើយ អ្នកគួរតែយល់ពីមូលដ្ឋានគ្រឹះនៃរបៀបដែល GLIDE ដំណើរការ ក៏ដូចជាទំហំនៃសមត្ថភាពរបស់វាក្នុងការបង្កើតរូបភាព និងការកែប្រែក្នុងរូបភាព។

បើក AI Glide (Diffusion) - ការបង្កើតរូបភាពដោយគ្រាន់តែបញ្ចូលអត្ថបទ

តើអ្វីជា បើក AI Glide?

ស្ថាបត្យកម្ម GLIDE

គំរូនៃការសាយភាយ

សមត្ថភាពរអិល

1. ការបង្កើតរូបភាព

2. ផ្ទាំងគំនូររលោង

សន្និដ្ឋាន

អំពីពួកយើង លោក Jay

អត្ថបទបន្ថែមអំពី HashDork៖

វិធីកាត់បន្ថយភាពច្របូកច្របល់ក្នុង AI របស់អ្នក។

Colossyan ទល់នឹង Heygen

ព្រឹត្តិបត្រព័ត៌មានបច្ចេកវិទ្យានាពេលអនាគតនេះមិនជះឥទ្ធិពលទេ។

បើក AI Glide (Diffusion) - ការបង្កើតរូបភាពដោយគ្រាន់តែបញ្ចូលអត្ថបទ

តើអ្វីជា បើក AI Glide?

ស្ថាបត្យកម្ម GLIDE

គំរូនៃការសាយភាយ

សមត្ថភាពរអិល

1. ការបង្កើតរូបភាព

2. ផ្ទាំងគំនូររលោង

សន្និដ្ឋាន

អំពីពួកយើង លោក Jay

អត្ថបទបន្ថែមអំពី HashDork៖

វិធីកាត់បន្ថយភាពច្របូកច្របល់ក្នុង AI របស់អ្នក។

ឧបករណ៍ AI ល្អបំផុតទាំង 10 សម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយសង្គម

Colossyan ទល់នឹង Heygen

ឧបករណ៍បង្កើតវីដេអូដែលមានចលនា AI ល្អបំផុតទាំង 10

អន្តរកម្មកម្មវិធីអាន

សូមផ្ដល់យោបល់ បោះបង់ការឆ្លើយតប

ព្រឹត្តិបត្រព័ត៌មានបច្ចេកវិទ្យានាពេលអនាគតនេះមិនជះឥទ្ធិពលទេ។

សូមផ្ដល់យោបល់