ជាទូទៅ គំរូបង្កើតស៊ីជម្រៅដូចជា GANs, VAEs និងម៉ូដែល autoregressive ដោះស្រាយបញ្ហាការសំយោគរូបភាព។
ដោយសារគុណភាពខ្ពស់នៃទិន្នន័យដែលពួកគេបង្កើត បណ្តាញប្រឆាំងទូទៅ (GANs) បានទទួលការចាប់អារម្មណ៍យ៉ាងខ្លាំងក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ។
គំរូនៃការសាយភាយគឺជាវិស័យសិក្សាដ៏គួរឱ្យចាប់អារម្មណ៍មួយផ្សេងទៀតដែលបានបង្កើតឡើងដោយខ្លួនឯង។ វិស័យនៃការបង្កើតរូបភាព វីដេអូ និងសំឡេង បានរកឃើញការប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ពួកគេទាំងពីរ។
គំរូនៃការសាយភាយធៀបនឹង GANs៖ តើមួយណាផ្តល់លទ្ធផលប្រសើរជាង? តាមធម្មជាតិ នេះបាននាំឱ្យមានការពិភាក្សាបន្ត។
នៅក្នុងស្ថាបត្យកម្មគណនាដែលគេស្គាល់ថាជា GAN ពីរ បណ្តាញសរសៃប្រសាទ ត្រូវបានប្រយុទ្ធប្រឆាំងនឹងគ្នាទៅវិញទៅមកដើម្បីបង្កើតទិន្នន័យដែលបានសំយោគថ្មីដែលអាចបញ្ជូនទិន្នន័យពិត។
ម៉ូដែល Diffusion កំពុងទទួលបានប្រជាប្រិយភាពកាន់តែខ្លាំងឡើង ចាប់តាំងពីពួកគេផ្តល់នូវស្ថេរភាពនៃការបណ្តុះបណ្តាល និងលទ្ធផលខ្ពស់សម្រាប់ផលិតតន្ត្រី និងក្រាហ្វិក។
អត្ថបទនេះនឹងរៀបរាប់លម្អិតអំពីគំរូចែកចាយ និង GAN ក៏ដូចជារបៀបដែលវាខុសគ្នាពីគ្នាទៅវិញទៅមក និងរឿងមួយចំនួនទៀត។
ដូច្នេះ តើអ្វីទៅជា Generative Adversarial Networks?
ដើម្បីបង្កើតទិន្នន័យសិប្បនិម្មិតថ្មី ដែលអាចច្រឡំថាជាទិន្នន័យពិតប្រាកដ បណ្តាញគូបដិបក្ខទូទៅ (GANs) ប្រើប្រាស់បណ្តាញសរសៃប្រសាទពីរ ហើយដាក់ពួកវាប្រឆាំងនឹងគ្នាទៅវិញទៅមក (ដូច្នេះ "សត្រូវ" នៅក្នុងឈ្មោះ) ។
ពួកវាត្រូវបានប្រើប្រាស់យ៉ាងទូលំទូលាយសម្រាប់ការនិយាយ វីដេអូ និងការបង្កើតរូបភាព។
គោលបំណងរបស់ GAN គឺដើម្បីបង្កើតទិន្នន័យដែលមិនបានរកឃើញពីមុនពីសំណុំទិន្នន័យជាក់លាក់មួយ។ ការប៉ុនប៉ងដើម្បីសន្និដ្ឋានគំរូនៃការចែកចាយទិន្នន័យមូលដ្ឋានជាក់ស្តែង មិនស្គាល់អត្តសញ្ញាណពីគំរូ ធ្វើដូច្នេះ។
ម្យ៉ាងវិញទៀត បណ្តាញទាំងនេះគឺជាគំរូបង្កប់ន័យដែលព្យាយាមសិក្សាការចែកចាយស្ថិតិជាក់លាក់មួយ។
វិធីសាស្រ្តដែល GAN ប្រើដើម្បីស្វែងយល់ពីរបៀបដើម្បីសម្រេចគោលបំណងនេះគឺប្រលោមលោក។ តាមពិត ពួកគេផលិតទិន្នន័យដោយការលេងហ្គេមដែលមានអ្នកលេងពីរនាក់ ដើម្បីបង្កើតគំរូមិនច្បាស់លាស់។
ខាងក្រោមនេះពិពណ៌នាអំពីរចនាសម្ព័ន្ធ៖
- អ្នករើសអើងដែលទទួលបាននូវសមត្ថភាពក្នុងការបែងចែករវាងទិន្នន័យពិតប្រាកដ និងក្លែងក្លាយ
- ម៉ាស៊ីនភ្លើងដែលជ្រើសរើសវិធីថ្មីដើម្បីបង្កើតទិន្នន័យអាចបញ្ឆោតអ្នករើសអើង។
អ្នករើសអើងបង្កើតជាបណ្តាញសរសៃប្រសាទ។ ដូច្នេះម៉ាស៊ីនភ្លើងត្រូវការបង្កើតរូបភាពដែលមានគុណភាពខ្ពស់ដើម្បីបញ្ឆោតវា។
ការពិតដែលថាម៉ាស៊ីនភ្លើងទាំងនេះមិនត្រូវបានបណ្តុះបណ្តាលដោយប្រើការចែកចាយលទ្ធផលណាមួយគឺជាភាពខុសគ្នាយ៉ាងសំខាន់រវាងម៉ូដែល autoencoder និងម៉ូដែលផ្សេងទៀត។
មានវិធីពីរយ៉ាងដើម្បីបំបែកមុខងារបាត់បង់នៃគំរូ៖
- សមត្ថភាពក្នុងការកំណត់បរិមាណ ប្រសិនបើអ្នករើសអើងបានមើលឃើញទិន្នន័យពិតប្រាកដ
- ទិន្នន័យដែលបានបង្កើតត្រូវបានព្យាករណ៍យ៉ាងត្រឹមត្រូវដោយផ្នែកមួយ។
នៅលើអ្នករើសអើងដែលអាចធ្វើបានល្អបំផុត មុខងារបាត់បង់នេះត្រូវបានបង្រួមអប្បបរមា៖
ដូច្នេះហើយ គំរូទូទៅអាចត្រូវបានគេគិតថាជាគំរូកាត់បន្ថយចម្ងាយ ហើយប្រសិនបើការរើសអើងគឺល្អ នោះជាការកាត់បន្ថយភាពខុសគ្នារវាងការចែកចាយពិត និងផលិត។
តាមការពិត ភាពខុសគ្នាផ្សេងគ្នាអាចនឹងត្រូវបានប្រើប្រាស់ ហើយជាលទ្ធផលនៅក្នុងវិធីសាស្រ្តបណ្តុះបណ្តាល GAN ផ្សេងៗ។
សក្ដានុពលនៃការសិក្សា ដែលរួមបញ្ចូលការដោះដូររវាងម៉ាស៊ីនភ្លើង និងអ្នករើសអើង កំពុងមានការប្រកួតប្រជែងក្នុងការធ្វើតាម ទោះបីជាវាមានលក្ខណៈសាមញ្ញក្នុងការកែតម្រូវមុខងារបាត់បង់របស់ GANs ក៏ដោយ។
មិនមានការធានាថាការរៀននឹងចូលរួមនោះទេ។ ជាលទ្ធផល ការបណ្តុះបណ្តាលគំរូ GAN គឺពិបាក ព្រោះវាជារឿងធម្មតាក្នុងការដំណើរការលើបញ្ហាដូចជាការបាត់ជម្រាល និងការដួលរលំនៃរបៀប (នៅពេលដែលមិនមានភាពចម្រុះនៅក្នុងគំរូដែលបានបង្កើត)។
ឥឡូវនេះវាដល់ពេលហើយសម្រាប់ Diffusion Models
បញ្ហាជាមួយនឹងការបង្រួបបង្រួមការបណ្តុះបណ្តាលរបស់ GANs ត្រូវបានដោះស្រាយតាមរយៈការអភិវឌ្ឍន៍គំរូនៃការសាយភាយ។
ម៉ូដែលទាំងនេះសន្មត់ថាដំណើរការសាយភាយស្មើនឹងការបាត់បង់ព័ត៌មានដែលនាំមកដោយការជ្រៀតជ្រែកជាលំដាប់នៃសំលេងរំខាន (សំលេងរំខាន gaussian ត្រូវបានបន្ថែមនៅគ្រប់ដំណាក់កាលនៃដំណើរការសាយភាយ)។
គោលបំណងនៃគំរូបែបនេះគឺដើម្បីកំណត់ថាតើសំឡេងរំខានប៉ះពាល់ដល់ព័ត៌មានដែលមាននៅក្នុងគំរូ ឬដើម្បីដាក់វាតាមវិធីផ្សេងទៀតថាតើព័ត៌មានប៉ុន្មានត្រូវបានបាត់បង់ដោយសារតែការសាយភាយ។
ប្រសិនបើគំរូមួយអាចដោះស្រាយបញ្ហានេះ វាគួរតែអាចយកគំរូដើមមកវិញ ហើយមិនធ្វើការបាត់បង់ព័ត៌មានដែលបានកើតឡើង។
នេះត្រូវបានសម្រេចតាមរយៈគំរូ diffusion denoising ។ ដំណើរការសាយភាយទៅមុខ និងដំណើរការសាយភាយបញ្ច្រាសបង្កើតឡើងជាពីរជំហាន។
ដំណើរការនៃការសាយភាយទៅមុខពាក់ព័ន្ធនឹងការបន្ថែមសំលេងរំខាន Gaussian បន្តិចម្តងៗ (ពោលគឺដំណើរការសាយភាយ) រហូតដល់ទិន្នន័យត្រូវបានបំពុលទាំងស្រុងដោយសំលេងរំខាន។
បណ្តាញសរសៃប្រសាទត្រូវបានបណ្តុះបណ្តាលជាបន្តបន្ទាប់ដោយប្រើវិធីនៃការសាយភាយបញ្ច្រាសដើម្បីសិក្សាពីប្រូបាប៊ីលីតេនៃការចែកចាយតាមលក្ខខណ្ឌដើម្បីបញ្ច្រាសសំលេងរំខាន។
នៅទីនេះអ្នកអាចយល់បន្ថែមអំពី គំរូនៃការសាយភាយ.
គំរូចែកចាយ Vs GANs
ដូចជាគំរូចែកចាយ GANs ផលិតរូបភាពពីសំលេងរំខាន។
គំរូនេះត្រូវបានបង្កើតឡើងដោយបណ្តាញសរសៃប្រសាទរបស់ម៉ាស៊ីនភ្លើង ដែលចាប់ផ្តើមដោយសំលេងរំខាននៃអថេរលក្ខខណ្ឌព័ត៌មានមួយចំនួន ដូចជាស្លាកថ្នាក់ ឬការអ៊ិនកូដអត្ថបទ។
បន្ទាប់មកលទ្ធផលគួរតែជាអ្វីមួយដែលស្រដៀងនឹងរូបភាពជាក់ស្តែង។
ដើម្បីបង្កើតជំនាន់រូបភាពដែលមានភាពប្រាកដនិយម និងមានភាពស្មោះត្រង់ខ្ពស់ យើងប្រើ GANs ។ សូម្បីតែរូបភាពជាក់ស្តែងជាង GANs ត្រូវបានផលិតដោយប្រើគំរូនៃការសាយភាយ។
តាមរបៀបមួយ គំរូនៃការសាយភាយមានភាពត្រឹមត្រូវជាងមុនក្នុងការពិពណ៌នាការពិត។
ខណៈពេលដែល GAN យកជាសំលេងរំខានចៃដន្យបញ្ចូល ឬអថេរនៃលក្ខខណ្ឌថ្នាក់ និងបញ្ចេញនូវគំរូជាក់ស្តែង គំរូនៃការសាយភាយច្រើនតែយឺតជាង ធ្វើម្តងទៀត និងត្រូវការការណែនាំបន្ថែមទៀត។
មិនមានកន្លែងច្រើនសម្រាប់កំហុសទេ នៅពេលដែលការបដិសេធត្រូវបានអនុវត្តម្តងហើយម្តងទៀតជាមួយនឹងគោលដៅនៃការត្រឡប់ទៅរូបភាពដើមពីសំលេងរំខាន។
ចំណុចត្រួតពិនិត្យនីមួយៗត្រូវបានឆ្លងកាត់ពេញមួយដំណាក់កាលនៃការបង្កើត ហើយជាមួយនឹងជំហាននីមួយៗ រូបភាពអាចទទួលបានព័ត៌មានកាន់តែច្រើនឡើង។
សន្និដ្ឋាន
សរុបសេចក្តីមក ដោយសារតែការស្រាវជ្រាវសំខាន់ៗមួយចំនួនដែលត្រូវបានបោះពុម្ពតែនៅក្នុងឆ្នាំ 2020 និង 2021 នោះ គំរូនៃការសាយភាយឥឡូវនេះអាចដំណើរការលើសពី GANs ទាក់ទងនឹងការសំយោគរូបភាព។
ឆ្នាំនេះ OpenAI បានបើកដំណើរការ DALL-E2គំរូផលិតរូបភាពដែលអនុញ្ញាតឱ្យអ្នកអនុវត្តប្រើគំរូផ្សព្វផ្សាយ។
ទោះបីជា GANs មានភាពទំនើបទាន់សម័យក៏ដោយ ឧបសគ្គរបស់ពួកគេធ្វើឱ្យវាពិបាកក្នុងការធ្វើមាត្រដ្ឋាន និងប្រើប្រាស់វាក្នុងបរិបទថ្មី។
ដើម្បីសម្រេចបាននូវគុណភាពគំរូដូច GAN ដោយប្រើគំរូដែលផ្អែកលើលទ្ធភាព ការងារជាច្រើនត្រូវបានដាក់បញ្ចូលទៅក្នុងវា។
សូមផ្ដល់យោបល់