AI ថ្មី និងធ្វើឱ្យប្រសើរឡើងបានធ្វើឱ្យប្រសើរឡើងនូវសមត្ថភាព ការយល់ដឹង និងសមត្ថភាពផលិតរូបភាពដែលមានគុណភាពបង្ហាញខ្ពស់។ ថ្មីៗនេះ អ្នកប្រហែលជាបានឃើញរូបភាពចម្លែក និងគួរឱ្យអស់សំណើចមួយចំនួនអណ្តែតលើអ៊ីនធឺណិត។
ឆ្កែ Shiba Inu ស្លៀកពាក់អាវទ្រនាប់ និងអាវអណ្តើកពណ៌ខ្មៅ។ និងសត្វអណ្តើកសមុទ្រតាមរបៀបរបស់វិចិត្រករជនជាតិហូឡង់ Vermeer "Girl with a Pearl Earring" ។ ហើយមានស៊ុបមួយពែងដែលមើលទៅដូចជាសត្វចម្លែក។
រូបភាពទាំងនេះ មិនត្រូវបានបង្កើតឡើងដោយវិចិត្រករមនុស្សទេ។
ផ្ទុយទៅវិញ DALL-E 2 ដែលជាប្រព័ន្ធ AI ថ្មីមួយដែលអាចបំប្លែងការពិពណ៌នាអត្ថបទទៅជារូបភាព បានបង្កើតពួកវា។
គ្រាន់តែសរសេរអ្វីដែលអ្នកចង់ឃើញ ហើយ AI នឹងបង្កើតវាសម្រាប់អ្នក - លម្អិតរស់រវើក គុណភាពដ៏អស្ចារ្យ និងក្នុងករណីខ្លះ ការច្នៃប្រឌិតពិតប្រាកដ។ នៅក្នុងការប្រកាសនេះ យើងនឹងពិនិត្យមើលយ៉ាងស៊ីជម្រៅលើការសិក្សាចុងក្រោយរបស់ OpenAI គឺ DALL.E 2 ក៏ដូចជារបៀបដែលវាដំណើរការ និងច្រើនទៀត។ តោះចាប់ផ្តើម។
ដូច្នេះអ្វីដែលពិតប្រាកដ DALL.E ២?
DALL-E 2 គឺជា "គំរូទូទៅ" ដែលជាប្រភេទនៃក្បួនដោះស្រាយការរៀនម៉ាស៊ីនដែលបង្កើតលទ្ធផលស្មុគស្មាញជាជាងអនុវត្តកិច្ចការទស្សន៍ទាយ ឬចាត់ថ្នាក់លើទិន្នន័យបញ្ចូល។
អ្នកផ្តល់ DALL-E 2 ជាមួយនឹងការពិពណ៌នាជាលាយលក្ខណ៍អក្សរ ហើយវាបង្កើតរូបភាពដែលត្រូវនឹងវា។ ដោយការរួមបញ្ចូលគំនិត គុណភាព និងរចនាប័ទ្ម នោះ OpenAI's DALLE 2 អាចបង្កើតក្រាហ្វិក និងសិល្បៈប្រកបដោយភាពច្នៃប្រឌិត ជាក់ស្តែងពីការពិពណ៌នាភាសាជាមូលដ្ឋាន។
កំណែចុងក្រោយបង្អស់ DALLE 2 ត្រូវបានគេនិយាយថា មានភាពចម្រុះជាងមុន មានសមត្ថភាពបង្កើតរូបភាពពីចំណងជើងក្នុងកម្រិតច្បាស់ខ្ពស់ និងនៅក្នុងរចនាប័ទ្មច្នៃប្រឌិតដ៏ធំទូលាយ។ ឧទាហរណ៍ រូបភាពខាងក្រោម (ពីការបង្ហោះប្លុក DALL-E 2) ត្រូវបានបង្កើតឡើងដោយការពិពណ៌នា "អវកាសយានិកជិះសេះ" ។
ការពិពណ៌នាមួយសន្និដ្ឋានថា "ដូចជាគំនូរព្រាងខ្មៅដៃ" ចំណែកមួយទៀតសន្និដ្ឋានថា "តាមរូបភាពជាក់ស្តែង"។
វាក៏អាចផ្លាស់ប្តូររូបថតដែលមានស្រាប់ជាមួយនឹងភាពជាក់លាក់គួរឱ្យភ្ញាក់ផ្អើលផងដែរ។ ដូច្នេះ អ្នកអាចបន្ថែម ឬលុបធាតុ ខណៈពេលដែលរក្សាពណ៌ ការឆ្លុះបញ្ចាំង និងស្រមោល ខណៈពេលដែលរក្សារូបរាងដើមរបស់រូបភាព។
តើវាដំណើរការយ៉ាងដូចម្តេច?
DALL-E 2 ប្រើប្រាស់ម៉ូដែល CLIP និង diffusion ដែលមានលក្ខណៈទំនើបចំនួនពីរ ការរៀនសូត្រជ្រៅ វិធីសាស្រ្តដែលត្រូវបានអភិវឌ្ឍក្នុងប៉ុន្មានឆ្នាំថ្មីៗនេះ។ ទោះយ៉ាងណាក៏ដោយ វាត្រូវបានផ្អែកលើគំនិតដូចគ្នាទៅនឹងជម្រៅផ្សេងទៀតទាំងអស់។ បណ្តាញសរសៃប្រសាទ៖ ការរៀនតំណាង។ CLIP ក្នុងពេលដំណាលគ្នាហ្វឹកហាត់ពីរ បណ្តាញសរសៃប្រសាទ នៅលើរូបភាពនិងចំណងជើង។
បណ្តាញមួយរៀនតំណាងដែលមើលឃើញនៅក្នុងរូបភាព ខណៈពេលដែលបណ្តាញផ្សេងទៀតរៀនតំណាងអត្ថបទ។ ក្នុងអំឡុងពេលបណ្តុះបណ្តាល បណ្តាញទាំងពីរព្យាយាមកែប្រែប៉ារ៉ាម៉ែត្ររបស់ពួកគេ ដើម្បីឱ្យរូបភាព និងពណ៌នាដែលអាចប្រៀបធៀបគ្នាបាននាំឱ្យមានការបង្កប់ស្រដៀងគ្នា។
"Diffusion" ដែលជាប្រភេទគំរូទូទៅដែលរៀនបង្កើតរូបភាពដោយការបន្លឺសំឡេងបន្តិចម្តងៗ និងបដិសេធគំរូការបណ្តុះបណ្តាលរបស់វា គឺជាវិធីសាស្រ្តរៀនម៉ាស៊ីនផ្សេងទៀតដែលប្រើនៅក្នុង DALL-E 2។ ម៉ូដែល Diffusion គឺស្រដៀងទៅនឹង autoencoders ដែលពួកវាបំប្លែងទិន្នន័យបញ្ចូលទៅក្នុង ការបង្កប់តំណាង ហើយបន្ទាប់មកប្រើព័ត៌មានបង្កប់ដើម្បីបង្កើតទិន្នន័យដើមឡើងវិញ។
ការប្រើប្រាស់ OpenAI គំរូភាសា CLIP ដែលអាចភ្ជាប់ការពិពណ៌នាអត្ថបទជាមួយរូបថត វាបានបកប្រែការជម្រុញដែលបានសរសេរទៅជាទម្រង់កម្រិតមធ្យម ដែលរួមបញ្ចូលនូវលក្ខណៈសម្បត្តិសំខាន់ៗ ដែលរូបភាពគួរតែត្រូវគ្នានឹងប្រអប់បញ្ចូលនោះ (យោងទៅតាម CLIP)។
ទីពីរ DALL-E 2 បង្កើតការអនុលោមតាម CLIP រូបភាពដោយប្រើគំរូនៃការសាយភាយដែលជាបណ្តាញសរសៃប្រសាទ។
នៅលើរូបថតដែលបង្ខូចទ្រង់ទ្រាយជាមួយភីកសែលចៃដន្យ គំរូនៃការសាយភាយត្រូវបានរៀន។ ពួកគេរៀនពីរបៀបដើម្បីស្ដារទម្រង់ដើមរបស់រូបថត។ គំរូនៃការសាយភាយអាចបង្កើតរូបភាពសំយោគដែលមានគុណភាពខ្ពស់ ជាពិសេសនៅពេលប្រើដោយភ្ជាប់ជាមួយវិធីសាស្រ្តណែនាំដែលផ្តល់អាទិភាពដល់ភាពត្រឹមត្រូវជាងភាពចម្រុះ។
ជាលទ្ធផល, អេ គំរូនៃការសាយភាយ យកភីកសែលចៃដន្យ ហើយប្រើ CLIP ដើម្បីបំប្លែងវាទៅជារូបភាពថ្មីដែលត្រូវនឹងពាក្យបញ្ចូល។ ដោយសារតែគំនិតនៃការសាយភាយ DALL-E 2 អាចបង្កើតរូបភាពដែលមានគុណភាពបង្ហាញខ្ពស់លឿនជាង DALL-E ។
ករណីប្រើប្រាស់ DALL.E 2
ក្នុងរយៈពេលម្ភៃឆ្នាំចុងក្រោយនេះ ចក្ខុវិស័យកុំព្យូទ័រ បច្ចេកវិទ្យាបានរីកចម្រើនពីគំនិតសាមញ្ញ ទៅជារបកគំហើញដ៏សំខាន់មួយ។ ទោះបីជាមានភាពជឿនលឿនទាំងនេះក៏ដោយ គំរូសម្គាល់រូបភាព និងវត្ថុនៅតែប្រឈមមុខនឹងឧបសគ្គសំខាន់ៗនៅក្នុងជីវិតប្រចាំថ្ងៃ។ អវត្ដមាននៃសំណុំទិន្នន័យគឺជាគុណវិបត្តិដ៏សំខាន់បំផុតមួយនៃការទទួលស្គាល់រូបភាព និងចក្ខុវិស័យកុំព្យូទ័រ។ ដោយសារតែមានការខ្វះខាតទិន្នន័យនៅលើចុងទាំងពីរ ការបណ្តុះបណ្តាលគំរូការទទួលស្គាល់រូបភាពដើម្បីផ្តល់លទ្ធផលត្រឹមត្រូវ 100 ភាគរយគឺស្ទើរតែពិបាក។
ជាសំណាងល្អ គំរូរៀនម៉ាស៊ីនថ្មីរបស់ OpenAI អាចភ្ជាប់គម្លាតនៅក្នុងបច្ចេកវិទ្យា។ DALLE 2 មានសមត្ថភាពបង្កើតរូបភាពដ៏អស្ចារ្យដោយផ្អែកលើការពិពណ៌នាអត្ថបទ។ ការផលិតរូបភាពក្លែងក្លាយនេះអាចផ្តល់ទិន្នន័យដល់ម៉ូដែលសម្គាល់រូបភាពដោយផ្អែកលើតម្រូវការរបស់ពួកគេ។ អវត្ដមាននៃទិន្នន័យគឺជាឧបសគ្គដ៏សំខាន់សម្រាប់ការកំណត់អត្តសញ្ញាណវត្ថុ និងរូបភាព។
នៅក្នុងយុគសម័យឌីជីថល សំណុំទិន្នន័យមានគ្រប់ទីកន្លែង ប៉ុន្តែយើងនៅតែស្វែងរកផ្លូវកាត់ដើម្បីចិញ្ចឹមគំរូ AI ដូច្នេះវាអាចផ្តល់នូវលទ្ធផលល្អ។ ទោះយ៉ាងណាក៏ដោយ វាមិនសាមញ្ញទេក្នុងការបណ្តុះបណ្តាលគំរូសម្គាល់រូបភាព។ វាត្រូវការសំណុំទិន្នន័យមួយចំនួនធំ ជាមួយនឹងភាពខុសគ្នាតិចតួច ដែលយើងប្រហែលជាមិនអាចទៅយកបានដោយសាមញ្ញ។
ដូច្នេះ តើអ្វីជាចំលើយ៖ ចម្លើយគឺ DALLE 2។ ឧបករណ៍បង្កើតរូបភាព OpenAI ដែលមានសមត្ថភាពផលិតរូបភាពពីអត្ថបទ និងផ្លាស់ប្តូររូបភាពដែលមានស្រាប់ អាចជួយបិទគម្លាត។ វានឹងជួយក្នុងការបង្កើតទិន្នន័យបណ្តុះបណ្តាលបន្ថែម ខណៈពេលដែលកាត់បន្ថយចំនួននៃការដាក់ស្លាកមនុស្សដែលត្រូវការ។ ទោះបីជាមានអត្ថប្រយោជន៍យ៉ាងសំខាន់ក៏ដោយ អ្នកគួរតែដឹងពីការផលិតរូបភាពក្លែងក្លាយ និងរូបភាពដែលមិនរាប់បញ្ចូលការដាក់បញ្ចូល។ នេះអាចនាំទៅរកវិធីសាស្ត្រស្វែងរករូបភាពដែលបង្កើតលទ្ធផលលំអៀង។
ដែនកំណត់
DALL.E 2 ប្រហែលជាមានឥទ្ធិពលអាក្រក់ប្រសិនបើវាធ្លាក់ចូលទៅក្នុងដៃខុស នេះបើយោងតាម OpenAI ។ នៅក្នុងពិភពនៃការក្លែងបន្លំដ៏ជ្រៅនាពេលបច្ចុប្បន្ននេះ គំរូនេះអាចត្រូវបានប្រើយ៉ាងងាយស្រួលដើម្បីផ្សព្វផ្សាយព័ត៌មានមិនពិត ឬរូបភាពរើសអើងជាតិសាសន៍ ដែលជាមូលហេតុដែល OpenAI អនុញ្ញាតឱ្យអ្នកអភិវឌ្ឍន៍ប្រើ DALL.2 តាមការអញ្ជើញតែប៉ុណ្ណោះ។ ម៉ូដែលត្រូវតែអនុវត្តតាមការរឹតបន្តឹងខ្លឹមសារយ៉ាងម៉ឺងម៉ាត់សម្រាប់ការផ្ដល់យោបល់ទាំងអស់ដែលនាងទទួលបាន។
ដើម្បីមិនរាប់បញ្ចូលសក្តានុពលនៃ DALL.E 2 បង្កើតរូបភាពអរិភាព ឬហឹង្សាណាមួយ សំណុំទិន្នន័យត្រូវបានបង្កើតដោយគ្មានអាវុធប្រល័យលោកណាមួយឡើយ។ ខណៈពេលដែល OpenAI បាននិយាយថាខ្លួនមានគម្រោងបំប្លែងវាទៅជា API នាពេលអនាគត ក្នុងករណី DALL.E 2 វាមានឆន្ទៈក្នុងការបន្តដោយប្រុងប្រយ័ត្ន។
សន្និដ្ឋាន
DALL-E 2 គឺជារបកគំហើញស្រាវជ្រាវ OpenAI ដ៏គួរឱ្យចាប់អារម្មណ៍មួយទៀត ដែលបើកទ្វារសម្រាប់កម្មវិធីថ្មីៗ។
ឧទាហរណ៍មួយគឺការបង្កើតសំណុំទិន្នន័យដ៏ធំដើម្បីបំពេញនូវឧបសគ្គចម្បងមួយរបស់ចក្ខុវិស័យកុំព្យូទ័រ - ទិន្នន័យ។ ខណៈពេលដែលករណីសេដ្ឋកិច្ចសម្រាប់កម្មវិធីដែលមានមូលដ្ឋានលើ DALL-E ជាច្រើននឹងត្រូវបានកំណត់ដោយតម្លៃ និងគោលការណ៍ដែល OpenAI បង្កើតសម្រាប់អ្នកប្រើប្រាស់ API របស់វា ពួកវាទាំងអស់នឹងជំរុញការផលិតរូបភាព។
សូមផ្ដល់យោបល់