យើងទំនងជាទើបតែចាប់ផ្តើមនៃបដិវត្តន៍ AI ជំនាន់ថ្មី។
Generative Artificial Intelligence សំដៅលើក្បួនដោះស្រាយ និងគំរូដែលមានសមត្ថភាពបង្កើតមាតិកា។ លទ្ធផលនៃម៉ូដែលបែបនេះរួមមាន អត្ថបទ អូឌីយ៉ូ និងរូបភាព ដែលជារឿយៗអាចច្រឡំថាជាលទ្ធផលរបស់មនុស្សពិត។
កម្មវិធីដូចជា ជជែក GPT បានបង្ហាញថា AI ជំនាន់ថ្មី មិនមែនជារឿងថ្មីនោះទេ។ ឥឡូវនេះ AI មានសមត្ថភាពធ្វើតាមការណែនាំលម្អិត ហើយហាក់ដូចជាមានការយល់ដឹងយ៉ាងស៊ីជម្រៅអំពីរបៀបដែលពិភពលោកដំណើរការ។
ប៉ុន្តែតើយើងឈានដល់ចំណុចនេះដោយរបៀបណា? នៅក្នុងការណែនាំនេះ យើងនឹងឆ្លងកាត់របកគំហើញសំខាន់ៗមួយចំនួននៅក្នុងការស្រាវជ្រាវ AI ដែលបានត្រួសត្រាយផ្លូវសម្រាប់បដិវត្តន៍ AI ជំនាន់ថ្មី និងគួរឱ្យរំភើបនេះ។
ការកើនឡើងនៃបណ្តាញសរសៃប្រសាទ
អ្នកអាចតាមដានប្រភពដើមនៃ AI ទំនើបទៅនឹងការស្រាវជ្រាវ ការរៀនសូត្រជ្រៅ និងបណ្តាញសរសៃប្រសាទ ក្នុង 2012 ។
ក្នុងឆ្នាំនោះ Alex Krizhevsky និងក្រុមរបស់គាត់មកពីសាកលវិទ្យាល័យ Toronto អាចសម្រេចបាននូវក្បួនដោះស្រាយដែលមានភាពត្រឹមត្រូវខ្ពស់ដែលអាចចាត់ថ្នាក់វត្ថុបាន។
នេះ បណ្តាញសរសៃប្រសាទទំនើបដែលឥឡូវនេះគេស្គាល់ថាជា AlexNet អាចចាត់ថ្នាក់វត្ថុនៅក្នុងមូលដ្ឋានទិន្នន័យរូបភាព ImageNet ជាមួយនឹងអត្រាកំហុសទាបជាងអ្នករត់ការ។
បណ្តាញសរសៃប្រសាទ គឺជាក្បួនដោះស្រាយដែលប្រើបណ្តាញនៃអនុគមន៍គណិតវិទ្យាដើម្បីរៀនឥរិយាបថជាក់លាក់មួយដោយផ្អែកលើទិន្នន័យបណ្ដុះបណ្ដាលមួយចំនួន។ ឧទាហរណ៍ អ្នកអាចផ្តល់ទិន្នន័យវេជ្ជសាស្រ្ដបណ្តាញសរសៃប្រសាទដើម្បីបង្វឹកគំរូដើម្បីធ្វើរោគវិនិច្ឆ័យជំងឺដូចជាមហារីក។
ក្តីសង្ឃឹមគឺថាបណ្តាញសរសៃប្រសាទរកឃើញគំរូយឺតៗនៅក្នុងទិន្នន័យ ហើយកាន់តែមានភាពសុក្រឹតនៅពេលផ្តល់ទិន្នន័យប្រលោមលោក។
AlexNet គឺជាកម្មវិធីឈានមុខគេរបស់ a បណ្តាញសរសៃប្រសាទដែលមានដំណោះស្រាយ ឬ CNNs ។ ពាក្យគន្លឹះ "convolutional" សំដៅលើការបន្ថែមនៃស្រទាប់ convolutional ដែលសង្កត់ធ្ងន់ទៅលើទិន្នន័យដែលនៅជិតគ្នា។
ខណៈពេលដែល CNNs គឺជាគំនិតមួយរួចទៅហើយនៅក្នុងទសវត្សរ៍ឆ្នាំ 1980 ពួកគេទើបតែចាប់ផ្តើមទទួលបានប្រជាប្រិយភាពនៅដើមទសវត្សរ៍ឆ្នាំ 2010 នៅពេលដែលបច្ចេកវិទ្យា GPU ចុងក្រោយបង្អស់បានជំរុញបច្ចេកវិទ្យាដល់កម្រិតខ្ពស់ថ្មី។
ជោគជ័យរបស់ CNNs ក្នុងវិស័យ ចក្ខុវិស័យកុំព្យូទ័រ នាំឱ្យមានការចាប់អារម្មណ៍កាន់តែច្រើននៅក្នុងការស្រាវជ្រាវនៃបណ្តាញសរសៃប្រសាទ។
ក្រុមហ៊ុនបច្ចេកវិទ្យាយក្សដូចជា Google និង Facebook បានសម្រេចចិត្តបញ្ចេញក្របខ័ណ្ឌ AI ផ្ទាល់ខ្លួនរបស់ពួកគេជាសាធារណៈ។ APIs កម្រិតខ្ពស់ដូចជា កេរ៉ាស ផ្តល់ឱ្យអ្នកប្រើប្រាស់នូវចំណុចប្រទាក់ងាយស្រួលប្រើដើម្បីសាកល្បងជាមួយបណ្តាញសរសៃប្រសាទជ្រៅ។
CNNs មានភាពអស្ចារ្យក្នុងការទទួលស្គាល់រូបភាព និងការវិភាគវីដេអូ ប៉ុន្តែមានបញ្ហានៅពេលនិយាយអំពីការដោះស្រាយបញ្ហាផ្អែកលើភាសា។ ការកំណត់នេះនៅក្នុងដំណើរការភាសាធម្មជាតិអាចមាន ពីព្រោះថារូបភាព និងអត្ថបទពិតជាមានបញ្ហាខុសគ្នាជាមូលដ្ឋាន។
ឧទាហរណ៍ ប្រសិនបើអ្នកមានគំរូដែលចាត់ថ្នាក់ថាតើរូបភាពមានភ្លើងចរាចរណ៍ ឬយ៉ាងណានោះ ភ្លើងចរាចរណ៍ដែលនៅក្នុងសំណួរអាចបង្ហាញនៅគ្រប់ទីកន្លែងក្នុងរូបភាព។ ទោះជាយ៉ាងណាក៏ដោយ ភាពយឺតយ៉ាវបែបនេះមិនដំណើរការល្អនៅក្នុងភាសាទេ។ ប្រយោគ "លោក Bob បរិភោគត្រី" និង "ត្រីបានបរិភោគលោក Bob" មានអត្ថន័យខុសគ្នាយ៉ាងខ្លាំងទោះបីជាប្រើពាក្យដូចគ្នាក៏ដោយ។
វាច្បាស់ណាស់ថាអ្នកស្រាវជ្រាវត្រូវស្វែងរកវិធីសាស្រ្តថ្មីដើម្បីដោះស្រាយបញ្ហាទាក់ទងនឹងភាសារបស់មនុស្ស។
Transformers ផ្លាស់ប្តូរអ្វីៗគ្រប់យ៉ាង
នៅក្នុង 2017, a ឯកសារស្រាវជ្រាវ ចំណងជើងថា "យកចិត្តទុកដាក់គឺទាំងអស់ដែលអ្នកត្រូវការ" បានស្នើបណ្តាញប្រភេទថ្មី: Transformer ។
ខណៈពេលដែល CNNs ដំណើរការដោយការត្រងផ្នែកតូចៗនៃរូបភាពម្តងហើយម្តងទៀតនោះ transformers ភ្ជាប់រាល់ធាតុនៅក្នុងទិន្នន័យជាមួយនឹងធាតុផ្សេងទៀត។ អ្នកស្រាវជ្រាវហៅដំណើរការនេះថា "ការយកចិត្តទុកដាក់លើខ្លួនឯង" ។
នៅពេលព្យាយាមញែកប្រយោគ CNNs និង transformers ធ្វើការខុសគ្នាខ្លាំង។ ខណៈពេលដែល CNN នឹងផ្តោតលើការបង្កើតការតភ្ជាប់ជាមួយនឹងពាក្យដែលនៅជិតគ្នាទៅវិញទៅមកនោះ transformer នឹងបង្កើតការតភ្ជាប់រវាងពាក្យនីមួយៗ និងគ្រប់ពាក្យនៅក្នុងប្រយោគមួយ។
ដំណើរការនៃការយកចិត្តទុកដាក់លើខ្លួនឯងគឺជាផ្នែកសំខាន់មួយនៃការយល់ដឹងភាសារបស់មនុស្ស។ ដោយពង្រីក និងមើលពីរបៀបដែលប្រយោគទាំងមូលត្រូវគ្នា នោះម៉ាស៊ីនអាចយល់កាន់តែច្បាស់អំពីរចនាសម្ព័ន្ធប្រយោគ។
នៅពេលដែលម៉ូដែល transformer ដំបូងត្រូវបានចេញផ្សាយ អ្នកស្រាវជ្រាវមិនយូរប៉ុន្មានបានប្រើស្ថាបត្យកម្មថ្មីដើម្បីទាញយកអត្ថប្រយោជន៍ពីចំនួនមិនគួរឱ្យជឿនៃទិន្នន័យអត្ថបទដែលបានរកឃើញនៅលើអ៊ីនធឺណិត។
GPT-3 និងអ៊ីនធឺណិត
នៅឆ្នាំ ២០២០ OpenAI's GPT-3 គំរូបានបង្ហាញពីរបៀបដែល transformers មានប្រសិទ្ធភាព។ GPT-3 អាចបញ្ចេញអត្ថបទដែលមើលទៅស្ទើរតែមិនអាចបែងចែកពីមនុស្សបាន។ ផ្នែកមួយនៃអ្វីដែលធ្វើឱ្យ GPT-3 មានថាមពលខ្លាំងគឺបរិមាណនៃទិន្នន័យបណ្តុះបណ្តាលដែលបានប្រើ។ ភាគច្រើននៃសំណុំទិន្នន័យមុនការបណ្តុះបណ្តាលរបស់ម៉ូដែលគឺមកពីសំណុំទិន្នន័យដែលគេស្គាល់ថាជា Common Crawl ដែលភ្ជាប់មកជាមួយថូខឹនជាង 400 ពាន់លាន។
ខណៈពេលដែលសមត្ថភាពរបស់ GPT-3 ក្នុងការបង្កើតអត្ថបទមនុស្សជាក់ស្តែងកំពុងដំណើរការដោយខ្លួនវា អ្នកស្រាវជ្រាវបានរកឃើញពីរបៀបដែលគំរូដូចគ្នាអាចដោះស្រាយកិច្ចការផ្សេងទៀត។
ឧទាហរណ៍ គំរូ GPT-3 ដូចគ្នាដែលអ្នកអាចប្រើដើម្បីបង្កើត Tweet ក៏អាចជួយអ្នកក្នុងការសង្ខេបអត្ថបទ សរសេរកថាខណ្ឌឡើងវិញ និងបញ្ចប់រឿងមួយ។ គំរូភាសា បានក្លាយជាឧបករណ៍ដ៏មានថាមពលខ្លាំង ដែលឥឡូវនេះពួកវាជាឧបករណ៍គោលបំណងទូទៅសំខាន់ៗ ដែលធ្វើតាមប្រភេទនៃពាក្យបញ្ជាណាមួយ។
លក្ខណៈទូទៅរបស់ GPT-3 បានអនុញ្ញាតសម្រាប់កម្មវិធីបែបនេះ GitHub Copilot, ដែលអនុញ្ញាតឱ្យអ្នកសរសេរកម្មវិធីបង្កើតកូដការងារពីភាសាអង់គ្លេសធម្មតា។
គំរូចែកចាយ៖ ពីអត្ថបទទៅរូបភាព
វឌ្ឍនភាពដែលបានធ្វើឡើងជាមួយនឹងឧបករណ៍បំលែង និង NLP ក៏បានត្រួសត្រាយផ្លូវសម្រាប់ការបង្កើត AI នៅក្នុងវិស័យផ្សេងទៀតផងដែរ។
នៅក្នុងពិភពនៃចក្ខុវិស័យកុំព្យូទ័រ យើងបានគ្របដណ្តប់រួចហើយអំពីរបៀបដែលការរៀនស៊ីជម្រៅអនុញ្ញាតឱ្យម៉ាស៊ីនយល់ពីរូបភាព។ ទោះជាយ៉ាងណាក៏ដោយ យើងនៅតែត្រូវស្វែងរកវិធីសម្រាប់ AI ដើម្បីបង្កើតរូបភាពដោយខ្លួនឯងជាជាងគ្រាន់តែចាត់ថ្នាក់ពួកវា។
គំរូរូបភាពទូទៅដូចជា DALL-E 2, Stable Diffusion, និង Midjourney បានក្លាយជាការពេញនិយមដោយសារតែរបៀបដែលពួកគេអាចបំប្លែងការបញ្ចូលអត្ថបទទៅជារូបភាព។
គំរូរូបភាពទាំងនេះពឹងផ្អែកលើទិដ្ឋភាពសំខាន់ពីរ៖ គំរូដែលយល់អំពីទំនាក់ទំនងរវាងរូបភាព និងអត្ថបទ និងគំរូដែលអាចបង្កើតរូបភាពនិយមន័យខ្ពស់ដែលត្រូវនឹងការបញ្ចូល។
អូអាយអាយអេ ឈុត (Contrastive Language–Image Pre-training) គឺជាគំរូប្រភពបើកចំហដែលមានគោលបំណងដោះស្រាយទិដ្ឋភាពទីមួយ។ ដោយបានផ្តល់រូបភាព គំរូ CLIP អាចទស្សន៍ទាយការពិពណ៌នាអត្ថបទដែលពាក់ព័ន្ធបំផុតសម្រាប់រូបភាពជាក់លាក់នោះ។
គំរូ CLIP ដំណើរការដោយរៀនពីរបៀបទាញយកលក្ខណៈពិសេសរូបភាពសំខាន់ៗ និងបង្កើតតំណាងសាមញ្ញជាងនៃរូបភាព។
នៅពេលដែលអ្នកប្រើប្រាស់ផ្តល់ការបញ្ចូលអត្ថបទគំរូទៅ DALL-E 2 ការបញ្ចូលត្រូវបានបំប្លែងទៅជា "ការបង្កប់រូបភាព" ដោយប្រើគំរូ CLIP ។ គោលដៅពេលនេះគឺស្វែងរកវិធីបង្កើតរូបភាពដែលផ្គូផ្គងនឹងការបង្កប់រូបភាពដែលបានបង្កើត។
រូបភាពជំនាន់ចុងក្រោយ AI ប្រើ a គំរូនៃការសាយភាយ ដើម្បីដោះស្រាយភារកិច្ចបង្កើតរូបភាពពិតប្រាកដ។ គំរូនៃការសាយភាយពឹងផ្អែកលើបណ្តាញសរសៃប្រសាទដែលត្រូវបានបណ្តុះបណ្តាលជាមុន ដើម្បីដឹងពីរបៀបលុបសំឡេងរំខានបន្ថែមចេញពីរូបភាព។
ក្នុងអំឡុងពេលនៃដំណើរការបណ្តុះបណ្តាលនេះ បណ្តាញសរសៃប្រសាទអាចរៀនជាយថាហេតុអំពីរបៀបបង្កើតរូបភាពដែលមានភាពច្បាស់ខ្ពស់ពីរូបភាពសំលេងរំខានចៃដន្យ។ ដោយសារយើងមានផែនទីនៃអត្ថបទ និងរូបភាពដែលផ្តល់ដោយ CLIP យើងអាចធ្វើបាន បង្វឹកគំរូនៃការសាយភាយ នៅលើការបង្កប់រូបភាព CLIP ដើម្បីបង្កើតដំណើរការដើម្បីបង្កើតរូបភាពណាមួយ។
បដិវត្តន៍ AI ជំនាន់៖ តើមានអ្វីកើតឡើងបន្ទាប់?
ឥឡូវនេះយើងស្ថិតនៅចំណុចមួយដែលការទម្លាយនៃ AI ជំនាន់ថ្មីកំពុងកើតឡើងរៀងរាល់ពីរថ្ងៃម្តង។ ជាមួយនឹងវាកាន់តែងាយស្រួល និងងាយស្រួលក្នុងការបង្កើតប្រភេទប្រព័ន្ធផ្សព្វផ្សាយផ្សេងៗដោយប្រើ AI តើយើងគួរព្រួយបារម្ភថាតើវាអាចប៉ះពាល់ដល់សង្គមរបស់យើងយ៉ាងដូចម្តេច?
ខណៈពេលដែលការព្រួយបារម្ភអំពីម៉ាស៊ីនជំនួសកម្មករតែងតែមាននៅក្នុងការសន្ទនាចាប់តាំងពីការបង្កើតម៉ាស៊ីនចំហាយទឹក វាហាក់ដូចជាថាវាខុសគ្នាបន្តិចនៅពេលនេះ។
Generative AI កំពុងក្លាយជាឧបករណ៍ពហុគោលបំណងដែលអាចរំខានដល់ឧស្សាហកម្មដែលត្រូវបានគេចាត់ទុកថាមានសុវត្ថិភាពពីការកាន់កាប់របស់ AI ។
តើយើងនឹងត្រូវការអ្នកសរសេរកម្មវិធីដែរឬទេ ប្រសិនបើ AI អាចចាប់ផ្តើមសរសេរកូដគ្មានកំហុសពីការណែនាំជាមូលដ្ឋានមួយចំនួន? តើមនុស្សនឹងជួលអ្នកច្នៃប្រឌិតទេ ប្រសិនបើពួកគេគ្រាន់តែអាចប្រើគំរូទូទៅដើម្បីផលិតលទ្ធផលដែលពួកគេចង់បានក្នុងតម្លៃថោកជាង?
វាពិបាកក្នុងការទស្សន៍ទាយអនាគតនៃបដិវត្តន៍ AI ជំនាន់។ ប៉ុន្តែឥឡូវនេះប្រអប់របស់ Pandora ជានិមិត្តរូបត្រូវបានបើក ខ្ញុំសង្ឃឹមថាបច្ចេកវិទ្យានេះនឹងអនុញ្ញាតឱ្យមានការច្នៃប្រឌិតដ៏គួរឱ្យរំភើបបន្ថែមទៀតដែលអាចទុកឱ្យមានផលប៉ះពាល់ជាវិជ្ជមានដល់ពិភពលោក។
សូមផ្ដល់យោបល់