ကျွန်ုပ်တို့သည် မျိုးဆက်သစ် AI တော်လှန်ရေး၏အစတွင်သာ ဖြစ်နိုင်ချေရှိသည်။
Generative Artificial Intelligence ဆိုသည်မှာ အကြောင်းအရာဖန်တီးနိုင်စွမ်းရှိသော အယ်လဂိုရီသမ်များနှင့် မော်ဒယ်များကို ရည်ညွှန်းသည်။ ထိုကဲ့သို့သော မော်ဒယ်များ၏ အထွက်တွင် စာသား၊ အသံနှင့် ရုပ်ပုံများ ပါ၀င်ပြီး လူအစစ်ဟု မကြာခဏ လွဲမှားနိုင်သော ရုပ်ပုံများ ပါဝင်သည်။
ထိုကဲ့သို့သော applications များ GPT ချတ် Generative AI သည် အသစ်အဆန်းမျှသာမဟုတ်ကြောင်း ပြသခဲ့သည်။ ယခုအခါ AI သည် အသေးစိတ်ညွှန်ကြားချက်များကို လိုက်နာနိုင်ပြီဖြစ်ပြီး ကမ္ဘာကြီး၏အလုပ်လုပ်ပုံကို နက်နဲစွာနားလည်ထားပုံရသည်။
ဒါပေမယ့် ကျွန်တော်တို့ ဒီနေရာကို ဘယ်လိုရောက်လာတာလဲ။ ဤလမ်းညွှန်တွင်၊ ကျွန်ုပ်တို့သည် ဤအသစ်နှင့် စိတ်လှုပ်ရှားဖွယ်ရာ မျိုးဆက်သစ် AI တော်လှန်ရေးအတွက် လမ်းခင်းပေးထားသည့် AI သုတေသနတွင် အဓိက အောင်မြင်မှုများအချို့ကို ဖြတ်သန်းပါမည်။
အာရုံကြောကွန်ရက်များ ထွန်းကားလာခြင်း
သုတေသနတွင် ခေတ်မီ AI ၏ ဇစ်မြစ်ကို သင်ခြေရာခံနိုင်သည်။ နက်ရှိုင်းသော သင်ယူမှုနှင့် အာရုံကြောကွန်ရက်များ 2012 ၌တည်၏။
ထိုနှစ်တွင်၊ တိုရွန်တိုတက္ကသိုလ်မှ Alex Krizhevsky နှင့်သူ၏အဖွဲ့သည် အရာဝတ္ထုများကို အမျိုးအစားခွဲခြားနိုင်သော အလွန်တိကျသော အယ်လဂိုရီသမ်တစ်ခုကို ရရှိခဲ့သည်။
အဆိုပါ ခေတ်မီသော အာရုံကြောကွန်ရက်ယခု AlexNet ဟုလူသိများသော၊ ImageNet အမြင်အာရုံဒေတာဘေ့စ်ရှိ အရာဝတ္ထုများကို ဒုတိယအဆင့်ထက် များစွာနိမ့်ကျသော အမှားအယွင်းနှုန်းဖြင့် ခွဲခြားနိုင်ခဲ့သည်။
အာရုံကြောကွန်ရက်များ လေ့ကျင့်ရေးဒေတာအချို့အပေါ် အခြေခံ၍ သီးခြားအပြုအမူတစ်ခုကို လေ့လာရန် သင်္ချာလုပ်ဆောင်ချက်များကွန်ရက်ကို အသုံးပြုသည့် algorithms များဖြစ်သည်။ ဥပမာအားဖြင့်၊ သင်သည် ကင်ဆာကဲ့သို့ ရောဂါတစ်ခုကို ရှာဖွေဖော်ထုတ်ရန် နမူနာပုံစံကို လေ့ကျင့်ရန်အတွက် အာရုံကြောကွန်ရက်ဆေးဘက်ဆိုင်ရာဒေတာကို ကျွေးမွေးနိုင်သည်။
မျှော်လင့်ချက်မှာ အာရုံကြောကွန်ရက်သည် ဒေတာများတွင် ပုံစံများကို ဖြည်းညှင်းစွာ တွေ့ရှိပြီး ဝတ္ထုဒေတာကို ပေးသောအခါ ပိုမိုတိကျလာစေရန် မျှော်လင့်ပါသည်။
AlexNet သည် a ၏အောင်မြင်မှုအပလီကေးရှင်းတစ်ခုဖြစ်သည်။ convolutional အာရုံကြောကွန်ယက်ကို သို့မဟုတ် CNN များ။ "convolutional" သော့ချက်စကားလုံးသည် အတူတကွပိုမိုနီးကပ်သောဒေတာကိုပိုမိုအလေးပေးသည့် convolutional အလွှာများထပ်ထည့်ခြင်းကိုရည်ညွှန်းသည်။
CNN များသည် 1980 ခုနှစ်များတွင် စိတ်ကူးတစ်ခုရှိနေပြီဖြစ်သော်လည်း နောက်ဆုံးပေါ် GPU နည်းပညာသည် နည်းပညာကို အမြင့်သို့တွန်းပို့လိုက်သောအခါတွင် ၎င်းတို့သည် 2010 အစောပိုင်းတွင် လူကြိုက်များလာခဲ့သည်။
CNN ၏နယ်ပယ်တွင်အောင်မြင်မှု ကွန်ပျူတာရူပါရုံကို အာရုံကြောကွန်ရက်များ သုတေသနကို ပိုမိုစိတ်ဝင်စားလာခဲ့သည်။
Google နဲ့ Facebook တို့လို နည်းပညာကုမ္ပဏီကြီးတွေဟာ သူတို့ရဲ့ ကိုယ်ပိုင် AI frameworks တွေကို အများသူငှာ ထုတ်ပြန်ဖို့ ဆုံးဖြတ်ခဲ့ပါတယ်။ ကဲ့သို့သော အဆင့်မြင့် API များ ကရား နက်နဲသော neural networks များနှင့် စမ်းသပ်ရန် သုံးစွဲသူများအတွက် အသုံးပြုရလွယ်ကူသော မျက်နှာပြင်ကို ပေးခဲ့သည်။
CNN များသည် ရုပ်ပုံအသိအမှတ်ပြုမှုနှင့် ဗီဒီယိုခွဲခြမ်းစိတ်ဖြာမှုတွင် ကောင်းမွန်သော်လည်း ဘာသာစကားအခြေခံပြဿနာများကို ဖြေရှင်းရာတွင် အခက်အခဲရှိနေသည်။ ရုပ်ပုံများနှင့် စာသားများသည် အမှန်တကယ် အခြေခံအားဖြင့် မတူညီသော ပြဿနာများ ဖြစ်သောကြောင့် သဘာဝဘာသာစကား လုပ်ဆောင်ခြင်းတွင် ဤကန့်သတ်ချက် ရှိနေနိုင်သည်။
ဥပမာအားဖြင့်၊ သင့်တွင် ပုံတစ်ပုံတွင် မီးပွိုင့်ရှိမရှိကို အမျိုးအစားခွဲခြားနိုင်သော မော်ဒယ်တစ်ခုရှိပါက၊ မေးခွန်းရှိ မီးပွိုင့်သည် ပုံ၏ မည်သည့်နေရာတွင်မဆို ပေါ်လာနိုင်ပါသည်။ သို့သော် ဤကဲ့သို့သော သက်ညှာမှုမျိုးသည် ဘာသာစကားတွင် ကောင်းစွာအလုပ်မလုပ်နိုင်ပါ။ "Bob ate fish" နှင့် "Fish ate Bob" ဝါကျသည် တူညီသောစကားလုံးများကိုသုံးသော်လည်း အဓိပ္ပါယ်များစွာကွဲပြားပါသည်။
သုတေသီများသည် လူသားဘာသာစကားနှင့် ပတ်သက်သည့် ပြဿနာများကို ဖြေရှင်းရန် ချဉ်းကပ်မှုအသစ်ကို ရှာဖွေရန် လိုအပ်ကြောင်း ထင်ရှားပါသည်။
Transformers များသည် အရာအားလုံးကို ပြောင်းလဲစေသည်။
2017 တစ်ဦးအတွက် သုတေသနစာတမ်း “Attention Is All You Need” ဟူသော ခေါင်းစဉ်ဖြင့် ကွန်ရက် အမျိုးအစားသစ်တစ်ခုဖြစ်သည့် Transformer ကို အဆိုပြုခဲ့သည်။
CNN များသည် ပုံတစ်ပုံ၏ အစိတ်အပိုင်းငယ်များကို ထပ်ခါတလဲလဲ စစ်ထုတ်ခြင်းဖြင့် လုပ်ဆောင်နေချိန်တွင် ထရန်စဖော်မာများသည် ဒေတာရှိဒြပ်စင်အားလုံးကို အခြားဒြပ်စင်များနှင့် ချိတ်ဆက်ပေးသည်။ သုတေသီများက ဤလုပ်ငန်းစဉ်ကို “မိမိကိုယ်ကို အာရုံစူးစိုက်မှု” ဟုခေါ်သည်။
စာကြောင်းများကို ခွဲခြမ်းစိတ်ဖြာရန် ကြိုးစားသောအခါ၊ CNN နှင့် ထရန်စဖော်မာများသည် အလွန်ကွဲပြားစွာ အလုပ်လုပ်ပါသည်။ CNN သည် တစ်ခုနှင့်တစ်ခု အနီးနားရှိ စကားလုံးများနှင့် ချိတ်ဆက်မှုကို အာရုံစိုက်နေချိန်တွင် Transformer သည် ဝါကျတစ်ခုအတွင်းရှိ စကားလုံးတိုင်းနှင့် တစ်ခုကြား ဆက်သွယ်မှုများကို ဖန်တီးပေးမည်ဖြစ်သည်။
မိမိကိုယ်ကို အာရုံစူးစိုက်မှု လုပ်ငန်းစဉ်သည် လူ့ဘာသာစကားကို နားလည်ခြင်း၏ မရှိမဖြစ် အစိတ်အပိုင်းတစ်ခုဖြစ်သည်။ ဝါကျတစ်ခုလုံး မည်ကဲ့သို့ လိုက်ဖက်သည်ကို ချဲ့ကြည့်ခြင်းဖြင့် စက်များသည် ဝါကျဖွဲ့စည်းပုံကို ပိုမိုရှင်းလင်းစွာ နားလည်နိုင်သည်။
ပထမဆုံး Transformer မော်ဒယ်များ ထွက်ရှိပြီးသည်နှင့် မကြာမီတွင် သုတေသီများသည် အင်တာနက်ပေါ်တွင် တွေ့ရှိရသည့် မယုံနိုင်လောက်စရာ စာသားဒေတာပမာဏကို အခွင့်ကောင်းယူရန် ဗိသုကာအသစ်ကို မကြာမီတွင် အသုံးပြုခဲ့ကြသည်။
GPT-3 နှင့်အင်တာနက်
2020 တွင် OpenAI ၏ GPT-3 မော်ဒယ်သည် ထရန်စဖော်မာများ မည်မျှထိရောက်ကြောင်း ပြသခဲ့သည်။ GPT-3 သည် လူတစ်ဦးနှင့်တစ်ဦး ခွဲခြားမရနိုင်လောက်သော စာသားများကို ထုတ်ပေးနိုင်သည်။ GPT-3 ကို အစွမ်းထက်စေသည့်အရာ၏ တစ်စိတ်တစ်ပိုင်းမှာ လေ့ကျင့်ရေးဒေတာအသုံးပြုသည့်ပမာဏဖြစ်သည်။ မော်ဒယ်၏ ကြိုတင်လေ့ကျင့်မှုဒေတာအတွဲအများစုသည် တိုကင်ပေါင်း ဘီလီယံ 400 ကျော်ပါရှိသော Common Crawl ဟုခေါ်သော ဒေတာအစုမှ လာပါသည်။
GPT-3 ၏ လက်တွေ့ဆန်သော လူသားစာသားများကို ဖန်တီးနိုင်မှုမှာ သူ့ဘာသာသူ အဆန်းထစ်ဖြစ်နေသော်လည်း တူညီသောပုံစံသည် အခြားလုပ်ဆောင်စရာများကို မည်သို့ဖြေရှင်းနိုင်သည်ကို သုတေသီများက ရှာဖွေတွေ့ရှိခဲ့သည်။
ဥပမာအားဖြင့်၊ tweet တစ်ခုဖန်တီးရန် သင်အသုံးပြုနိုင်သည့် တူညီသော GPT-3 မော်ဒယ်သည် စာသားအကျဉ်းချုပ်၊ စာပိုဒ်တစ်ခုကို ပြန်လည်ရေးသားရန်နှင့် ဇာတ်လမ်းတစ်ပုဒ်ကို အပြီးသတ်ရန် ကူညီပေးနိုင်သည်။ ဘာသာစကားမော်ဒယ်များ ၎င်းတို့သည် ယခုအခါ မည်သည့် command အမျိုးအစားကိုမဆို လိုက်နာနိုင်သော မရှိမဖြစ်လိုအပ်သော ယေဘူယျ-ရည်ရွယ်ချက် ကိရိယာများဖြစ်ကြသည် ။
GPT-3 ၏ ယေဘူယျရည်ရွယ်ချက်သဘောသည် ထိုကဲ့သို့သော အသုံးချပရိုဂရမ်များအတွက် ခွင့်ပြုထားသည်။ GitHub Copilot၊ ၎င်းသည် ပရိုဂရမ်မာများအား ရိုးရိုးအင်္ဂလိပ်မှ အလုပ်လုပ်သော ကုဒ်ကို ဖန်တီးနိုင်စေပါသည်။
ပျံ့နှံ့မှုပုံစံများ- စာသားမှ ပုံများအထိ
ထရန်စဖော်မာများနှင့် NLP ဖြင့်ပြုလုပ်ထားသော တိုးတက်မှုများသည် အခြားနယ်ပယ်များတွင် generative AI အတွက် လမ်းခင်းပေးခဲ့သည်။
ကွန်ပြူတာအမြင်နယ်ပယ်တွင်၊ ကျွန်ုပ်တို့သည် နက်နဲသောသင်ယူမှုမှ စက်ရုပ်ပုံများကို နားလည်နိုင်စေမည့် နက်နဲသောသင်ယူမှုကို ခြုံငုံပြီးဖြစ်သည်။ သို့သော်၊ AI သည် ၎င်းတို့ကို အမျိုးအစားခွဲခြားရုံထက် ပုံများကို ကိုယ်တိုင်ဖန်တီးရန် နည်းလမ်းရှာရန် လိုအပ်နေသေးသည်။
DALL-E 2၊ Stable Diffusion နှင့် Midjourney ကဲ့သို့သော မျိုးဆက်သစ် ရုပ်ပုံမော်ဒယ်များသည် စာသားထည့်သွင်းမှုကို ရုပ်ပုံများအဖြစ်သို့ ပြောင်းလဲနိုင်ပုံကြောင့် ရေပန်းစားလာခဲ့သည်။
ဤရုပ်ပုံမော်ဒယ်များသည် အဓိကရှုထောင့်နှစ်ခုကို အားကိုးသည်- ရုပ်ပုံများနှင့် စာသားကြားက ဆက်နွယ်မှုကို နားလည်သည့် မော်ဒယ်နှင့် ထည့်သွင်းချက်နှင့် ကိုက်ညီသည့် အဓိပ္ပါယ်မြင့်သော ရုပ်ပုံတစ်ပုံကို အမှန်တကယ် ဖန်တီးနိုင်သည့် မော်ဒယ်တစ်ခု။
OpenAI ရဲ့ ကလစ် (Contrastive Language–Image Pre-training) သည် ပထမရှုထောင့်ကိုဖြေရှင်းရန် ရည်ရွယ်သည့် open-source model တစ်ခုဖြစ်သည်။ ပုံတစ်ပုံအား ပေးထားသည့် CLIP မော်ဒယ်သည် ထိုရုပ်ပုံအတွက် အသက်ဆိုင်ဆုံး စာသားဖော်ပြချက်ကို ခန့်မှန်းနိုင်သည်။
CLIP မော်ဒယ်သည် အရေးကြီးသော ရုပ်ပုံအင်္ဂါရပ်များကို ထုတ်ယူနည်းကို သင်ယူပြီး ပုံတစ်ပုံ၏ ပိုမိုရိုးရှင်းသော ကိုယ်စားပြုမှုကို ဖန်တီးခြင်းဖြင့် အလုပ်လုပ်ပါသည်။
အသုံးပြုသူများသည် DALL-E 2 သို့ နမူနာစာသားထည့်သွင်းမှုကို ပံ့ပိုးသောအခါ၊ ထည့်သွင်းမှုကို CLIP မော်ဒယ်ကို အသုံးပြု၍ "ရုပ်ပုံထည့်သွင်းခြင်း" အဖြစ်သို့ ပြောင်းလဲသွားသည်။ ယခု ရည်မှန်းချက်သည် ထုတ်ပေးထားသော ရုပ်ပုံထည့်သွင်းခြင်းနှင့် ကိုက်ညီသော ပုံတစ်ပုံကို ဖန်တီးရန် နည်းလမ်းရှာဖွေရန်ဖြစ်သည်။
နောက်ဆုံးထုတ် generative image AIs သည် a ကိုအသုံးပြုသည်။ ပျံ့နှံ့မှုပုံစံ ပုံတစ်ပုံဖန်တီးခြင်း၏တာဝန်ကိုကိုင်တွယ်ဖြေရှင်းရန်။ Diffusion မော်ဒယ်များသည် ပုံများမှ ထပ်လောင်းဆူညံသံများကို မည်သို့ဖယ်ရှားရမည်ကို သိရှိရန် ကြိုတင်လေ့ကျင့်ထားသည့် အာရုံကြောကွန်ရက်များကို အားကိုးသည်။
ဤလေ့ကျင့်ရေးလုပ်ငန်းစဉ်အတွင်း၊ အာရုံကြောကွန်ရက်သည် ကျပန်းဆူညံသည့်ပုံမှ ပုံရိပ်ပြတ်သားမှုမြင့်မားသောပုံကို ဖန်တီးနည်းကို နောက်ဆုံးတွင် လေ့လာနိုင်သည်။ ကျွန်ုပ်တို့တွင် CLIP မှ ပံ့ပိုးပေးထားသော စာသားနှင့် ပုံများကို မြေပုံဆွဲထားပြီးဖြစ်သောကြောင့်၊ ပျံ့နှံ့မှုပုံစံကိုလေ့ကျင့်ပါ။ ပုံတစ်ပုံကို ဖန်တီးရန် CLIP တွင် ထည့်သွင်းထားသော လုပ်ငန်းစဉ်ကို ဖန်တီးပါ။
Generative AI တော်လှန်ရေး- နောက်ဘာဖြစ်လာမလဲ။
ယခု ကျွန်ုပ်တို့သည် မျိုးဆက်သစ် AI ၏ တိုးတက်မှုများကို ရက်အနည်းငယ်ကြာတိုင်း ဖြစ်ပေါ်နေသည့် နေရာတွင် ရှိနေပါသည်။ AI ကိုအသုံးပြု၍ ကွဲပြားသော မီဒီယာအမျိုးအစားများကို ထုတ်လုပ်ရန် ပိုမိုလွယ်ကူလာသည်နှင့်အမျှ၊ ၎င်းသည် ကျွန်ုပ်တို့၏လူ့အဖွဲ့အစည်းကို မည်သို့အကျိုးသက်ရောက်နိုင်သည်ကို ကျွန်ုပ်တို့ စိုးရိမ်သင့်ပါသလား။
ရေနွေးငွေ့အင်ဂျင်ကို တီထွင်ပြီးကတည်းက အလုပ်သမားများ အစားထိုးလဲလှယ်ပေးသည့် စက်များ၏ စိုးရိမ်ပူပန်မှုများမှာ အမြဲရှိနေသော်လည်း ယခုအချိန်နှင့် အနည်းငယ်ကွာခြားပုံရသည်။
Generative AI သည် AI သိမ်းယူမှုမှ ဘေးကင်းသည်ဟု ယူဆထားသော လုပ်ငန်းများကို အနှောင့်အယှက်ဖြစ်စေမည့် ဘက်စုံသုံးကိရိယာတစ်ခု ဖြစ်လာသည်။
AI သည် အခြေခံညွှန်ကြားချက်အနည်းငယ်မှ အပြစ်ကင်းသောကုဒ်ကို စတင်ရေးသားနိုင်ပါက ပရိုဂရမ်မာများ လိုအပ်ပါမည်လား။ စျေးသက်သက်သာသာနဲ့ သူတို့လိုချင်တဲ့ output ကိုထုတ်လုပ်ဖို့ generation model ကိုသုံးနိုင်ရင် ဖန်တီးမှုတွေ ငှားမှာလား။
မျိုးဆက်သစ် AI တော်လှန်ရေး၏ အနာဂတ်ကို ခန့်မှန်းရန် ခက်ခဲသည်။ ဒါပေမယ့် အခု ပုံဆောင် Pandora ရဲ့ သေတ္တာကို ဖွင့်လိုက်တာနဲ့ နည်းပညာဟာ ကမ္ဘာကြီးကို အပြုသဘောဆောင်တဲ့ သက်ရောက်မှုတွေကို ချန်ထားခဲ့နိုင်တဲ့ နောက်ထပ် စိတ်လှုပ်ရှားစရာ ဆန်းသစ်တီထွင်မှုတွေကို ခွင့်ပြုပေးနိုင်မယ်လို့ မျှော်လင့်ပါတယ်။
တစ်ဦးစာပြန်ရန် Leave