မကြာသေးမီနှစ်များအတွင်း၊ နက်နဲသောသင်ယူမှုပုံစံများသည် လူသားဘာသာစကားကို နားလည်ရန် ပိုမိုထိရောက်လာခဲ့သည်။
ကဲ့သို့သော ပရောဂျက်များကို စဉ်းစားပါ။ GPT-3ဆောင်းပါးများနှင့် ဝဘ်ဆိုဒ်တစ်ခုလုံးကို ယခုဖန်တီးနိုင်ပြီဖြစ်သည်။ GitHub သည် မကြာသေးမီက မိတ်ဆက်ခဲ့သည်။ GitHub Copilotသင်လိုအပ်သော ကုဒ်အမျိုးအစားကို ရိုးရိုးရှင်းရှင်းဖော်ပြခြင်းဖြင့် ကုဒ်အတိုအထွာတစ်ခုလုံးကို ပံ့ပိုးပေးသည့် ဝန်ဆောင်မှုတစ်ခုဖြစ်သည်။
OpenAI၊ Facebook နှင့် Google တို့မှ သုတေသီများသည် အခြားအလုပ်တစ်ခုဖြစ်သည့် ပုံများကို စာတန်းထိုးခြင်းအား ကိုင်တွယ်ရန် နက်ရှိုင်းသော သင်ယူမှုကို အသုံးပြုရန် နည်းလမ်းများကို ရှာဖွေနေပါသည်။ သန်းပေါင်းများစွာသော ထည့်သွင်းမှုများပါရှိသော ကြီးမားသောဒေတာအတွဲကို အသုံးပြု၍ အချို့သောအချက်များ ပေါ်လာပါသည်။ အံ့သြဘွယ်ကောင်းသော ရလဒ်များကို.
မကြာသေးမီက၊ ဤသုတေသီများသည် ဆန့်ကျင်ဘက်အလုပ်တစ်ခုကို လုပ်ဆောင်ရန် ကြိုးစားခဲ့သည်- စာတန်းတစ်ခုမှ ပုံများကို ဖန်တီးသည်။ ဖော်ပြချက်တစ်ခုမှ လုံး၀အသစ်ပုံတစ်ခုကို ယခုဖန်တီးနိုင်ပါသလား။
ဤလမ်းညွှန်တွင် အဆင့်အမြင့်ဆုံး စာသားမှပုံတစ်ပုံ မော်ဒယ်နှစ်ခုကို စူးစမ်းလေ့လာပါမည်- OpenAI ၏ DALL-E 2 နှင့် Google ၏ Imagen AI။ ဤပရောဂျက်တစ်ခုစီသည် ကျွန်ုပ်တို့သိသည်နှင့်အမျှ လူ့အဖွဲ့အစည်းကို ပြောင်းလဲစေမည့် အထွတ်အထိပ်နည်းလမ်းများကို မိတ်ဆက်ပေးခဲ့သည်။
သို့သော် ဦးစွာ၊ ကျွန်ုပ်တို့သည် text-to-image generation ၏ ဆိုလိုရင်းကို နားလည်ကြပါစို့။
စာသားမှ ရုပ်ပုံထုတ်လုပ်ခြင်းဆိုသည်မှာ အဘယ်နည်း။
စာသားမှ ရုပ်ပုံမော်ဒယ်များ လမ်းညွှန်ချက်များအပေါ်အခြေခံ၍ ကွန်ပြူတာများကို အသစ်နှင့်ထူးခြားသောပုံများဖန်တီးခွင့်ပြုပါ။ ယခုအခါ လူများသည် ၎င်းတို့ထုတ်လုပ်လိုသော ပုံတစ်ပုံ၏ စာသားဖော်ပြချက်ကို ပေးစွမ်းနိုင်ပြီး မော်ဒယ်သည် အဆိုပါဖော်ပြချက်နှင့် တတ်နိုင်သမျှ အနီးကပ်လိုက်ဖက်သော ရုပ်ပုံတစ်ခုကို ဖန်တီးနိုင်မည်ဖြစ်သည်။
စက်သင်ယူမှုမော်ဒယ်များသည် စွမ်းဆောင်ရည်ပိုမိုတိုးတက်ကောင်းမွန်လာစေရန် ပုံ-စာတန်းအတွဲများပါရှိသော ကြီးမားသောဒေတာအတွဲများကို အသုံးချခဲ့သည်။
အများစုမှာ စာသားမှပုံဖြစ်သည်။ မော်ဒယ်များသည် transformer language model ကိုအသုံးပြုသည်။ အချက်ပေးချက်များကို အဓိပ္ပာယ်ဖွင့်ဆိုရန်။ ဒီမော်ဒယ်က အမျိုးအစားတစ်ခုပါ။ အာရုံကြောကွန်ယက်ကို ၎င်းသည် သဘာဝဘာသာစကား၏ ဆက်စပ်အကြောင်းအရာနှင့် အနက်အဓိပ္ပာယ်ကို လေ့လာရန် ကြိုးစားသည်။
နောက်တစ်ခုကတော့ generative model လိုမျိုးပေါ့။ ပျံ့နှံ့မှုမော်ဒယ်များ ပုံသဏ္ဌာန်ပေါင်းစပ်ခြင်းအတွက် မျိုးဆက်ပွားဆန့်ကျင်ဘက်ကွန်ရက်များကို အသုံးပြုပါသည်။
DALLE 2 ဆိုတာဘာလဲ။
DALL-E2 2022 ခုနှစ် ဧပြီလတွင်ထွက်ရှိခဲ့သော OpenAI မှ ကွန်ပျူတာမော်ဒယ်တစ်ခုဖြစ်သည်။ အဆိုပါမော်ဒယ်ကို ပုံများနှင့်စကားစုများချိတ်ဆက်ရန်အတွက် သန်းပေါင်းများစွာသောပုံများကို အညွှန်းတပ်ထားသောဒေတာဘေ့စ်တွင် လေ့ကျင့်သင်ကြားထားပါသည်။
အသုံးပြုသူများသည် “a cat eating lasagna” ကဲ့သို့သော ရိုးရှင်းသော စကားစုကို ရိုက်ထည့်နိုင်ပြီး DALL-E 2 သည် အဆိုပါ စကားစုကို ဖော်ပြရန် ကြိုးစားနေသည့်အတွက် ၎င်း၏ကိုယ်ပိုင် အဓိပ္ပါယ်ဖွင့်ဆိုချက်ကို ထုတ်ပေးမည်ဖြစ်သည်။
ပုံများကို အစမှ ဖန်တီးခြင်းအပြင် DALL-E 2 သည် ရှိပြီးသားပုံများကို တည်းဖြတ်နိုင်သည်။ အောက်ဖော်ပြပါ ဥပမာတွင်၊ DALL-E သည် ထပ်ထည့်ထားသော ဆိုဖာတစ်ခုပါသည့် အခန်းတစ်ခု၏ မွမ်းမံထားသော ပုံတစ်ခုကို ဖန်တီးနိုင်ခဲ့သည်။
DALL-E 2 သည် လွန်ခဲ့သည့်နှစ်အနည်းငယ်အတွင်း OpenAI မှထွက်ရှိခဲ့သော အလားတူပရောဂျက်များစွာထဲမှတစ်ခုဖြစ်သည်။ OpenAI ၏ GPT-3 သည် မတူညီသော ပုံစံများ၏ စာသားများကို ထုတ်လုပ်လိုက်သောအခါတွင် သတင်းရလာသည်။
လက်ရှိတွင်၊ DALL-E 2 သည် beta စမ်းသပ်ဆဲဖြစ်သည်။ စိတ်ပါဝင်စားသော အသုံးပြုသူများသည် ၎င်းတို့၏ စာရင်းပေးသွင်းနိုင်ပါသည်။ စောင့်ဆိုင်းစာရင်း ဝင်ရောက်ခွင့်ကို စောင့်ပါ။
ဒါကဘယ်လိုမျိုးအလုပ်လုပ်သလဲ?
DALL-E 2 ၏ရလဒ်များသည် အထင်ကြီးလောက်စရာဖြစ်သော်လည်း၊ ၎င်းအားလုံး မည်သို့အလုပ်လုပ်သည်ကို သင်အံ့သြနေပေမည်။
DALL-E 2 သည် OpenAI ၏ GPT-3 ပရောဂျက်၏ ဘက်စုံအကောင်အထည်ဖော်မှုတစ်ခု၏ ဥပမာတစ်ခုဖြစ်သည်။
ပထမဦးစွာ၊ အသုံးပြုသူ၏ text prompt ကို prompt ကို ကိုယ်စားပြုနေရာတစ်ခုသို့ မြေပုံညွှန်းပေးသော text encoder တွင် ထည့်သွင်းထားသည်။ DALL-E 2 သည် သဘာဝဘာသာစကားမှ အဓိပ္ပါယ်ရှိသော အချက်အလက်များကို ရယူရန် CLIP (Contrastive Language-Image Pre-Training) ဟုခေါ်သော အခြား OpenAI မော်ဒယ်ကို အသုံးပြုသည်။
နောက်တစ်ခုက မော်ဒယ်လို့ခေါ်တယ်။ ကြိုတင် စာသားကုဒ်ကို ပုံကုဒ်ဖြင့် ပုံဖော်ပါ။ ဤရုပ်ပုံအား ကုဒ်သွင်းခြင်း အဆင့်တွင် တွေ့ရသော ဝေါဟာရ အချက်အလက်ကို ဖမ်းယူသင့်သည်။
ရုပ်ပုံအစစ်အမှန်ကို ဖန်တီးရန်၊ DALL-E 2 သည် ပုံသဏ္ဍာန်ဆိုင်ရာ အချက်အလက်နှင့် ရုပ်ပုံကုဒ်နံပါတ်အသေးစိတ်အချက်အလက်များကို အသုံးပြု၍ အမြင်အာရုံတစ်ခု ဖန်တီးရန် ရုပ်ပုံဒီကုဒ်ဒါကို အသုံးပြုသည်။ OpenAI ၏ ပြုပြင်ထားသော ဗားရှင်းကို အသုံးပြုသည်။ ဝဲပျံ ရုပ်ပုံထုတ်လုပ်ရန် မော်ဒယ်။ GLIDE အားကိုး ပျံ့နှံ့မှုပုံစံ ပုံများကိုဖန်တီးရန်။
DALL-E 2 မော်ဒယ်သို့ GLIDE ကို ပေါင်းထည့်ခြင်းသည် ဓာတ်ပုံလက်တွေ့ဆန်သော ရလဒ်ကို ပိုမိုရရှိစေပါသည်။ GLIDE မော်ဒယ်သည် stochastic သို့မဟုတ် ကျပန်းသတ်မှတ်ထားသောကြောင့်၊ DALL-E 2 မော်ဒယ်သည် မော်ဒယ်ကို ထပ်ခါထပ်ခါ လုပ်ဆောင်ခြင်းဖြင့် ဗားရှင်းများကို အလွယ်တကူ ဖန်တီးနိုင်သည်။
ကန့်သတ်
DALL-E 2 မော်ဒယ်၏ အထင်ကြီးလောက်သော ရလဒ်များရှိနေသော်လည်း၊ ၎င်းသည် ကန့်သတ်ချက်အချို့နှင့် ရင်ဆိုင်နေရဆဲဖြစ်သည်။
စာလုံးပေါင်းစာသား
DALL-E 2 သည် စာသားကိုဖန်တီးရန် ကြိုးစားသောအချက်များက ၎င်းတွင် စာလုံးပေါင်းသတ်ပုံအခက်အခဲရှိကြောင်း ဖော်ပြသည်။ စာလုံးပေါင်းအချက်အလက်သည် မပါဝင်သောကြောင့် ဖြစ်နိုင်သည်ဟု ကျွမ်းကျင်သူများက ယူဆသည်။ သင်တန်းဒေတာအစုံ.
ဖွဲ့စည်းမှုဆိုင်ရာ ကျိုးကြောင်းဆီလျော်မှု
DALL-E 2 သည် ဖွဲ့စည်းမှုဆိုင်ရာ ကျိုးကြောင်းဆီလျော်မှုတွင် အခက်အခဲအချို့ရှိနေဆဲဖြစ်ကြောင်း သုတေသီများက လေ့လာတွေ့ရှိခဲ့သည်။ ရိုးရိုးရှင်းရှင်းပြောရလျှင် မော်ဒယ်သည် ဤရှုထောင့်များကြားရှိ ဆက်စပ်မှုများကို ရှာဖွေရာတွင် အခက်အခဲရှိနေချိန်တွင် ပုံတစ်ခုချင်းစီ၏ သွင်ပြင်လက္ခဏာများကို နားလည်နိုင်သည်။
ဥပမာအားဖြင့်၊ "အပြာရောင်တုံး၏ထိပ်တွင် အနီကွက်" ပေးမည်ဆိုပါက၊ DALL-E သည် အပြာရောင်ကုဗတုံးနှင့် အနီရောင်ကုဗတုံးကို တိကျစွာထုတ်ပေးသော်လည်း ၎င်းတို့ကို မှန်ကန်စွာထားရန် ပျက်ကွက်ပါသည်။ မော်ဒယ်သည် တိကျသော အရာဝတ္ထုအရေအတွက်ကို ဆွဲထုတ်ရန် လိုအပ်သည့် အချက်ပြမှုများတွင် အခက်အခဲရှိကြောင်း တွေ့ရှိရပါသည်။
ဒေတာအတွဲတွင် ဘက်လိုက်မှု
အမှာစာတွင် အခြားအသေးစိတ်အချက်များ မပါဝင်ပါက၊ လူဖြူ သို့မဟုတ် အနောက်တိုင်းလူများနှင့် ပတ်ဝန်းကျင်ကို ဖော်ပြရန်အတွက် DALL-E ကို သတိပြုမိသည်။ ဒေတာအတွဲတွင် အနောက်ဗဟိုပြုပုံများ များပြားခြင်းကြောင့် ကိုယ်စားပြုဘက်လိုက်မှု ဖြစ်ပေါ်သည်။
ကျား-မ စံနမူနာများကို လိုက်နာရန် မော်ဒယ်ကိုလည်း လေ့လာတွေ့ရှိရပါသည်။ ဥပမာအားဖြင့်၊ "လေယာဉ်အမှုထမ်း" ဟူသော အချက်တွင် စာရိုက်ခြင်းသည် အများအားဖြင့် အမျိုးသမီး လေယာဉ်အမှုထမ်းများ၏ ပုံများကို ထုတ်ပေးသည်။
Google Imagen AI ဆိုတာဘာလဲ။
Google ရဲ့ AI ရုပ်ပုံ input text မှ photorealistic ပုံများကို ဖန်တီးရန် ရည်ရွယ်သော model တစ်ခုဖြစ်သည်။ DALL-E ကဲ့သို့ပင်၊ မော်ဒယ်သည် စာသားကို နားလည်ရန် Transformer ဘာသာစကား မော်ဒယ်များကို အသုံးပြုပြီး အရည်အသွေးမြင့် ရုပ်ပုံများကို ဖန်တီးရန်အတွက် ပျံ့နှံ့မှု မော်ဒယ်များကို အသုံးပြုမှုအပေါ် အားကိုးပါသည်။
Imagen နှင့်အတူ Google သည် DrawBench ဟုခေါ်သော စာသားမှ ရုပ်ပုံမော်ဒယ်များအတွက် စံနှုန်းတစ်ခုကိုလည်း ထုတ်ပြန်ခဲ့သည်။ DrawBench ကိုအသုံးပြုခြင်းဖြင့်၊ လူသားအဆင့်သတ်မှတ်သူများသည် DALL-E 2 အပါအဝင် အခြားမော်ဒယ်များထက် Imagen ထုတ်ပေးမှုကို ပိုနှစ်သက်ကြောင်း သတိပြုနိုင်ခဲ့သည်။
ဒါကဘယ်လိုမျိုးအလုပ်လုပ်သလဲ?
DALL-E နှင့်ဆင်တူသည်၊ Imagen သည် အသုံးပြုသူအမှာစာအား အေးခဲထားသောစာသားကုဒ်ဒါဖြင့်ထည့်သွင်းထားသောစာသားအဖြစ်သို့ ဦးစွာပြောင်းလဲပေးပါသည်။
Imagen သည် ဆူညံသံပုံစံကို ရုပ်ပုံများအဖြစ်သို့ ပြောင်းလဲနည်းကို လေ့လာသည့် ပျံ့နှံ့မှုပုံစံကို အသုံးပြုသည်။ ဤပုံများ၏ ကနဦးထွက်ရှိမှုမှာ ကြည်လင်ပြတ်သားမှု နည်းပါးပြီး နောက်ပိုင်းတွင် နောက်ဆုံးပုံ၏ ကြည်လင်ပြတ်သားမှုကို တိုးမြှင့်ရန်အတွက် super-resolution diffusion မော်ဒယ်ဟု သိကြသည့် အခြားမော်ဒယ်တစ်ခုမှတဆင့် ဖြတ်သန်းကြသည်။ ပထမဆုံး ပျံ့နှံ့မှုပုံစံသည် 64×64 ပစ်ဇယ်ရုပ်ပုံတစ်ပုံကို ထုတ်ပေးပြီး နောက်ပိုင်းတွင် ရုပ်ထွက်အရည်အသွေးမြင့် 1024×1024 ရုပ်ပုံအထိ လွင့်သွားပါသည်။
Imagen အဖွဲ့၏ သုတေသနကို အခြေခံ၍ စာသားဒေတာပေါ်တွင်သာ လေ့ကျင့်သင်ကြားထားသော ကြီးမားသော အေးခဲထားသော ဘာသာစကားပုံစံများသည် စာသားမှပုံတစ်ပုံသို့ ပြောင်းလဲခြင်းအတွက် အလွန်ထိရောက်သော စာသားကုဒ်နံပါတ်များ ရှိနေသေးသည်။
လေ့လာမှုသည် dynamic thresholding သဘောတရားကိုလည်း မိတ်ဆက်ပေးသည်။ ဤနည်းလမ်းသည် ပုံများကို ဖန်တီးသည့်အခါ လမ်းညွှန်အလေးများကို တိုးမြှင့်ခြင်းဖြင့် ရုပ်ပုံများကို ပိုမိုလက်တွေ့ကျစေပါသည်။
DALLE 2 နှင့် Imagen ၏စွမ်းဆောင်ရည်
Google ၏စံနှုန်းများမှ ပဏာမရလဒ်များက လူသားဖြေကြားသူများသည် DALL-E 2 နှင့် Latent Diffusion နှင့် VQGAN+CLIP ကဲ့သို့သော အခြားသော စာသားမှပုံရိပ်မော်ဒယ်များမှ ဖန်တီးထားသော ရုပ်ပုံများကို ပိုမိုနှစ်သက်ကြောင်း ပြသသည်။
Imagen အဖွဲ့မှ ထွက်ရှိလာသော ရလဒ်သည် ၎င်းတို့၏ မော်ဒယ်သည် DALL-E 2 မော်ဒယ်၏ သိသာထင်ရှားသော အားနည်းချက်တစ်ခုဖြစ်သည့် စာလုံးပေါင်းစာသားများတွင် ပိုမိုကောင်းမွန်စွာ လုပ်ဆောင်နိုင်သည်ကို ပြသခဲ့သည်။
သို့သော်လည်း Google သည် အဆိုပါ မော်ဒယ်ကို အများသူငှာ မထုတ်ပြန်သေးသောကြောင့်၊ Google ၏ စံနှုန်းများ မည်မျှ တိကျသည်ကို စောင့်ကြည့်ရဦးမည် ဖြစ်သည်။
ကောက်ချက်
ဤမော်ဒယ်များသည် သိက္ခာမဲ့စွာ အသုံးပြုရန် ရင့်မှည့်နေသောကြောင့် ဓာတ်ပုံတစ်ပုံမှ ပုံတစ်ပုံသို့ လက်တွေ့ဆန်သော ဓာတ်ပုံမော်ဒယ်များ မြင့်တက်လာခြင်းမှာ အငြင်းပွားဖွယ်ရာဖြစ်သည်။
နည်းပညာသည် ရှင်းလင်းပြတ်သားသော အကြောင်းအရာများ ဖန်တီးခြင်း သို့မဟုတ် မဟုတ်မမှန် လုပ်ကြံခြင်းအတွက် ကိရိယာတစ်ခုအဖြစ် ဦးတည်သွားနိုင်သည်။ Google နှင့် OpenAI နှစ်ခုလုံးမှ သုတေသီများသည် ဤအချက်ကို သတိပြုမိကြပြီး ယင်းနည်းပညာများကို လူတိုင်းလက်လှမ်းမမီနိုင်သေးသည့် တစ်စိတ်တစ်ပိုင်းဖြစ်သောကြောင့် ဖြစ်သည်။
စာသားမှ ရုပ်ပုံမော်ဒယ်များသည် စီးပွားရေးအရ သိသိသာသာ သက်ရောက်မှုများရှိသည်။ DALL-E ကဲ့သို့သော မော်ဒယ်လ်များ ခေတ်ရေစီးကြောင်း ဖြစ်လာပါက မော်ဒယ်များ၊ ဓာတ်ပုံဆရာများနှင့် အနုပညာရှင်များကဲ့သို့ အသက်မွေးဝမ်းကြောင်း လုပ်ငန်းများကို ထိခိုက်နိုင်ပါသလား။
လောလောဆယ်မှာတော့ ဒီမော်ဒယ်တွေက ကန့်သတ်ချက်တွေ ရှိနေတုန်းပါပဲ။ စိစစ်ရန် AI မှထုတ်လုပ်ထားသော မည်သည့်ရုပ်ပုံကိုမဆို ကိုင်ဆောင်ထားခြင်းဖြင့် ၎င်း၏ မပြည့်စုံမှုများကို ထုတ်ဖော်ပြသမည်ဖြစ်သည်။ OpenAI နှင့် Google နှစ်ခုစလုံးသည် အထိရောက်ဆုံး မော်ဒယ်များအတွက် ယှဉ်ပြိုင်ခြင်းဖြင့်၊ အမှန်တကယ် ပြီးပြည့်စုံသော အထွက်ကို မထုတ်ပေးမီ အချိန်တစ်ခု ဖြစ်ကောင်းဖြစ်နိုင်သည်- တကယ့်အရာနှင့် ခွဲခြားမရနိုင်သော ရုပ်ပုံတစ်ခု။
နည်းပညာတွေ ဒီလောက်ဝေးသွားတဲ့အခါ ဘာတွေဖြစ်လာမယ်လို့ ထင်လဲ။
တစ်ဦးစာပြန်ရန် Leave