په وروستیو کلونو کې، د ژورې زده کړې ماډلونه د انسان ژبې په پوهیدو کې ډیر اغیزمن شوي.
لکه د پروژو په اړه فکر وکړئ GPT-3, کوم چې اوس د دې توان لري چې ټول مقالې او ویب پاڼې جوړې کړي. GitHub پدې وروستیو کې معرفي کړ د ګیټ هب کاپیلټ، یو خدمت چې په ساده ډول د هغه کوډ ډول تشریح کولو سره چې تاسو ورته اړتیا لرئ ټول کوډ ټوټې چمتو کوي.
په OpenAI، فیسبوک او ګوګل کې څیړونکي د یوې بلې دندې د ترسره کولو لپاره د ژورې زده کړې کارولو په لارو کار کوي: د عکسونو سرلیک. د ملیونونو ننوتونو سره د لوی ډیټاسیټ کارول ، دوی د ځینې سره راغلي دي حیرانتیا پايلې.
په دې وروستیو کې، دې څیړونکو هڅه کړې چې مخالف دنده ترسره کړي: د کیپشن څخه د انځورونو جوړول. ایا اوس دا امکان لري چې د توضیحاتو څخه په بشپړ ډول نوی عکس رامینځته کړئ؟
دا لارښود به د متن څخه تر عکس پورې دوه پرمختللي ماډلونه وپلټي: OpenAI's DALL-E 2 او د ګوګل امیجین AI. د دې پروژو هرې یوې د پام وړ میتودونه معرفي کړي چې کولی شي ټولنه بدله کړي لکه څنګه چې موږ پوهیږو.
مګر لومړی، راځئ چې پوه شو چې موږ د متن څخه تر انځور پورې څه معنی لرو.
له متن څخه انځور ته تولید څه شی دی؟
له متن څخه تر انځور پورې موډلونه کمپیوټرونو ته اجازه ورکوي چې د اشارو پراساس نوي او ځانګړي عکسونه رامینځته کړي. خلک اوس کولی شي د هغه عکس متن توضیحات چمتو کړي چې دوی یې غواړي تولید کړي ، او ماډل به هڅه وکړي یو داسې بصری رامینځته کړي چې د دې توضیح سره د امکان تر حده نږدې وي.
د ماشین زده کړې موډلونو د لوی ډیټاسیټونو کارولو څخه ګټه پورته کړې چې د عکس - سرلیک جوړه جوړه لري ترڅو فعالیت نور هم ښه کړي.
ډیری متن څخه انځور ته ماډلونه د ټرانسفارمر ژبې ماډل کاروي د اشارو تشریح کول. دا ډول ماډل یو نوریال شبکه دا هڅه کوي چې د طبیعي ژبې شرایط او سیمانټیک معنی زده کړي.
بل، تولیدي ماډلونه لکه د خپریدو ماډلونه او تولیدي مخالفې شبکې د عکس ترکیب لپاره کارول کیږي.
DALLE 2 څه شی دی؟
DALL-E2 د OpenAI لخوا د کمپیوټر ماډل دی چې د 2022 په اپریل کې خپور شو. دا ماډل د ملیونونو لیبل شوي عکسونو ډیټابیس کې روزل شوی ترڅو د عکسونو سره ټکي او جملې شریک کړي.
کاروونکي کولی شي یو ساده جمله ټایپ کړي، لکه "د پیشو خواړه لاسګنا"، او DALL-E 2 به د هغه څه خپل تفسیر رامینځته کړي چې جمله یې د تشریح کولو هڅه کوي.
د سکریچ څخه د عکسونو جوړولو سربیره، DALL-E 2 کولی شي موجوده عکسونه هم ترمیم کړي. په لاندې مثال کې، DALL-E توانیدلی و چې د اضافه صوفې سره د خونې بدل شوی عکس رامینځته کړي.
DALL-E 2 یوازې یو له ډیرو ورته پروژو څخه دی چې OpenAI په تیرو څو کلونو کې خپور کړی. د OpenAI GPT-3 د خبر وړ شو کله چې داسې بریښي چې د مختلف سټایلونو متن تولید کړي.
اوس مهال، DALL-E 2 لاهم د بیټا ازموینې کې دی. علاقمند کارونکي کولی شي د دوی لپاره لاسلیک کړي د انتظار لیست او د لاسرسي لپاره انتظار وکړئ.
دا څنګه کار کوی؟
پداسې حال کې چې د DALL-E 2 پایلې اغیزمنې دي، تاسو شاید حیران یاست چې دا ټول څنګه کار کوي.
DALL-E 2 د OpenAI د GPT-3 پروژې د څو ماډل پلي کولو یوه بیلګه ده.
لومړی، د کارونکي متن پرامپټ د متن انکوډر کې ځای په ځای شوی چې د نمایش ځای ته اشاره نقشه کوي. DALL-E 2 د CLIP په نوم بل OpenAI ماډل کاروي (د متضاد ژبې - عکس دمخه روزنه) د طبیعي ژبې څخه سیمانټیک معلومات ترلاسه کولو لپاره.
بیا، یو ماډل چې په نوم پیژندل کیږي مخکې د متن کوډ کولو نقشه د عکس کوډ کولو کې نقشه کوي. د دې عکس کوډ کول باید د متن کوډ کولو مرحله کې موندل شوي سیمانټیک معلومات ونیسي.
د حقیقي انځور د جوړولو لپاره، DALL-E 2 د عکس ډیکوډر کاروي ترڅو د سیمانټیک معلوماتو او د عکس کوډ کولو توضیحاتو په کارولو سره بصری تولید کړي. OpenAI د بدل شوي نسخه کاروي خوشحاله د عکس تولید ترسره کولو لپاره ماډل. GLIDE په الف باندې تکیه کوي د خپریدو ماډل د انځورونو جوړولو لپاره.
د DALL-E 2 ماډل ته د ګلایډ اضافه کول ډیر فوټوریالیستیک محصول فعال کړ. څرنګه چې د ګلایډ ماډل سټوچیسټیک یا په تصادفي ډول ټاکل شوی، د DALL-E 2 ماډل کولی شي په اسانۍ سره د ماډل په بیا بیا چلولو سره تغیرات رامینځته کړي.
محدودیتونه
د DALL-E 2 ماډل د اغیزمنو پایلو سره سره، دا لاهم د ځینو محدودیتونو سره مخ دی.
د املا متن
هغه اشارې چې هڅه کوي د DALL-E 2 متن تولید کړي دا په ګوته کوي چې دا د کلمو املا کولو کې ستونزه لري. متخصصین ګومان کوي چې دا ممکن وي ځکه چې د املا معلومات برخه نه ده د روزنې ډیټاسیټ.
ترکیبي استدلال
څیړونکي مشاهده کوي چې DALL-E 2 لاهم د ترکیبي استدلال سره ځینې ستونزې لري. په ساده ډول ، ماډل کولی شي د عکس انفرادي اړخونه درک کړي پداسې حال کې چې لاهم د دې اړخونو ترمینځ اړیکو موندلو کې ستونزه لري.
د مثال په توګه، که "د نیلي مکعب په سر کې سور مکعب" پرامپټ ورکړل شي، DALL-E به په سمه توګه یو نیلي مکعب او سور مکعب تولید کړي مګر په سمه توګه په ځای کولو کې پاتې راشي. ماډل هم لیدل شوي چې د اشارو سره ستونزې لري چې د شیانو ځانګړي شمیر ته اړتیا لري.
په ډیټاسیټ کې تعصب
که پرامپټ نور جزئیات نه لري، DALL-E لیدل شوي چې سپین یا لویدیځ خلک او چاپیریال انځوروي. دا نمایشي تعصب په ډیټاسیټ کې د لویدیز متمرکز عکسونو د کثرت له امله رامینځته کیږي.
دا ماډل هم لیدل شوی چې د جنسیت سټیریوټائپونه تعقیب کړي. د مثال په توګه، په پرامپټ کې ټایپ کول "د الوتنې خدمتګار" اکثرا د ښځینه الوتنې خدمت کونکو عکسونه رامینځته کوي.
د Google Imagen AI څه شی دی؟
د ګوګل انځور AI یو ماډل دی چې هدف یې د متن متن څخه د عکس العمل عکسونه رامینځته کول دي. د DALL-E په څیر، ماډل د متن د پوهیدو لپاره د ټرانسفارمر ژبې ماډلونه هم کاروي او د لوړ کیفیت عکسونو رامینځته کولو لپاره د ډیفیوژن ماډلونو په کارولو تکیه کوي.
د امیجین تر څنګ ، ګوګل د متن څخه عکس ماډلونو لپاره د DrawBench په نوم یو معیار هم خپور کړی. د DrawBench په کارولو سره، دوی وتوانیدل چې مشاهده کړي چې د انسان ریټرانو د DALL-E 2 په شمول د نورو ماډلونو په پرتله د انځور تولید غوره کړی.
دا څنګه کار کوی؟
د DALL-E په څیر، امیجین لومړی د کارونکي پرامپټ د منجمد متن کوډ کونکي له لارې په متن کې ځای پرځای کوي.
امیجین د خپریدو ماډل کاروي کوم چې زده کوي چې څنګه د شور نمونه په عکسونو بدل کړي. د دې عکسونو لومړني محصول ټیټ ریزولوشن دی او وروسته د بل ماډل له لارې تیریږي چې د سپر ریزولوشن ډیفیوژن ماډل په نوم پیژندل کیږي ترڅو د وروستي عکس ریزولوشن ډیر کړي. لومړی ډیفیوژن ماډل د 64 × 64 پکسل عکس تولیدوي او وروسته د لوړ ریزولوشن 1024 × 1024 عکس ته مینځل کیږي.
د امیجین ټیم د څیړنې پراساس، لوی منجمد ژبې ماډلونه چې یوازې د متن ډیټا په اړه روزل شوي اوس هم د متن څخه تر عکس تولید لپاره خورا اغیزمن متن کوډونکي دي.
څیړنه د متحرک حد مفهوم هم معرفي کوي. دا طریقه د عکسونو د تولیدولو په وخت کې د لارښود وزنونو په زیاتولو سره عکسونو ته وړتیا ورکوي چې نور عکس العمل ښکاره کړي.
د DALLE 2 فعالیت د عکس په مقابل کې
د ګوګل د بنچمارک لومړنۍ پایلې ښیي چې د انسان ځواب ویونکي د DALL-E 2 په پرتله د Imagen لخوا رامینځته شوي عکسونو ته ترجیح ورکوي او د متن څخه عکس ته نور ماډلونه لکه لیټینټ ډیفیوژن او VQGAN+CLIP.
د امیجین ټیم څخه راغلي محصول دا هم ښودلې چې د دوی ماډل د املا متن کې ښه فعالیت کوي ، د DALL-E 2 ماډل پیژندل شوی ضعف.
په هرصورت، څنګه چې ګوګل تر اوسه دا ماډل خلکو ته نه دی خپور کړی، دا لاهم پاتې ده چې لیدل کیږي چې د ګوګل معیارونه څومره دقیق دي.
پایله
د عکس څخه تر عکسونو پورې د عکسونو ماډلونو زیاتوالی متنازع دی ځکه چې دا ماډلونه د غیر اخلاقي کارونې لپاره مناسب دي.
ټیکنالوژي ممکن د څرګند مینځپانګې رامینځته کولو یا د غلط معلوماتو لپاره د یوې وسیلې په توګه رامینځته کړي. د ګوګل او اوپن AI دواړه څیړونکي پدې پوهیږي، دا یو څه برخه ده چې ولې دا ټیکنالوژي لاهم د هرچا لپاره د لاسرسي وړ ندي.
له متن څخه تر انځور پورې موډلونه هم د پام وړ اقتصادي اغیزې لري. ایا مسلکونه لکه ماډلونه، عکس اخیستونکي، او هنرمندان به اغیزمن شي که چیرې ماډلونه لکه DALL-E اصلي جریان شي؟
په اوس وخت کې، دا ماډلونه لاهم محدودیتونه لري. د تفتیش لپاره د AI لخوا رامینځته شوي هر عکس ساتل به د هغې نیمګړتیاوې څرګند کړي. د OpenAI او ګوګل دواړه د خورا اغیزمن ماډلونو لپاره سیالي کولو سره، دا ممکن د وخت مسله وي مخکې لدې چې واقعیا بشپړ محصول تولید شي: یو عکس چې د اصلي شی څخه توپیر نلري.
تاسو څه فکر کوئ کله چې ټیکنالوژي دومره لرې لاړ شي څه به پیښ شي؟
یو ځواب ورکړئ ووځي