DALL-E 2 vs Imagen - د AI لخوا جوړ شوي انځورونه او هنر

فهرست[پټ][ښکاره]

له متن څخه انځور ته تولید څه شی دی؟
DALLE 2 څه شی دی؟+-
- دا څنګه کار کوی؟
- محدودیتونه
د Google Imagen AI څه شی دی؟+-
- دا څنګه کار کوی؟
د DALLE 2 فعالیت د عکس په مقابل کې
پایله

په وروستیو کلونو کې، د ژورې زده کړې ماډلونه د انسان ژبې په پوهیدو کې ډیر اغیزمن شوي.

لکه د پروژو په اړه فکر وکړئ GPT-3, کوم چې اوس د دې توان لري چې ټول مقالې او ویب پاڼې جوړې کړي. GitHub پدې وروستیو کې معرفي کړ د ګیټ هب کاپیلټ، یو خدمت چې په ساده ډول د هغه کوډ ډول تشریح کولو سره چې تاسو ورته اړتیا لرئ ټول کوډ ټوټې چمتو کوي.

په OpenAI، فیسبوک او ګوګل کې څیړونکي د یوې بلې دندې د ترسره کولو لپاره د ژورې زده کړې کارولو په لارو کار کوي: د عکسونو سرلیک. د ملیونونو ننوتونو سره د لوی ډیټاسیټ کارول ، دوی د ځینې سره راغلي دي حیرانتیا پايلې.

په دې وروستیو کې، دې څیړونکو هڅه کړې چې مخالف دنده ترسره کړي: د کیپشن څخه د انځورونو جوړول. ایا اوس دا امکان لري چې د توضیحاتو څخه په بشپړ ډول نوی عکس رامینځته کړئ؟

دا لارښود به د متن څخه تر عکس پورې دوه پرمختللي ماډلونه وپلټي: OpenAI's DALL-E 2 او د ګوګل امیجین AI. د دې پروژو هرې یوې د پام وړ میتودونه معرفي کړي چې کولی شي ټولنه بدله کړي لکه څنګه چې موږ پوهیږو.

مګر لومړی، راځئ چې پوه شو چې موږ د متن څخه تر انځور پورې څه معنی لرو.

له متن څخه انځور ته تولید څه شی دی؟

له متن څخه تر انځور پورې موډلونه کمپیوټرونو ته اجازه ورکوي چې د اشارو پراساس نوي او ځانګړي عکسونه رامینځته کړي. خلک اوس کولی شي د هغه عکس متن توضیحات چمتو کړي چې دوی یې غواړي تولید کړي ، او ماډل به هڅه وکړي یو داسې بصری رامینځته کړي چې د دې توضیح سره د امکان تر حده نږدې وي.

د ماشین زده کړې موډلونو د لوی ډیټاسیټونو کارولو څخه ګټه پورته کړې چې د عکس - سرلیک جوړه جوړه لري ترڅو فعالیت نور هم ښه کړي.

ډیری متن څخه انځور ته ماډلونه د ټرانسفارمر ژبې ماډل کاروي د اشارو تشریح کول. دا ډول ماډل یو نوریال شبکه دا هڅه کوي چې د طبیعي ژبې شرایط او سیمانټیک معنی زده کړي.

بل، تولیدي ماډلونه لکه د خپریدو ماډلونه او تولیدي مخالفې شبکې د عکس ترکیب لپاره کارول کیږي.

DALLE 2 څه شی دی؟

DALL-E 2 حقیقي انځورونه او هنر جوړوي

DALL-E2 د OpenAI لخوا د کمپیوټر ماډل دی چې د 2022 په اپریل کې خپور شو. دا ماډل د ملیونونو لیبل شوي عکسونو ډیټابیس کې روزل شوی ترڅو د عکسونو سره ټکي او جملې شریک کړي.

کاروونکي کولی شي یو ساده جمله ټایپ کړي، لکه "د پیشو خواړه لاسګنا"، او DALL-E 2 به د هغه څه خپل تفسیر رامینځته کړي چې جمله یې د تشریح کولو هڅه کوي.

د سکریچ څخه د عکسونو جوړولو سربیره، DALL-E 2 کولی شي موجوده عکسونه هم ترمیم کړي. په لاندې مثال کې، DALL-E توانیدلی و چې د اضافه صوفې سره د خونې بدل شوی عکس رامینځته کړي.

DALL-E 2 کولی شي موجوده انځورونه ایډیټ کړي

DALL-E 2 یوازې یو له ډیرو ورته پروژو څخه دی چې OpenAI په تیرو څو کلونو کې خپور کړی. د OpenAI GPT-3 د خبر وړ شو کله چې داسې بریښي چې د مختلف سټایلونو متن تولید کړي.

اوس مهال، DALL-E 2 لاهم د بیټا ازموینې کې دی. علاقمند کارونکي کولی شي د دوی لپاره لاسلیک کړي د انتظار لیست او د لاسرسي لپاره انتظار وکړئ.

دا څنګه کار کوی؟

پداسې حال کې چې د DALL-E 2 پایلې اغیزمنې دي، تاسو شاید حیران یاست چې دا ټول څنګه کار کوي.

DALL-E 2 د OpenAI د GPT-3 پروژې د څو ماډل پلي کولو یوه بیلګه ده.

د DALL-E 2 جوړښت ته کتنه

لومړی، د کارونکي متن پرامپټ د متن انکوډر کې ځای په ځای شوی چې د نمایش ځای ته اشاره نقشه کوي. DALL-E 2 د CLIP په نوم بل OpenAI ماډل کاروي (د متضاد ژبې - عکس دمخه روزنه) د طبیعي ژبې څخه سیمانټیک معلومات ترلاسه کولو لپاره.

بیا، یو ماډل چې په نوم پیژندل کیږي مخکې د متن کوډ کولو نقشه د عکس کوډ کولو کې نقشه کوي. د دې عکس کوډ کول باید د متن کوډ کولو مرحله کې موندل شوي سیمانټیک معلومات ونیسي.

د حقیقي انځور د جوړولو لپاره، DALL-E 2 د عکس ډیکوډر کاروي ترڅو د سیمانټیک معلوماتو او د عکس کوډ کولو توضیحاتو په کارولو سره بصری تولید کړي. OpenAI د بدل شوي نسخه کاروي خوشحاله د عکس تولید ترسره کولو لپاره ماډل. GLIDE په الف باندې تکیه کوي د خپریدو ماډل د انځورونو جوړولو لپاره.

د DALL-E 2 ماډل ته د ګلایډ اضافه کول ډیر فوټوریالیستیک محصول فعال کړ. څرنګه چې د ګلایډ ماډل سټوچیسټیک یا په تصادفي ډول ټاکل شوی، د DALL-E 2 ماډل کولی شي په اسانۍ سره د ماډل په بیا بیا چلولو سره تغیرات رامینځته کړي.

محدودیتونه

د DALL-E 2 ماډل د اغیزمنو پایلو سره سره، دا لاهم د ځینو محدودیتونو سره مخ دی.

د املا متن

ماډل په نښه کولو کې د کلمو املا خرابوي

هغه اشارې چې هڅه کوي د DALL-E 2 متن تولید کړي دا په ګوته کوي چې دا د کلمو املا کولو کې ستونزه لري. متخصصین ګومان کوي چې دا ممکن وي ځکه چې د املا معلومات برخه نه ده د روزنې ډیټاسیټ.

ترکیبي استدلال

ماډل په فضا کې د شیانو د ځای په ځای کولو سره مبارزه کوي

څیړونکي مشاهده کوي چې DALL-E 2 لاهم د ترکیبي استدلال سره ځینې ستونزې لري. په ساده ډول ، ماډل کولی شي د عکس انفرادي اړخونه درک کړي پداسې حال کې چې لاهم د دې اړخونو ترمینځ اړیکو موندلو کې ستونزه لري.

د مثال په توګه، که "د نیلي مکعب په سر کې سور مکعب" پرامپټ ورکړل شي، DALL-E به په سمه توګه یو نیلي مکعب او سور مکعب تولید کړي مګر په سمه توګه په ځای کولو کې پاتې راشي. ماډل هم لیدل شوي چې د اشارو سره ستونزې لري چې د شیانو ځانګړي شمیر ته اړتیا لري.

په ډیټاسیټ کې تعصب

که پرامپټ نور جزئیات نه لري، DALL-E لیدل شوي چې سپین یا لویدیځ خلک او چاپیریال انځوروي. دا نمایشي تعصب په ډیټاسیټ کې د لویدیز متمرکز عکسونو د کثرت له امله رامینځته کیږي.

DALL-E 2 جنسیتي تعصبونه لري

دا ماډل هم لیدل شوی چې د جنسیت سټیریوټائپونه تعقیب کړي. د مثال په توګه، په پرامپټ کې ټایپ کول "د الوتنې خدمتګار" اکثرا د ښځینه الوتنې خدمت کونکو عکسونه رامینځته کوي.

د Google Imagen AI څه شی دی؟

DALL-E 2 vs Imagen - انځور په املا او ترکیب کې غوره دی

د ګوګل انځور AI یو ماډل دی چې هدف یې د متن متن څخه د عکس العمل عکسونه رامینځته کول دي. د DALL-E په څیر، ماډل د متن د پوهیدو لپاره د ټرانسفارمر ژبې ماډلونه هم کاروي او د لوړ کیفیت عکسونو رامینځته کولو لپاره د ډیفیوژن ماډلونو په کارولو تکیه کوي.

د امیجین تر څنګ ، ګوګل د متن څخه عکس ماډلونو لپاره د DrawBench په نوم یو معیار هم خپور کړی. د DrawBench په کارولو سره، دوی وتوانیدل چې مشاهده کړي چې د انسان ریټرانو د DALL-E 2 په شمول د نورو ماډلونو په پرتله د انځور تولید غوره کړی.

دا څنګه کار کوی؟

imagen د لوړ ریزولوشن کار تولید لپاره د خپریدو ماډل کاروي

د DALL-E په څیر، امیجین لومړی د کارونکي پرامپټ د منجمد متن کوډ کونکي له لارې په متن کې ځای پرځای کوي.

امیجین د خپریدو ماډل کاروي کوم چې زده کوي چې څنګه د شور نمونه په عکسونو بدل کړي. د دې عکسونو لومړني محصول ټیټ ریزولوشن دی او وروسته د بل ماډل له لارې تیریږي چې د سپر ریزولوشن ډیفیوژن ماډل په نوم پیژندل کیږي ترڅو د وروستي عکس ریزولوشن ډیر کړي. لومړی ډیفیوژن ماډل د 64 × 64 پکسل عکس تولیدوي او وروسته د لوړ ریزولوشن 1024 × 1024 عکس ته مینځل کیږي.

د امیجین ټیم د څیړنې پراساس، لوی منجمد ژبې ماډلونه چې یوازې د متن ډیټا په اړه روزل شوي اوس هم د متن څخه تر عکس تولید لپاره خورا اغیزمن متن کوډونکي دي.

څیړنه د متحرک حد مفهوم هم معرفي کوي. دا طریقه د عکسونو د تولیدولو په وخت کې د لارښود وزنونو په زیاتولو سره عکسونو ته وړتیا ورکوي چې نور عکس العمل ښکاره کړي.

د DALLE 2 فعالیت د عکس په مقابل کې

د ګوګل د بنچمارک لومړنۍ پایلې ښیي چې د انسان ځواب ویونکي د DALL-E 2 په پرتله د Imagen لخوا رامینځته شوي عکسونو ته ترجیح ورکوي او د متن څخه عکس ته نور ماډلونه لکه لیټینټ ډیفیوژن او VQGAN+CLIP.

DALL-E 2 vs Imagen پایلې د ګوګل څخه DrawBench په کارولو سره

د امیجین ټیم څخه راغلي محصول دا هم ښودلې چې د دوی ماډل د املا متن کې ښه فعالیت کوي ، د DALL-E 2 ماډل پیژندل شوی ضعف.

په هرصورت، څنګه چې ګوګل تر اوسه دا ماډل خلکو ته نه دی خپور کړی، دا لاهم پاتې ده چې لیدل کیږي چې د ګوګل معیارونه څومره دقیق دي.

پایله

د عکس څخه تر عکسونو پورې د عکسونو ماډلونو زیاتوالی متنازع دی ځکه چې دا ماډلونه د غیر اخلاقي کارونې لپاره مناسب دي.

ټیکنالوژي ممکن د څرګند مینځپانګې رامینځته کولو یا د غلط معلوماتو لپاره د یوې وسیلې په توګه رامینځته کړي. د ګوګل او اوپن AI دواړه څیړونکي پدې پوهیږي، دا یو څه برخه ده چې ولې دا ټیکنالوژي لاهم د هرچا لپاره د لاسرسي وړ ندي.

له متن څخه تر انځور پورې موډلونه هم د پام وړ اقتصادي اغیزې لري. ایا مسلکونه لکه ماډلونه، عکس اخیستونکي، او هنرمندان به اغیزمن شي که چیرې ماډلونه لکه DALL-E اصلي جریان شي؟

په اوس وخت کې، دا ماډلونه لاهم محدودیتونه لري. د تفتیش لپاره د AI لخوا رامینځته شوي هر عکس ساتل به د هغې نیمګړتیاوې څرګند کړي. د OpenAI او ګوګل دواړه د خورا اغیزمن ماډلونو لپاره سیالي کولو سره، دا ممکن د وخت مسله وي مخکې لدې چې واقعیا بشپړ محصول تولید شي: یو عکس چې د اصلي شی څخه توپیر نلري.

تاسو څه فکر کوئ کله چې ټیکنالوژي دومره لرې لاړ شي څه به پیښ شي؟

DALL-E 2 vs Imagen – د AI لخوا جوړ شوي انځورونه او هنر

له متن څخه انځور ته تولید څه شی دی؟

DALLE 2 څه شی دی؟

دا څنګه کار کوی؟

محدودیتونه

د Google Imagen AI څه شی دی؟

دا څنګه کار کوی؟

د DALLE 2 فعالیت د عکس په مقابل کې

پایله

په اړه دیون مینور

په HashDork کې نورې مقالې:

ستاسو په AI کې د هیلوسینشن کمولو څرنګوالی

کولسیان vs هیګین

دا راتلونکي ټیک نیوز لیټر خوند نه کوي

DALL-E 2 vs Imagen – د AI لخوا جوړ شوي انځورونه او هنر

له متن څخه انځور ته تولید څه شی دی؟

DALLE 2 څه شی دی؟

دا څنګه کار کوی؟

محدودیتونه

د Google Imagen AI څه شی دی؟

دا څنګه کار کوی؟

د DALLE 2 فعالیت د عکس په مقابل کې

پایله

په اړه دیون مینور

په HashDork کې نورې مقالې:

ستاسو په AI کې د هیلوسینشن کمولو څرنګوالی

د ټولنیزو رسنیو لپاره 10 غوره AI وسیلې

کولسیان vs هیګین

10 غوره AI متحرک ویډیو جوړونکي وسیلې

د لوستونکي اړیکو

یو ځواب ورکړئ ووځي ځواب لغوه کړه

دا راتلونکي ټیک نیوز لیټر خوند نه کوي