DALL-E 2 در مقابل Imagen - تصاویر و هنر تولید شده توسط هوش مصنوعی

فهرست مندرجات[پنهان شدن][نمایش]

تولید متن به تصویر چیست؟
DALLE 2 چیست؟+-
- چگونه کار می کند؟
- محدودیت ها
Google Imagen AI چیست؟+-
- چگونه کار می کند؟
اجرای DALLE 2 vs Imagen
نتیجه

در سال‌های اخیر، مدل‌های یادگیری عمیق در درک زبان انسان مؤثرتر شده‌اند.

به پروژه هایی مانند GPT-3، که اکنون قادر است کل مقالات و وب سایت ها را ایجاد کند. گیت هاب اخیرا معرفی کرده است خلبان GitHub، سرویسی است که کل قطعه کد را به سادگی با توصیف نوع کد مورد نیاز شما ارائه می دهد.

محققان OpenAI، فیس‌بوک و گوگل روی راه‌هایی برای استفاده از یادگیری عمیق برای انجام یک کار دیگر کار می‌کنند: زیرنویس کردن تصاویر. با استفاده از یک مجموعه داده بزرگ با میلیون ها ورودی، آنها به برخی از آنها دست یافته اند تعجب آور نتایج.

اخیراً، این محققان تلاش کرده اند تا وظیفه مخالف را انجام دهند: ایجاد تصاویر از یک شرح. آیا اکنون امکان ایجاد یک تصویر کاملاً جدید از توضیحات وجود دارد؟

این راهنما دو تا از پیشرفته‌ترین مدل‌های تبدیل متن به تصویر را بررسی می‌کند: DALL-E 2 OpenAI و Imagen AI گوگل. هر یک از این پروژه‌ها روش‌های پیشگامانه‌ای را معرفی کرده‌اند که ممکن است جامعه را آنطور که می‌شناسیم تغییر دهد.

اما ابتدا بیایید منظورمان از تولید متن به تصویر را بفهمیم.

تولید متن به تصویر چیست؟

مدل های تبدیل متن به تصویر به رایانه ها اجازه می دهد تا تصاویر جدید و منحصر به فرد را بر اساس درخواست ها ایجاد کنند. اکنون افراد می‌توانند یک توضیح متنی از تصویری که می‌خواهند تولید کنند ارائه دهند، و مدل سعی می‌کند تصویری ایجاد کند که تا حد امکان با آن توصیف مطابقت داشته باشد.

مدل‌های یادگیری ماشینی از مجموعه داده‌های بزرگ حاوی جفت‌های تصویر-کپشن برای بهبود عملکرد استفاده کرده‌اند.

بیشتر متن به تصویر مدل ها از یک مدل زبان ترانسفورماتور استفاده می کنند برای تفسیر اعلان ها این نوع مدل a شبکه های عصبی که سعی در یادگیری بافت و معنای معنایی زبان طبیعی دارد.

در مرحله بعد، مدل های مولد مانند مدل های انتشار و شبکه های متخاصم مولد برای سنتز تصویر استفاده می شوند.

DALLE 2 چیست؟

DALL-E 2 تصاویر و هنر واقعی ایجاد می کند

DALL-E2 یک مدل کامپیوتری توسط OpenAI است که در آوریل 2022 منتشر شد. این مدل بر روی پایگاه داده‌ای از میلیون‌ها عکس برچسب‌گذاری شده برای مرتبط کردن کلمات و عبارات با تصاویر آموزش داده شد.

کاربران می توانند یک عبارت ساده مانند "گربه در حال خوردن لازانیا" تایپ کنند و DALL-E 2 تفسیر خود را از آنچه این عبارت سعی در توصیف آن دارد ایجاد می کند.

علاوه بر ایجاد تصاویر از ابتدا، DALL-E 2 می تواند تصاویر موجود را نیز ویرایش کند. در مثال زیر، DALL-E توانست یک تصویر اصلاح شده از یک اتاق با یک کاناپه اضافه شده ایجاد کند.

DALL-E 2 می تواند تصاویر موجود را ویرایش کند

DALL-E 2 تنها یکی از بسیاری از پروژه های مشابه OpenAI است که در چند سال گذشته منتشر کرده است. GPT-3 OpenAI زمانی خبرساز شد که به نظر می رسید متنی با سبک های مختلف تولید می کند.

در حال حاضر، DALL-E 2 هنوز در مرحله آزمایش بتا است. کاربران علاقه مند می توانند برای خود ثبت نام کنند لیست انتظار و منتظر دسترسی باشید

چگونه کار می کند؟

در حالی که نتایج DALL-E 2 قابل توجه است، ممکن است تعجب کنید که چگونه همه کار می کند.

DALL-E 2 نمونه ای از اجرای چندوجهی پروژه GPT-3 OpenAI است.

نمای کلی معماری DALL-E 2

ابتدا، درخواست متنی کاربر در یک رمزگذار متن قرار می‌گیرد که درخواست را به یک فضای نمایشی نگاشت می‌کند. DALL-E 2 از مدل OpenAI دیگری به نام CLIP (Contrastive Language-Image Pre-Training) برای به دست آوردن اطلاعات معنایی از زبان طبیعی استفاده می کند.

سپس مدلی به نام the قبلی کدگذاری متن را به یک رمزگذاری تصویر نگاشت می کند. این رمزگذاری تصویر باید اطلاعات معنایی موجود در مرحله رمزگذاری متن را دریافت کند.

برای ایجاد تصویر واقعی، DALL-E 2 از رمزگشای تصویر برای تولید تصویر با استفاده از اطلاعات معنایی و جزئیات رمزگذاری تصویر استفاده می کند. OpenAI از نسخه اصلاح شده استفاده می کند گلیم مدل برای انجام تولید تصویر GLIDE متکی به a مدل انتشار برای ایجاد تصاویر

اضافه شدن GLIDE به مدل DALL-E 2 خروجی واقعی تری را امکان پذیر کرد. از آنجایی که مدل GLIDE به صورت تصادفی یا تصادفی تعیین می شود، مدل DALL-E 2 به راحتی می تواند با اجرای دوباره و دوباره مدل تغییرات ایجاد کند.

محدودیت ها

با وجود نتایج چشمگیر مدل DALL-E 2، همچنان با محدودیت هایی مواجه است.

املا متن

مدل املای کلمات را در تابلوها به هم می زند

اعلان‌هایی که سعی می‌کنند DALL-E 2 را ایجاد کنند، نشان می‌دهد که در املای کلمات مشکل دارد. کارشناسان تصور می کنند که این ممکن است به این دلیل باشد که اطلاعات املایی بخشی از آن نیست مجموعه داده های آموزشی.

استدلال ترکیبی

مدل با قرار دادن اشیا در فضا مشکل دارد

محققان مشاهده می کنند که DALL-E 2 هنوز با استدلال ترکیبی مشکل دارد. به بیان ساده، مدل می‌تواند جنبه‌های فردی یک تصویر را درک کند، در حالی که هنوز در پی بردن به روابط بین این جنبه‌ها مشکل دارد.

به عنوان مثال، اگر به دستور "مکعب قرمز در بالای یک مکعب آبی" داده شود، DALL-E یک مکعب آبی و یک مکعب قرمز را با دقت تولید می‌کند اما در قرار دادن آنها به درستی ناکام خواهد بود. همچنین مشاهده شده است که این مدل با اعلان‌هایی که به تعداد خاصی از اشیاء نیاز دارند، مشکل دارد.

تعصب در مجموعه داده

اگر درخواست حاوی جزئیات دیگری نباشد، DALL-E مشاهده شده است که افراد و محیط های سفیدپوست یا غربی را به تصویر می کشد. این سوگیری بازنمایی به دلیل فراوانی تصاویر غرب محور در مجموعه داده رخ می دهد.

DALL-E 2 دارای تعصبات جنسیتی است

همچنین مشاهده شده است که این مدل از کلیشه های جنسیتی پیروی می کند. برای مثال، تایپ کردن عبارت "خدمت پرواز" بیشتر تصاویری از زنان مهماندار تولید می کند.

Google Imagen AI چیست؟

DALL-E 2 vs Imagen - Imagen در املا و ترکیب بهتر است

گوگل Imagen AI مدلی است که هدف آن ایجاد تصاویر واقعی واقعی از متن ورودی است. شبیه به DALL-E، این مدل همچنین از مدل‌های زبان ترانسفورماتور برای درک متن استفاده می‌کند و بر استفاده از مدل‌های انتشار برای ایجاد تصاویر با کیفیت بالا متکی است.

در کنار ایمیجن، گوگل یک بنچمارک برای مدل های تبدیل متن به تصویر به نام DrawBench نیز منتشر کرده است. با استفاده از DrawBench، آنها توانستند مشاهده کنند که ارزیاب‌های انسانی خروجی Imagen را بر سایر مدل‌ها از جمله DALL-E 2 ترجیح می‌دهند.

چگونه کار می کند؟

imagen از یک مدل انتشار برای تولید کار با وضوح بالا استفاده می کند

شبیه به DALL-E، Imagen ابتدا درخواست کاربر را به یک متن جاسازی شده از طریق یک رمزگذار متن ثابت تبدیل می کند.

Imagen از یک مدل انتشار استفاده می کند که یاد می گیرد چگونه یک الگوی نویز را به تصاویر تبدیل کند. خروجی اولیه این تصاویر وضوح پایینی دارد و بعداً از مدل دیگری به نام مدل انتشار فوق رزولوشن عبور داده می شود تا وضوح تصویر نهایی افزایش یابد. اولین مدل انتشار یک تصویر 64 × 64 پیکسل را تولید می کند و بعداً به یک تصویر با وضوح بالا 1024 × 1024 تبدیل می شود.

بر اساس تحقیقات تیم Imagen، مدل‌های بزرگ زبان ثابت که فقط بر روی داده‌های متنی آموزش داده شده‌اند، همچنان رمزگذارهای متنی بسیار مؤثر برای تولید متن به تصویر هستند.

این مطالعه همچنین مفهوم آستانه پویا را معرفی می کند. این روش با افزایش وزن راهنمایی هنگام تولید تصویر، تصاویر را قادر می سازد تا واقعی تر به نظر برسند.

اجرای DALLE 2 vs Imagen

نتایج اولیه از معیار گوگل نشان می دهد که پاسخ دهندگان انسانی تصاویر تولید شده توسط Imagen را به DALL-E 2 و سایر مدل های تبدیل متن به تصویر مانند Latent Diffusion و VQGAN+CLIP ترجیح می دهند.

نتایج DALL-E 2 در مقابل Imagen با استفاده از DrawBench از Google

نتایج حاصل از تیم Imagen همچنین نشان می‌دهد که مدل آنها در املای متن بهتر عمل می‌کند، که یکی از ضعف‌های شناخته شده مدل DALL-E 2 است.

با این حال، از آنجایی که گوگل هنوز این مدل را برای عموم منتشر نکرده است، هنوز باید دید معیارهای گوگل تا چه حد دقیق هستند.

نتیجه

ظهور مدل های متن به تصویر فوتورئالیستی بحث برانگیز است زیرا این مدل ها برای استفاده غیراخلاقی آماده هستند.

این فناوری ممکن است به ایجاد محتوای صریح یا به عنوان ابزاری برای اطلاعات نادرست منجر شود. محققان گوگل و OpenAI از این موضوع آگاه هستند، به همین دلیل است که این فناوری ها هنوز برای همه قابل دسترس نیستند.

مدل های متن به تصویر نیز پیامدهای اقتصادی قابل توجهی دارند. آیا اگر مدل هایی مانند DALL-E به جریان اصلی تبدیل شوند، مشاغلی مانند مدل ها، عکاسان و هنرمندان تحت تأثیر قرار خواهند گرفت؟

در حال حاضر، این مدل ها هنوز محدودیت هایی دارند. نگه داشتن هر تصویری که توسط هوش مصنوعی ایجاد شده است، عیوب آن را آشکار می کند. با رقابت OpenAI و Google برای موثرترین مدل‌ها، ممکن است زمان زیادی باشد که یک خروجی واقعاً عالی تولید شود: تصویری که از چیز واقعی قابل تشخیص نیست.

فکر می کنید وقتی فناوری تا این حد پیش برود چه اتفاقی می افتد؟

DALL-E 2 در مقابل Imagen – تصاویر و هنر تولید شده توسط هوش مصنوعی

تولید متن به تصویر چیست؟

DALLE 2 چیست؟

چگونه کار می کند؟

محدودیت ها

Google Imagen AI چیست؟

چگونه کار می کند؟

اجرای DALLE 2 vs Imagen

نتیجه

درباره ما دیون منور

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

DALL-E 2 در مقابل Imagen – تصاویر و هنر تولید شده توسط هوش مصنوعی

تولید متن به تصویر چیست؟

DALLE 2 چیست؟

چگونه کار می کند؟

محدودیت ها

Google Imagen AI چیست؟

چگونه کار می کند؟

اجرای DALLE 2 vs Imagen

نتیجه

درباره ما دیون منور

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست