فهرست مندرجات[پنهان شدن][نمایش]
در سالهای اخیر، مدلهای یادگیری عمیق در درک زبان انسان مؤثرتر شدهاند.
به پروژه هایی مانند GPT-3، که اکنون قادر است کل مقالات و وب سایت ها را ایجاد کند. گیت هاب اخیرا معرفی کرده است خلبان GitHub، سرویسی است که کل قطعه کد را به سادگی با توصیف نوع کد مورد نیاز شما ارائه می دهد.
محققان OpenAI، فیسبوک و گوگل روی راههایی برای استفاده از یادگیری عمیق برای انجام یک کار دیگر کار میکنند: زیرنویس کردن تصاویر. با استفاده از یک مجموعه داده بزرگ با میلیون ها ورودی، آنها به برخی از آنها دست یافته اند تعجب آور نتایج.
اخیراً، این محققان تلاش کرده اند تا وظیفه مخالف را انجام دهند: ایجاد تصاویر از یک شرح. آیا اکنون امکان ایجاد یک تصویر کاملاً جدید از توضیحات وجود دارد؟
این راهنما دو تا از پیشرفتهترین مدلهای تبدیل متن به تصویر را بررسی میکند: DALL-E 2 OpenAI و Imagen AI گوگل. هر یک از این پروژهها روشهای پیشگامانهای را معرفی کردهاند که ممکن است جامعه را آنطور که میشناسیم تغییر دهد.
اما ابتدا بیایید منظورمان از تولید متن به تصویر را بفهمیم.
تولید متن به تصویر چیست؟
مدل های تبدیل متن به تصویر به رایانه ها اجازه می دهد تا تصاویر جدید و منحصر به فرد را بر اساس درخواست ها ایجاد کنند. اکنون افراد میتوانند یک توضیح متنی از تصویری که میخواهند تولید کنند ارائه دهند، و مدل سعی میکند تصویری ایجاد کند که تا حد امکان با آن توصیف مطابقت داشته باشد.
مدلهای یادگیری ماشینی از مجموعه دادههای بزرگ حاوی جفتهای تصویر-کپشن برای بهبود عملکرد استفاده کردهاند.
بیشتر متن به تصویر مدل ها از یک مدل زبان ترانسفورماتور استفاده می کنند برای تفسیر اعلان ها این نوع مدل a شبکه های عصبی که سعی در یادگیری بافت و معنای معنایی زبان طبیعی دارد.
در مرحله بعد، مدل های مولد مانند مدل های انتشار و شبکه های متخاصم مولد برای سنتز تصویر استفاده می شوند.
DALLE 2 چیست؟
DALL-E2 یک مدل کامپیوتری توسط OpenAI است که در آوریل 2022 منتشر شد. این مدل بر روی پایگاه دادهای از میلیونها عکس برچسبگذاری شده برای مرتبط کردن کلمات و عبارات با تصاویر آموزش داده شد.
کاربران می توانند یک عبارت ساده مانند "گربه در حال خوردن لازانیا" تایپ کنند و DALL-E 2 تفسیر خود را از آنچه این عبارت سعی در توصیف آن دارد ایجاد می کند.
علاوه بر ایجاد تصاویر از ابتدا، DALL-E 2 می تواند تصاویر موجود را نیز ویرایش کند. در مثال زیر، DALL-E توانست یک تصویر اصلاح شده از یک اتاق با یک کاناپه اضافه شده ایجاد کند.
DALL-E 2 تنها یکی از بسیاری از پروژه های مشابه OpenAI است که در چند سال گذشته منتشر کرده است. GPT-3 OpenAI زمانی خبرساز شد که به نظر می رسید متنی با سبک های مختلف تولید می کند.
در حال حاضر، DALL-E 2 هنوز در مرحله آزمایش بتا است. کاربران علاقه مند می توانند برای خود ثبت نام کنند لیست انتظار و منتظر دسترسی باشید
چگونه کار می کند؟
در حالی که نتایج DALL-E 2 قابل توجه است، ممکن است تعجب کنید که چگونه همه کار می کند.
DALL-E 2 نمونه ای از اجرای چندوجهی پروژه GPT-3 OpenAI است.
ابتدا، درخواست متنی کاربر در یک رمزگذار متن قرار میگیرد که درخواست را به یک فضای نمایشی نگاشت میکند. DALL-E 2 از مدل OpenAI دیگری به نام CLIP (Contrastive Language-Image Pre-Training) برای به دست آوردن اطلاعات معنایی از زبان طبیعی استفاده می کند.
سپس مدلی به نام the قبلی کدگذاری متن را به یک رمزگذاری تصویر نگاشت می کند. این رمزگذاری تصویر باید اطلاعات معنایی موجود در مرحله رمزگذاری متن را دریافت کند.
برای ایجاد تصویر واقعی، DALL-E 2 از رمزگشای تصویر برای تولید تصویر با استفاده از اطلاعات معنایی و جزئیات رمزگذاری تصویر استفاده می کند. OpenAI از نسخه اصلاح شده استفاده می کند گلیم مدل برای انجام تولید تصویر GLIDE متکی به a مدل انتشار برای ایجاد تصاویر
اضافه شدن GLIDE به مدل DALL-E 2 خروجی واقعی تری را امکان پذیر کرد. از آنجایی که مدل GLIDE به صورت تصادفی یا تصادفی تعیین می شود، مدل DALL-E 2 به راحتی می تواند با اجرای دوباره و دوباره مدل تغییرات ایجاد کند.
محدودیت ها
با وجود نتایج چشمگیر مدل DALL-E 2، همچنان با محدودیت هایی مواجه است.
املا متن
اعلانهایی که سعی میکنند DALL-E 2 را ایجاد کنند، نشان میدهد که در املای کلمات مشکل دارد. کارشناسان تصور می کنند که این ممکن است به این دلیل باشد که اطلاعات املایی بخشی از آن نیست مجموعه داده های آموزشی.
استدلال ترکیبی
محققان مشاهده می کنند که DALL-E 2 هنوز با استدلال ترکیبی مشکل دارد. به بیان ساده، مدل میتواند جنبههای فردی یک تصویر را درک کند، در حالی که هنوز در پی بردن به روابط بین این جنبهها مشکل دارد.
به عنوان مثال، اگر به دستور "مکعب قرمز در بالای یک مکعب آبی" داده شود، DALL-E یک مکعب آبی و یک مکعب قرمز را با دقت تولید میکند اما در قرار دادن آنها به درستی ناکام خواهد بود. همچنین مشاهده شده است که این مدل با اعلانهایی که به تعداد خاصی از اشیاء نیاز دارند، مشکل دارد.
تعصب در مجموعه داده
اگر درخواست حاوی جزئیات دیگری نباشد، DALL-E مشاهده شده است که افراد و محیط های سفیدپوست یا غربی را به تصویر می کشد. این سوگیری بازنمایی به دلیل فراوانی تصاویر غرب محور در مجموعه داده رخ می دهد.
همچنین مشاهده شده است که این مدل از کلیشه های جنسیتی پیروی می کند. برای مثال، تایپ کردن عبارت "خدمت پرواز" بیشتر تصاویری از زنان مهماندار تولید می کند.
Google Imagen AI چیست؟
گوگل Imagen AI مدلی است که هدف آن ایجاد تصاویر واقعی واقعی از متن ورودی است. شبیه به DALL-E، این مدل همچنین از مدلهای زبان ترانسفورماتور برای درک متن استفاده میکند و بر استفاده از مدلهای انتشار برای ایجاد تصاویر با کیفیت بالا متکی است.
در کنار ایمیجن، گوگل یک بنچمارک برای مدل های تبدیل متن به تصویر به نام DrawBench نیز منتشر کرده است. با استفاده از DrawBench، آنها توانستند مشاهده کنند که ارزیابهای انسانی خروجی Imagen را بر سایر مدلها از جمله DALL-E 2 ترجیح میدهند.
چگونه کار می کند؟
شبیه به DALL-E، Imagen ابتدا درخواست کاربر را به یک متن جاسازی شده از طریق یک رمزگذار متن ثابت تبدیل می کند.
Imagen از یک مدل انتشار استفاده می کند که یاد می گیرد چگونه یک الگوی نویز را به تصاویر تبدیل کند. خروجی اولیه این تصاویر وضوح پایینی دارد و بعداً از مدل دیگری به نام مدل انتشار فوق رزولوشن عبور داده می شود تا وضوح تصویر نهایی افزایش یابد. اولین مدل انتشار یک تصویر 64 × 64 پیکسل را تولید می کند و بعداً به یک تصویر با وضوح بالا 1024 × 1024 تبدیل می شود.
بر اساس تحقیقات تیم Imagen، مدلهای بزرگ زبان ثابت که فقط بر روی دادههای متنی آموزش داده شدهاند، همچنان رمزگذارهای متنی بسیار مؤثر برای تولید متن به تصویر هستند.
این مطالعه همچنین مفهوم آستانه پویا را معرفی می کند. این روش با افزایش وزن راهنمایی هنگام تولید تصویر، تصاویر را قادر می سازد تا واقعی تر به نظر برسند.
اجرای DALLE 2 vs Imagen
نتایج اولیه از معیار گوگل نشان می دهد که پاسخ دهندگان انسانی تصاویر تولید شده توسط Imagen را به DALL-E 2 و سایر مدل های تبدیل متن به تصویر مانند Latent Diffusion و VQGAN+CLIP ترجیح می دهند.
نتایج حاصل از تیم Imagen همچنین نشان میدهد که مدل آنها در املای متن بهتر عمل میکند، که یکی از ضعفهای شناخته شده مدل DALL-E 2 است.
با این حال، از آنجایی که گوگل هنوز این مدل را برای عموم منتشر نکرده است، هنوز باید دید معیارهای گوگل تا چه حد دقیق هستند.
نتیجه
ظهور مدل های متن به تصویر فوتورئالیستی بحث برانگیز است زیرا این مدل ها برای استفاده غیراخلاقی آماده هستند.
این فناوری ممکن است به ایجاد محتوای صریح یا به عنوان ابزاری برای اطلاعات نادرست منجر شود. محققان گوگل و OpenAI از این موضوع آگاه هستند، به همین دلیل است که این فناوری ها هنوز برای همه قابل دسترس نیستند.
مدل های متن به تصویر نیز پیامدهای اقتصادی قابل توجهی دارند. آیا اگر مدل هایی مانند DALL-E به جریان اصلی تبدیل شوند، مشاغلی مانند مدل ها، عکاسان و هنرمندان تحت تأثیر قرار خواهند گرفت؟
در حال حاضر، این مدل ها هنوز محدودیت هایی دارند. نگه داشتن هر تصویری که توسط هوش مصنوعی ایجاد شده است، عیوب آن را آشکار می کند. با رقابت OpenAI و Google برای موثرترین مدلها، ممکن است زمان زیادی باشد که یک خروجی واقعاً عالی تولید شود: تصویری که از چیز واقعی قابل تشخیص نیست.
فکر می کنید وقتی فناوری تا این حد پیش برود چه اتفاقی می افتد؟
پاسخ دهید