فهرست مندرجات[پنهان شدن][نمایش]
شما به احتمال زیاد می دانید که یک کامپیوتر می تواند یک تصویر را توصیف کند.
به عنوان مثال، تصویر یک سگ در حال بازی با فرزندان شما می تواند به عنوان "سگ و کودکان در باغ" ترجمه شود. اما آیا می دانستید که برعکس آن هم اکنون امکان پذیر است؟ شما چند کلمه را تایپ می کنید و دستگاه تصویر جدیدی تولید می کند.
برخلاف جستجوی گوگل، که عکسهای موجود را جستجو میکند، همه چیز تازه است. در سال های اخیر، OpenAI یکی از سازمان های پیشرو بوده است که نتایج خیره کننده ای را گزارش کرده است.
آنها الگوریتم های خود را بر روی پایگاه داده های متنی و تصویری عظیم آموزش می دهند. آنها مقاله ای را در مورد مدل تصویر GLIDE خود منتشر کردند که بر روی صدها میلیون عکس آموزش داده شده بود. از نظر فوتورئالیسم، از مدل قبلی "DALL-E" آنها بهتر عمل می کند.
در این پست، ما به GLIDE OpenAI، یکی از چندین ابتکار جذاب با هدف تولید و تغییر تصاویر واقعی واقعی با مدلهای انتشار متنی نگاه خواهیم کرد. شروع کنیم.
چه شده است AI Glide را باز کنید?
در حالی که بیشتر تصاویر را می توان با کلمات توصیف کرد، ایجاد تصاویر از ورودی های متن به دانش تخصصی و زمان قابل توجهی نیاز دارد.
اجازه دادن به یک عامل هوش مصنوعی برای تولید تصاویر واقعی واقعی از زبان طبیعی نه تنها به افراد اجازه می دهد تا مطالب بصری غنی و متنوعی را با سهولت بی سابقه ایجاد کنند، بلکه به اصلاح تکراری ساده تر و کنترل دقیق تصاویر ایجاد شده نیز اجازه می دهد.
از GLIDE میتوان برای ویرایش عکسهای موجود با استفاده از اعلانهای متنی به زبان طبیعی برای درج اشیاء جدید، ایجاد سایهها و انعکاسها و انجام استفاده کرد. نقاشی داخل تصویر، و غیره.
همچنین میتواند نقاشیهای خطی اولیه را به عکسهای واقعی تبدیل کند و قابلیتهای استثنایی تولید و تعمیر صفر نمونه برای موقعیتهای پیچیده دارد.
تحقیقات اخیر نشان دادهاند که مدلهای انتشار مبتنی بر احتمال نیز میتوانند تصاویر مصنوعی با کیفیت بالا تولید کنند، بهویژه زمانی که با رویکردی راهنمایی که تنوع و وفاداری را متعادل میکند ترکیب شوند.
OpenAI منتشر کرد مدل انتشار هدایت شده در ماه مه، که به مدل های انتشار اجازه می دهد تا بر روی برچسب های یک طبقه بندی کننده مشروط شوند. GLIDE این موفقیت را با آوردن انتشار هدایت شده به مشکل ایجاد تصویر مشروط متن بهبود می بخشد.
پس از آموزش یک مدل انتشار 3.5 میلیارد پارامتری GLIDE با استفاده از یک رمزگذار متنی برای شرطی کردن توصیفهای زبان طبیعی، محققان دو استراتژی راهنمای جایگزین را آزمایش کردند: هدایت CLIP و راهنمایی بدون طبقهبندی.
CLIP یک تکنیک مقیاسپذیر برای یادگیری نمایشهای مشترک متن و عکس است که امتیازی را بر اساس میزان نزدیکی یک تصویر به زیرنویس ارائه میکند.
این تیم از این استراتژی در مدلهای انتشار خود با جایگزینی طبقهبندی کننده با یک مدل CLIP استفاده کردند که مدلها را "راهنمایی" میکند. در همین حال، راهنمایی بدون طبقهبندیکننده، یک استراتژی برای هدایت مدلهای انتشار است که شامل آموزش یک طبقهبندی جداگانه نمیشود.
معماری GLIDE
معماری GLIDE از سه جزء تشکیل شده است: یک مدل انتشار آب شده (ADM) آموزش دیده برای تولید یک تصویر 64 × 64، یک مدل متن (ترانسفورماتور) که بر تولید تصویر از طریق یک اعلان متن تأثیر می گذارد، و یک مدل نمونه برداری که 64 × 64 کوچک ما را تبدیل می کند. تصاویر با وضوح 256 در 256 پیکسل قابل تفسیر بیشتر.
دو مؤلفه اول با هم کار می کنند تا فرآیند تولید تصویر را کنترل کنند، به طوری که به طور مناسب اعلان متن را منعکس کند، در حالی که دومی برای درک آسانتر تصاویری که ایجاد می کنیم لازم است. پروژه GLIDE از یک الهام گرفته شده است گزارش منتشر شده در سال 2021 که نشان داد که تکنیکهای ADM از نظر کیفیت نمونه تصویر از مدلهای تولیدی رایج و پیشرفته در حال حاضر بهتر عمل میکنند.
برای ADM، نویسندگان GLIDE از همان مدل ImageNet 64 x 64 به عنوان Dhariwal و Nichol استفاده کردند، اما با 512 کانال به جای 64. مدل ImageNet تقریباً 2.3 میلیارد پارامتر در نتیجه آن دارد.
تیم GLIDE، بر خلاف دهیوال و نیکول، می خواستند کنترل مستقیم بیشتری بر فرآیند تولید تصویر داشته باشند، بنابراین آنها مدل بصری را با یک ترانسفورماتور فعال با توجه ترکیب کردند. GLIDE با پردازش اعلان های ورودی متن، کنترلی بر خروجی فرآیند تولید تصویر به شما می دهد.
این کار با آموزش مدل ترانسفورماتور بر روی مجموعه دادههای بزرگ و مناسبی از عکسها و شرحها (شبیه به آنچه در پروژه DALL-E استفاده شده است) انجام میشود.
متن در ابتدا در یک سری از نشانه های K به منظور شرطی کردن آن کدگذاری می شود. پس از آن، توکن ها در یک مدل ترانسفورماتور بارگذاری می شوند. سپس خروجی ترانسفورماتور به دو صورت قابل استفاده است. برای مدل ADM، جاسازی نشانه نهایی به جای تعبیه کلاس استفاده می شود.
دوم، لایه نهایی جاسازیهای نشانه - یک سری از بردارهای ویژگی - به طور مستقل به ابعاد هر لایه توجه در مدل ADM پیشبینی میشود و به هر زمینه توجه الحاق میشود.
در واقع، این مدل ADM را قادر میسازد تا بر اساس درک آموختهشده از کلمات ورودی و تصاویر مرتبط با آنها، تصویری را از ترکیبهای جدید نشانههای متن مشابه به شیوهای منحصر به فرد و واقعی تصویری تولید کند. این ترانسفورماتور کدگذاری متن شامل 1.2 میلیارد پارامتر است و از 24 بلوک باقیمانده با عرض 2048 استفاده می کند.
در نهایت، مدل انتشار upsampler شامل حدود 1.5 میلیارد پارامتر است و با مدل اصلی متفاوت است، زیرا رمزگذار متن آن کوچکتر است، با عرض 1024 و 384 کانال پایه، در مقایسه با مدل پایه. این مدل، همانطور که از نام آن مشخص است، به ارتقای نمونه به منظور بهبود قابلیت تفسیر برای ماشین ها و انسان ها کمک می کند.
مدل انتشار
GLIDE تصاویر را با استفاده از نسخه خود از ADM (ADM-G برای "راهنما") تولید می کند. مدل ADM-G اصلاحی از مدل U-net انتشاری است. یک مدل U-net انتشار به طور چشمگیری با تکنیک های رایج تر سنتز تصویر مانند VAE، GAN و ترانسفورماتورها متفاوت است.
آنها یک زنجیره مارکوف از مراحل انتشار می سازند تا به تدریج نویز تصادفی را به داده ها تزریق کنند و سپس یاد می گیرند که روند انتشار را معکوس کنند و نمونه های داده مورد نیاز را تنها از نویز بازسازی کنند. این در دو مرحله عمل می کند: انتشار به جلو و معکوس.
روش انتشار رو به جلو، با توجه به یک نقطه داده از توزیع واقعی نمونه، مقدار کمی نویز را طی یک سری مراحل از پیش تعیین شده به نمونه اضافه می کند. با افزایش اندازه مراحل و نزدیک شدن به بی نهایت، نمونه تمام ویژگی های قابل تشخیص را از دست می دهد و دنباله شروع به شبیه شدن به منحنی گاوسی همسانگرد می کند.
در طول انتشار به عقب فاز، مدل انتشار یاد می گیرد که تأثیر نویز اضافه شده بر روی تصاویر را معکوس کند و با تلاش برای شبیه سازی توزیع نمونه ورودی اصلی، تصویر تولید شده را به شکل اصلی خود برگرداند.
یک مدل تکمیل شده می تواند این کار را با ورودی نویز واقعی گاوسی و یک اعلان انجام دهد. روش ADM-G با روش قبلی متفاوت است، زیرا یک مدل، یا CLIP یا یک ترانسفورماتور سفارشی، با استفاده از نشانه های متنی که وارد می شوند، بر فاز انتشار به عقب تأثیر می گذارد.
قابلیت سر خوردن
1. تولید تصویر
محبوب ترین و پرکاربردترین کاربرد GLIDE احتمالاً سنتز تصویر خواهد بود. اگرچه عکس ها متوسط هستند و GLIDE با اشکال حیوانی/انسانی مشکل دارد، پتانسیل تولید تصویر یک شات تقریباً بی پایان است.
این میتواند عکسهایی از حیوانات، افراد مشهور، مناظر، ساختمانها و موارد دیگر ایجاد کند، و میتواند این کار را در انواع سبکهای هنری و همچنین عکسهای واقعگرایانه انجام دهد. نویسندگان محققین اظهار می دارند که GLIDE قادر به تفسیر و تطبیق طیف گسترده ای از ورودی های متنی در قالب بصری است، همانطور که در نمونه های زیر مشاهده می شود.
2. نقاشی با سر خوردن
نقاشی خودکار عکس GLIDE بدون شک جذاب ترین کاربرد است. GLIDE میتواند یک عکس موجود را بهعنوان ورودی بگیرد، آن را با در نظر گرفتن پیام متنی برای مکانهایی که نیاز به تغییر دارند پردازش کند، و سپس تغییرات فعالی را در آن قسمتها به راحتی انجام دهد.
باید همراه با یک مدل ویرایشی مانند SDEdit استفاده شود تا نتایج بهتری به دست آید. در آینده، برنامههایی که از قابلیتهایی مانند این استفاده میکنند ممکن است در توسعه رویکردهای تغییر تصویر بدون کد بسیار مهم باشند.
نتیجه
اکنون که این فرآیند را طی کردهایم، باید اصول نحوه عملکرد GLIDE و همچنین وسعت قابلیتهای آن در ایجاد تصویر و اصلاح درون تصویر را درک کنید.
پاسخ دهید