AI Glide (Diffusion) را باز کنید - تولید تصویر فقط با یک ورودی متن

فهرست مندرجات[پنهان شدن][نمایش]

Open AI Glide چیست؟
معماری GLIDE
مدل انتشار
قابلیت سر خوردن+-
- 1. تولید تصویر
- 2. نقاشی با سر خوردن
نتیجه

شما به احتمال زیاد می دانید که یک کامپیوتر می تواند یک تصویر را توصیف کند.

به عنوان مثال، تصویر یک سگ در حال بازی با فرزندان شما می تواند به عنوان "سگ و کودکان در باغ" ترجمه شود. اما آیا می دانستید که برعکس آن هم اکنون امکان پذیر است؟ شما چند کلمه را تایپ می کنید و دستگاه تصویر جدیدی تولید می کند.

برخلاف جستجوی گوگل، که عکس‌های موجود را جستجو می‌کند، همه چیز تازه است. در سال های اخیر، OpenAI یکی از سازمان های پیشرو بوده است که نتایج خیره کننده ای را گزارش کرده است.

آنها الگوریتم های خود را بر روی پایگاه داده های متنی و تصویری عظیم آموزش می دهند. آنها مقاله ای را در مورد مدل تصویر GLIDE خود منتشر کردند که بر روی صدها میلیون عکس آموزش داده شده بود. از نظر فوتورئالیسم، از مدل قبلی "DALL-E" آنها بهتر عمل می کند.

در این پست، ما به GLIDE OpenAI، یکی از چندین ابتکار جذاب با هدف تولید و تغییر تصاویر واقعی واقعی با مدل‌های انتشار متنی نگاه خواهیم کرد. شروع کنیم.

چه شده است AI Glide را باز کنید?

در حالی که بیشتر تصاویر را می توان با کلمات توصیف کرد، ایجاد تصاویر از ورودی های متن به دانش تخصصی و زمان قابل توجهی نیاز دارد.

اجازه دادن به یک عامل هوش مصنوعی برای تولید تصاویر واقعی واقعی از زبان طبیعی نه تنها به افراد اجازه می دهد تا مطالب بصری غنی و متنوعی را با سهولت بی سابقه ایجاد کنند، بلکه به اصلاح تکراری ساده تر و کنترل دقیق تصاویر ایجاد شده نیز اجازه می دهد.

از GLIDE می‌توان برای ویرایش عکس‌های موجود با استفاده از اعلان‌های متنی به زبان طبیعی برای درج اشیاء جدید، ایجاد سایه‌ها و انعکاس‌ها و انجام استفاده کرد. نقاشی داخل تصویر، و غیره.

همچنین می‌تواند نقاشی‌های خطی اولیه را به عکس‌های واقعی تبدیل کند و قابلیت‌های استثنایی تولید و تعمیر صفر نمونه برای موقعیت‌های پیچیده دارد.

تحقیقات اخیر نشان داده‌اند که مدل‌های انتشار مبتنی بر احتمال نیز می‌توانند تصاویر مصنوعی با کیفیت بالا تولید کنند، به‌ویژه زمانی که با رویکردی راهنمایی که تنوع و وفاداری را متعادل می‌کند ترکیب شوند.

AI Glide را باز کنید

OpenAI منتشر کرد مدل انتشار هدایت شده در ماه مه، که به مدل های انتشار اجازه می دهد تا بر روی برچسب های یک طبقه بندی کننده مشروط شوند. GLIDE این موفقیت را با آوردن انتشار هدایت شده به مشکل ایجاد تصویر مشروط متن بهبود می بخشد.

پس از آموزش یک مدل انتشار 3.5 میلیارد پارامتری GLIDE با استفاده از یک رمزگذار متنی برای شرطی کردن توصیف‌های زبان طبیعی، محققان دو استراتژی راهنمای جایگزین را آزمایش کردند: هدایت CLIP و راهنمایی بدون طبقه‌بندی.

CLIP یک تکنیک مقیاس‌پذیر برای یادگیری نمایش‌های مشترک متن و عکس است که امتیازی را بر اساس میزان نزدیکی یک تصویر به زیرنویس ارائه می‌کند.

این تیم از این استراتژی در مدل‌های انتشار خود با جایگزینی طبقه‌بندی کننده با یک مدل CLIP استفاده کردند که مدل‌ها را "راهنمایی" می‌کند. در همین حال، راهنمایی بدون طبقه‌بندی‌کننده، یک استراتژی برای هدایت مدل‌های انتشار است که شامل آموزش یک طبقه‌بندی جداگانه نمی‌شود.

معماری GLIDE

معماری GLIDE از سه جزء تشکیل شده است: یک مدل انتشار آب شده (ADM) آموزش دیده برای تولید یک تصویر 64 × 64، یک مدل متن (ترانسفورماتور) که بر تولید تصویر از طریق یک اعلان متن تأثیر می گذارد، و یک مدل نمونه برداری که 64 × 64 کوچک ما را تبدیل می کند. تصاویر با وضوح 256 در 256 پیکسل قابل تفسیر بیشتر.

دو مؤلفه اول با هم کار می کنند تا فرآیند تولید تصویر را کنترل کنند، به طوری که به طور مناسب اعلان متن را منعکس کند، در حالی که دومی برای درک آسانتر تصاویری که ایجاد می کنیم لازم است. پروژه GLIDE از یک الهام گرفته شده است گزارش منتشر شده در سال 2021 که نشان داد که تکنیک‌های ADM از نظر کیفیت نمونه تصویر از مدل‌های تولیدی رایج و پیشرفته در حال حاضر بهتر عمل می‌کنند.

برای ADM، نویسندگان GLIDE از همان مدل ImageNet 64 x 64 به عنوان Dhariwal و Nichol استفاده کردند، اما با 512 کانال به جای 64. مدل ImageNet تقریباً 2.3 میلیارد پارامتر در نتیجه آن دارد.

تیم GLIDE، بر خلاف دهیوال و نیکول، می خواستند کنترل مستقیم بیشتری بر فرآیند تولید تصویر داشته باشند، بنابراین آنها مدل بصری را با یک ترانسفورماتور فعال با توجه ترکیب کردند. GLIDE با پردازش اعلان های ورودی متن، کنترلی بر خروجی فرآیند تولید تصویر به شما می دهد.

مقایسه سر خوردن با سایر مدل ها

این کار با آموزش مدل ترانسفورماتور بر روی مجموعه داده‌های بزرگ و مناسبی از عکس‌ها و شرح‌ها (شبیه به آنچه در پروژه DALL-E استفاده شده است) انجام می‌شود.

متن در ابتدا در یک سری از نشانه های K به منظور شرطی کردن آن کدگذاری می شود. پس از آن، توکن ها در یک مدل ترانسفورماتور بارگذاری می شوند. سپس خروجی ترانسفورماتور به دو صورت قابل استفاده است. برای مدل ADM، جاسازی نشانه نهایی به جای تعبیه کلاس استفاده می شود.

دوم، لایه نهایی جاسازی‌های نشانه - یک سری از بردارهای ویژگی - به طور مستقل به ابعاد هر لایه توجه در مدل ADM پیش‌بینی می‌شود و به هر زمینه توجه الحاق می‌شود.

در واقع، این مدل ADM را قادر می‌سازد تا بر اساس درک آموخته‌شده از کلمات ورودی و تصاویر مرتبط با آن‌ها، تصویری را از ترکیب‌های جدید نشانه‌های متن مشابه به شیوه‌ای منحصر به فرد و واقعی تصویری تولید کند. این ترانسفورماتور کدگذاری متن شامل 1.2 میلیارد پارامتر است و از 24 بلوک باقیمانده با عرض 2048 استفاده می کند.

در نهایت، مدل انتشار upsampler شامل حدود 1.5 میلیارد پارامتر است و با مدل اصلی متفاوت است، زیرا رمزگذار متن آن کوچکتر است، با عرض 1024 و 384 کانال پایه، در مقایسه با مدل پایه. این مدل، همانطور که از نام آن مشخص است، به ارتقای نمونه به منظور بهبود قابلیت تفسیر برای ماشین ها و انسان ها کمک می کند.

سر خوردن تصاویر کوچک فیلتر شده

مدل انتشار

GLIDE تصاویر را با استفاده از نسخه خود از ADM (ADM-G برای "راهنما") تولید می کند. مدل ADM-G اصلاحی از مدل U-net انتشاری است. یک مدل U-net انتشار به طور چشمگیری با تکنیک های رایج تر سنتز تصویر مانند VAE، GAN و ترانسفورماتورها متفاوت است.

مدل انتشار

آنها یک زنجیره مارکوف از مراحل انتشار می سازند تا به تدریج نویز تصادفی را به داده ها تزریق کنند و سپس یاد می گیرند که روند انتشار را معکوس کنند و نمونه های داده مورد نیاز را تنها از نویز بازسازی کنند. این در دو مرحله عمل می کند: انتشار به جلو و معکوس.

روش انتشار رو به جلو، با توجه به یک نقطه داده از توزیع واقعی نمونه، مقدار کمی نویز را طی یک سری مراحل از پیش تعیین شده به نمونه اضافه می کند. با افزایش اندازه مراحل و نزدیک شدن به بی نهایت، نمونه تمام ویژگی های قابل تشخیص را از دست می دهد و دنباله شروع به شبیه شدن به منحنی گاوسی همسانگرد می کند.

تصویر سر خوردن بدون نویز

در طول انتشار به عقب فاز، مدل انتشار یاد می گیرد که تأثیر نویز اضافه شده بر روی تصاویر را معکوس کند و با تلاش برای شبیه سازی توزیع نمونه ورودی اصلی، تصویر تولید شده را به شکل اصلی خود برگرداند.

یک مدل تکمیل شده می تواند این کار را با ورودی نویز واقعی گاوسی و یک اعلان انجام دهد. روش ADM-G با روش قبلی متفاوت است، زیرا یک مدل، یا CLIP یا یک ترانسفورماتور سفارشی، با استفاده از نشانه های متنی که وارد می شوند، بر فاز انتشار به عقب تأثیر می گذارد.

قابلیت سر خوردن

1. تولید تصویر

محبوب ترین و پرکاربردترین کاربرد GLIDE احتمالاً سنتز تصویر خواهد بود. اگرچه عکس ها متوسط هستند و GLIDE با اشکال حیوانی/انسانی مشکل دارد، پتانسیل تولید تصویر یک شات تقریباً بی پایان است.

تولید تصویر با GLIDE

این می‌تواند عکس‌هایی از حیوانات، افراد مشهور، مناظر، ساختمان‌ها و موارد دیگر ایجاد کند، و می‌تواند این کار را در انواع سبک‌های هنری و همچنین عکس‌های واقع‌گرایانه انجام دهد. نویسندگان محققین اظهار می دارند که GLIDE قادر به تفسیر و تطبیق طیف گسترده ای از ورودی های متنی در قالب بصری است، همانطور که در نمونه های زیر مشاهده می شود.

2. نقاشی با سر خوردن

نقاشی خودکار عکس GLIDE بدون شک جذاب ترین کاربرد است. GLIDE می‌تواند یک عکس موجود را به‌عنوان ورودی بگیرد، آن را با در نظر گرفتن پیام متنی برای مکان‌هایی که نیاز به تغییر دارند پردازش کند، و سپس تغییرات فعالی را در آن قسمت‌ها به راحتی انجام دهد.

باید همراه با یک مدل ویرایشی مانند SDEdit استفاده شود تا نتایج بهتری به دست آید. در آینده، برنامه‌هایی که از قابلیت‌هایی مانند این استفاده می‌کنند ممکن است در توسعه رویکردهای تغییر تصویر بدون کد بسیار مهم باشند.

نتیجه

اکنون که این فرآیند را طی کرده‌ایم، باید اصول نحوه عملکرد GLIDE و همچنین وسعت قابلیت‌های آن در ایجاد تصویر و اصلاح درون تصویر را درک کنید.

AI Glide (Diffusion) را باز کنید - تولید تصویر فقط با یک ورودی متن

چه شده است AI Glide را باز کنید?

معماری GLIDE

مدل انتشار

قابلیت سر خوردن

1. تولید تصویر

2. نقاشی با سر خوردن

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

AI Glide (Diffusion) را باز کنید - تولید تصویر فقط با یک ورودی متن

چه شده است AI Glide را باز کنید?

معماری GLIDE

مدل انتشار

قابلیت سر خوردن

1. تولید تصویر

2. نقاشی با سر خوردن

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست