Diffusion Model Vs GAN

فهرست مندرجات[پنهان شدن][نمایش]

بنابراین، شبکه های متخاصم مولد چیست؟
اکنون زمان مدل‌های انتشار فرا رسیده است
مدل انتشار در مقابل GAN ها
نتیجه

به طور کلی، مدل‌های مولد عمیق مانند GANs، VAEs، و مدل‌های اتورگرسیو مشکلات سنتز تصویر را مدیریت می‌کنند.

با توجه به کیفیت بالای داده هایی که ایجاد می کنند، شبکه های متخاصم مولد (GAN) در سال های اخیر توجه زیادی را به خود جلب کرده اند.

مدل‌های انتشار یکی دیگر از زمینه‌های جالب مطالعه است که خود را تثبیت کرده است. زمینه های تولید تصویر، ویدئو و صدا هر دو کاربرد گسترده ای برای هر دو پیدا کرده اند.

مدل های انتشار در مقابل GAN ها: کدام نتایج بهتری تولید می کند؟ طبیعتاً این موضوع منجر به بحث مداوم شده است.

در معماری محاسباتی معروف به GAN، دو شبکه های عصبی برای تولید نمونه‌های تازه‌ای از داده‌هایی که می‌توانند برای داده‌های واقعی عبور کنند، علیه یکدیگر مبارزه می‌کنند.

مدل‌های Diffusion از آنجایی که پایداری آموزشی و نتایج بالایی را برای تولید موسیقی و گرافیک ارائه می‌دهند، روز به روز محبوب‌تر می‌شوند.

در این مقاله به مدل انتشار و GAN ها و همچنین تفاوت آنها با یکدیگر و چند مورد دیگر به تفصیل پرداخته می شود.

بنابراین، شبکه های متخاصم مولد چیست؟

به منظور ایجاد نمونه‌های جدید و مصنوعی از داده‌ها که ممکن است با داده‌های واقعی اشتباه گرفته شوند، شبکه‌های متخاصم مولد (GAN) از دو شبکه عصبی استفاده می‌کنند و آنها را در مقابل یکدیگر قرار می‌دهند (بنابراین در نام "متخاصم").

آنها به طور گسترده برای ایجاد گفتار، ویدئو و تصویر استفاده می شوند.

هدف GAN ایجاد داده های کشف نشده قبلی از یک مجموعه داده خاص است. تلاش برای استنباط مدلی از توزیع واقعی و ناشناس داده های زیربنایی از نمونه ها، این کار را انجام می دهد.

به عبارت دیگر، این شبکه‌ها مدل‌های ضمنی هستند که سعی در یادگیری توزیع آماری خاصی دارند.

روش GAN برای کشف چگونگی دستیابی به این هدف جدید بود. در واقع، آنها با انجام یک بازی دو نفره برای توسعه یک مدل ضمنی، داده تولید می کنند.

در زیر این ساختار توضیح داده شده است:

تمایز کننده ای که توانایی تمایز بین داده های معتبر و جعلی را به دست می آورد
یک مولد که راه‌های جدیدی را برای ایجاد داده انتخاب می‌کند، می‌تواند متمایزکننده را فریب دهد.

تمایز کننده به عنوان یک شبکه عصبی ظاهر می شود. بنابراین، ژنراتور باید یک تصویر با کیفیت بالا ایجاد کند تا آن را فریب دهد.

این واقعیت که این ژنراتورها با استفاده از هیچ توزیع خروجی آموزش نمی بینند، تمایز قابل توجهی بین مدل های رمزگذار خودکار و سایر مدل ها است.

دو روش برای تجزیه تابع ضرر مدل وجود دارد:

توانایی تعیین کمیت در صورتی که متمایز کننده به طور دقیق داده های واقعی را پیش بینی کند
داده های تولید شده به طور دقیق توسط بخشی پیش بینی می شود.

در بهترین تمایز عملی، این تابع تلفات به حداقل می رسد:

بنابراین، مدل‌های عمومی را می‌توان به‌عنوان مدل‌های کمینه‌سازی فاصله و در صورت ایده‌آل بودن تمایز، به‌عنوان کمینه‌سازی واگرایی بین توزیع واقعی و تولید شده در نظر گرفت.

در واقع، واگرایی های مختلف ممکن است به کار گرفته شود و منجر به روش های مختلف آموزش GAN شود.

دینامیک یادگیری، که شامل یک مبادله بین مولد و تمایزکننده است، علیرغم ساده بودن تنظیم عملکرد از دست دادن GAN ها، چالش برانگیز است.

همچنین هیچ تضمینی مبنی بر همگرایی یادگیری وجود ندارد. در نتیجه، آموزش یک مدل GAN دشوار است، زیرا معمولاً با مشکلاتی مانند ناپدید شدن گرادیان ها و فروپاشی حالت مواجه می شود (زمانی که تنوع در نمونه های تولید شده وجود ندارد).

اکنون زمان مدل‌های انتشار فرا رسیده است

مشکل همگرایی آموزشی GAN ها از طریق توسعه مدل های انتشار پرداخته شده است.

این مدل‌ها فرض می‌کنند که یک فرآیند انتشار معادل از دست دادن اطلاعات ناشی از تداخل پیشرونده نویز است (نویز گاوسی در هر مرحله از فرآیند انتشار اضافه می‌شود).

هدف از چنین مدلی این است که تعیین کند نویز چگونه بر اطلاعات موجود در نمونه تأثیر می گذارد، یا به عبارت دیگر، چه مقدار اطلاعات به دلیل انتشار از بین می رود.

اگر یک مدل بتواند این را بفهمد، باید بتواند نمونه اصلی را بازیابی کند و از دست دادن اطلاعات رخ داده را خنثی کند.

این از طریق یک مدل انتشار نویزسازی انجام می شود. یک فرآیند انتشار رو به جلو و یک فرآیند انتشار معکوس این دو مرحله را تشکیل می دهند.

فرآیند انتشار به جلو شامل اضافه کردن تدریجی نویز گاوسی (یعنی فرآیند انتشار) است تا زمانی که داده ها کاملاً توسط نویز آلوده شوند.

شبکه عصبی متعاقبا با استفاده از روش انتشار معکوس برای یادگیری احتمالات توزیع شرطی برای معکوس کردن نویز آموزش داده می شود.

در اینجا شما می توانید بیشتر در مورد درک کنید مدل انتشار.

مدل انتشار در مقابل GAN ها

مانند یک مدل انتشار، GAN ها تصاویر را از نویز تولید می کنند.

این مدل از یک شبکه عصبی مولد تشکیل شده است که با نویز برخی از متغیرهای شرطی اطلاعاتی مانند برچسب کلاس یا کدگذاری متن شروع می شود.

نتیجه باید چیزی باشد که شبیه یک تصویر واقعی باشد.

برای ایجاد نسل‌های تصویر واقعی و با کیفیت بالا، از GAN استفاده می‌کنیم. حتی تصاویر واقعی تر از GAN ها با استفاده از مدل های انتشار تولید می شوند.

به نوعی، مدل های انتشار در توصیف حقایق دقیق تر هستند.

در حالی که یک GAN نویز تصادفی ورودی یا یک متغیر شرطی سازی کلاس را می گیرد و نمونه واقعی را خروجی می دهد، مدل های انتشار اغلب کندتر، تکرار شونده هستند و به راهنمایی بسیار بیشتری نیاز دارند.

هنگامی که حذف نویز به طور مکرر با هدف بازگشت به تصویر اصلی از نویز اعمال می شود، جای زیادی برای خطا وجود ندارد.

از هر ایست بازرسی در سراسر مرحله ایجاد عبور می شود و با هر مرحله، تصویر ممکن است اطلاعات بیشتری و بیشتری به دست آورد.

نتیجه

در نتیجه، با توجه به تعداد کمی از تحقیقات قابل توجهی که تنها در سال‌های 2020 و 2021 منتشر شد، مدل‌های انتشار اکنون می‌توانند از نظر سنتز تصویر بهتر از GAN ها عمل کنند.

امسال OpenAI راه اندازی شد DALL-E2، یک مدل تولید تصویر که به پزشکان اجازه می دهد از مدل های انتشار استفاده کنند.

اگرچه GAN ها پیشرفته هستند، اما محدودیت های آنها مقیاس و استفاده از آنها را در زمینه های جدید چالش برانگیز می کند.

به منظور دستیابی به کیفیت نمونه مشابه GAN با استفاده از مدل‌های مبتنی بر احتمال، کار زیادی برای آن انجام شده است.

مدل انتشار در مقابل GAN

بنابراین، شبکه های متخاصم مولد چیست؟

اکنون زمان مدل‌های انتشار فرا رسیده است

مدل انتشار در مقابل GAN ها

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

کولوسیان مقابل هیگن

این خبرنامه فناوری آینده بد نیست

مدل انتشار در مقابل GAN

بنابراین، شبکه های متخاصم مولد چیست؟

اکنون زمان مدل‌های انتشار فرا رسیده است

مدل انتشار در مقابل GAN ها

نتیجه

درباره ما زاغ کبود

مقالات بیشتر در HashDork:

چگونه توهمات را در هوش مصنوعی خود کاهش دهیم

10 بهترین ابزار هوش مصنوعی برای رسانه های اجتماعی

کولوسیان مقابل هیگن

10 بهترین ابزار ساخت ویدیوی متحرک هوش مصنوعی

تداخلات خواننده

پاسخ دهید لغو پاسخ

این خبرنامه فناوری آینده بد نیست