فهرست مندرجات[پنهان شدن][نمایش]
به طور کلی، مدلهای مولد عمیق مانند GANs، VAEs، و مدلهای اتورگرسیو مشکلات سنتز تصویر را مدیریت میکنند.
با توجه به کیفیت بالای داده هایی که ایجاد می کنند، شبکه های متخاصم مولد (GAN) در سال های اخیر توجه زیادی را به خود جلب کرده اند.
مدلهای انتشار یکی دیگر از زمینههای جالب مطالعه است که خود را تثبیت کرده است. زمینه های تولید تصویر، ویدئو و صدا هر دو کاربرد گسترده ای برای هر دو پیدا کرده اند.
مدل های انتشار در مقابل GAN ها: کدام نتایج بهتری تولید می کند؟ طبیعتاً این موضوع منجر به بحث مداوم شده است.
در معماری محاسباتی معروف به GAN، دو شبکه های عصبی برای تولید نمونههای تازهای از دادههایی که میتوانند برای دادههای واقعی عبور کنند، علیه یکدیگر مبارزه میکنند.
مدلهای Diffusion از آنجایی که پایداری آموزشی و نتایج بالایی را برای تولید موسیقی و گرافیک ارائه میدهند، روز به روز محبوبتر میشوند.
در این مقاله به مدل انتشار و GAN ها و همچنین تفاوت آنها با یکدیگر و چند مورد دیگر به تفصیل پرداخته می شود.
بنابراین، شبکه های متخاصم مولد چیست؟
به منظور ایجاد نمونههای جدید و مصنوعی از دادهها که ممکن است با دادههای واقعی اشتباه گرفته شوند، شبکههای متخاصم مولد (GAN) از دو شبکه عصبی استفاده میکنند و آنها را در مقابل یکدیگر قرار میدهند (بنابراین در نام "متخاصم").
آنها به طور گسترده برای ایجاد گفتار، ویدئو و تصویر استفاده می شوند.
هدف GAN ایجاد داده های کشف نشده قبلی از یک مجموعه داده خاص است. تلاش برای استنباط مدلی از توزیع واقعی و ناشناس داده های زیربنایی از نمونه ها، این کار را انجام می دهد.
به عبارت دیگر، این شبکهها مدلهای ضمنی هستند که سعی در یادگیری توزیع آماری خاصی دارند.
روش GAN برای کشف چگونگی دستیابی به این هدف جدید بود. در واقع، آنها با انجام یک بازی دو نفره برای توسعه یک مدل ضمنی، داده تولید می کنند.
در زیر این ساختار توضیح داده شده است:
- تمایز کننده ای که توانایی تمایز بین داده های معتبر و جعلی را به دست می آورد
- یک مولد که راههای جدیدی را برای ایجاد داده انتخاب میکند، میتواند متمایزکننده را فریب دهد.
تمایز کننده به عنوان یک شبکه عصبی ظاهر می شود. بنابراین، ژنراتور باید یک تصویر با کیفیت بالا ایجاد کند تا آن را فریب دهد.
این واقعیت که این ژنراتورها با استفاده از هیچ توزیع خروجی آموزش نمی بینند، تمایز قابل توجهی بین مدل های رمزگذار خودکار و سایر مدل ها است.
دو روش برای تجزیه تابع ضرر مدل وجود دارد:
- توانایی تعیین کمیت در صورتی که متمایز کننده به طور دقیق داده های واقعی را پیش بینی کند
- داده های تولید شده به طور دقیق توسط بخشی پیش بینی می شود.
در بهترین تمایز عملی، این تابع تلفات به حداقل می رسد:
بنابراین، مدلهای عمومی را میتوان بهعنوان مدلهای کمینهسازی فاصله و در صورت ایدهآل بودن تمایز، بهعنوان کمینهسازی واگرایی بین توزیع واقعی و تولید شده در نظر گرفت.
در واقع، واگرایی های مختلف ممکن است به کار گرفته شود و منجر به روش های مختلف آموزش GAN شود.
دینامیک یادگیری، که شامل یک مبادله بین مولد و تمایزکننده است، علیرغم ساده بودن تنظیم عملکرد از دست دادن GAN ها، چالش برانگیز است.
همچنین هیچ تضمینی مبنی بر همگرایی یادگیری وجود ندارد. در نتیجه، آموزش یک مدل GAN دشوار است، زیرا معمولاً با مشکلاتی مانند ناپدید شدن گرادیان ها و فروپاشی حالت مواجه می شود (زمانی که تنوع در نمونه های تولید شده وجود ندارد).
اکنون زمان مدلهای انتشار فرا رسیده است
مشکل همگرایی آموزشی GAN ها از طریق توسعه مدل های انتشار پرداخته شده است.
این مدلها فرض میکنند که یک فرآیند انتشار معادل از دست دادن اطلاعات ناشی از تداخل پیشرونده نویز است (نویز گاوسی در هر مرحله از فرآیند انتشار اضافه میشود).
هدف از چنین مدلی این است که تعیین کند نویز چگونه بر اطلاعات موجود در نمونه تأثیر می گذارد، یا به عبارت دیگر، چه مقدار اطلاعات به دلیل انتشار از بین می رود.
اگر یک مدل بتواند این را بفهمد، باید بتواند نمونه اصلی را بازیابی کند و از دست دادن اطلاعات رخ داده را خنثی کند.
این از طریق یک مدل انتشار نویزسازی انجام می شود. یک فرآیند انتشار رو به جلو و یک فرآیند انتشار معکوس این دو مرحله را تشکیل می دهند.
فرآیند انتشار به جلو شامل اضافه کردن تدریجی نویز گاوسی (یعنی فرآیند انتشار) است تا زمانی که داده ها کاملاً توسط نویز آلوده شوند.
شبکه عصبی متعاقبا با استفاده از روش انتشار معکوس برای یادگیری احتمالات توزیع شرطی برای معکوس کردن نویز آموزش داده می شود.
در اینجا شما می توانید بیشتر در مورد درک کنید مدل انتشار.
مدل انتشار در مقابل GAN ها
مانند یک مدل انتشار، GAN ها تصاویر را از نویز تولید می کنند.
این مدل از یک شبکه عصبی مولد تشکیل شده است که با نویز برخی از متغیرهای شرطی اطلاعاتی مانند برچسب کلاس یا کدگذاری متن شروع می شود.
نتیجه باید چیزی باشد که شبیه یک تصویر واقعی باشد.
برای ایجاد نسلهای تصویر واقعی و با کیفیت بالا، از GAN استفاده میکنیم. حتی تصاویر واقعی تر از GAN ها با استفاده از مدل های انتشار تولید می شوند.
به نوعی، مدل های انتشار در توصیف حقایق دقیق تر هستند.
در حالی که یک GAN نویز تصادفی ورودی یا یک متغیر شرطی سازی کلاس را می گیرد و نمونه واقعی را خروجی می دهد، مدل های انتشار اغلب کندتر، تکرار شونده هستند و به راهنمایی بسیار بیشتری نیاز دارند.
هنگامی که حذف نویز به طور مکرر با هدف بازگشت به تصویر اصلی از نویز اعمال می شود، جای زیادی برای خطا وجود ندارد.
از هر ایست بازرسی در سراسر مرحله ایجاد عبور می شود و با هر مرحله، تصویر ممکن است اطلاعات بیشتری و بیشتری به دست آورد.
نتیجه
در نتیجه، با توجه به تعداد کمی از تحقیقات قابل توجهی که تنها در سالهای 2020 و 2021 منتشر شد، مدلهای انتشار اکنون میتوانند از نظر سنتز تصویر بهتر از GAN ها عمل کنند.
امسال OpenAI راه اندازی شد DALL-E2، یک مدل تولید تصویر که به پزشکان اجازه می دهد از مدل های انتشار استفاده کنند.
اگرچه GAN ها پیشرفته هستند، اما محدودیت های آنها مقیاس و استفاده از آنها را در زمینه های جدید چالش برانگیز می کند.
به منظور دستیابی به کیفیت نمونه مشابه GAN با استفاده از مدلهای مبتنی بر احتمال، کار زیادی برای آن انجام شده است.
پاسخ دهید