Жалпы, GAN, VAE және авторегрессивті модельдер сияқты терең генеративті модельдер кескін синтезі мәселелерін шешеді.
Олар жасайтын деректердің жоғары сапасын ескере отырып, генеративті қарсылас желілерге (GANs) соңғы жылдары көп көңіл бөлінді.
Диффузиялық модельдер - бұл өзін танытқан тағы бір қызықты зерттеу саласы. Кескін, бейне және дауысты генерациялау өрістері екеуі үшін де кең қолданыс тапты.
Диффузиялық модельдер GAN-ға қарсы: қайсысы жақсы нәтиже береді? Әрине, бұл үздіксіз талқылауға әкелді.
GAN деп аталатын есептеу архитектурасында екі нейрондық желілер шынайы деректерге өтуі мүмкін деректердің жаңадан синтезделген даналарын жасау үшін бір-бірімен күреседі.
Диффузиялық модельдер барған сайын танымал бола түсуде, өйткені олар жаттығу тұрақтылығын және музыка мен графиканы шығару үшін жоғары нәтижелерді қамтамасыз етеді.
Бұл мақала диффузиялық модельді және GAN-ды егжей-тегжейлі қарастырады, сондай-ақ олардың бір-бірінен қалай ерекшеленетінін және бірнеше басқа нәрселерді қарастырады.
Сонымен, генеративті қарсыластық желілер дегеніміз не?
Шынайы деректермен қате болуы мүмкін деректердің жаңа, жасанды даналарын жасау үшін генеративті қарсылас желілер (GAN) екі нейрондық желіні пайдаланады және оларды бір-біріне қарсы қояды (осылайша атаудағы «қарсылас»).
Олар сөйлеу, бейне және сурет жасау үшін кеңінен қолданылады.
GAN мақсаты – белгілі бір деректер жиынынан бұрын ашылмаған деректерді жасау. Үлгілерден нақты, анықталмаған негізгі деректерді тарату үлгісін шығару әрекеті мұны жасайды.
Сонымен қатар, бұл желілер нақты статистикалық үлестіруді үйренуге тырысатын жасырын модельдер болып табылады.
GAN осы мақсатқа жету жолын анықтау үшін қолданған әдіс жаңа болды. Шын мәнінде, олар жасырын модельді әзірлеу үшін екі ойыншы ойынын ойнау арқылы деректерді шығарады.
Төменде құрылымды сипаттайды:
- шынайы және жалған деректерді ажырата алатын дискриминатор
- деректерді жасаудың жаңа жолдарын таңдайтын генератор дискриминаторды алдауы мүмкін.
Дискриминатор нейрондық желі ретінде орналасады. Сондықтан генератор оны алдау үшін жоғары сапалы суретті жасауы керек.
Бұл генераторлардың кез келген шығыс үлестірімі арқылы оқытылмағаны автокодер үлгілері мен басқа модельдер арасындағы елеулі айырмашылық болып табылады.
Модельдің жоғалту функциясын ыдыратудың екі жолы бар:
- дискриминатор нақты деректерді болжаса, сандық бағалау мүмкіндігі
- жасалған деректер бөлігі бойынша дәл болжанады.
Ең жақсы мүмкін болатын дискриминаторда бұл жоғалту функциясы минимизацияланады:
Сондықтан жалпы үлгілерді қашықтықты минимизациялау үлгілері ретінде, ал егер дискриминатор идеалды болса, шынайы және өндірілген үлестірім арасындағы алшақтықты минимизациялау ретінде қарастыруға болады.
Шындығында, әртүрлі айырмашылықтар қолданылуы мүмкін және әртүрлі GAN оқыту әдістеріне әкелуі мүмкін.
Генератор мен дискриминатор арасындағы айырбасты қамтитын оқу динамикасы GAN жоғалту функциясын реттеу оңай болғанына қарамастан, оны орындау қиынға соғады.
Сондай-ақ оқытудың жақындайтынына кепілдік жоқ. Нәтижесінде, GAN үлгісін үйрету қиын, өйткені градиенттердің жоғалуы және режимнің құлдырауы сияқты проблемаларды шешу әдеттегідей (генерацияланған үлгілерде әртүрлілік болмаған кезде).
Енді диффузиялық модельдер уақыты келді
GANs оқыту конвергенциясы мәселесі диффузиялық модельдерді әзірлеу арқылы шешілді.
Бұл модельдер диффузия процесі шудың үдемелі араласуынан туындаған ақпараттың жоғалуына эквивалентті деп есептейді (диффузия процесінің әрбір кезеңінде гаусс шуы қосылады).
Мұндай модельдің мақсаты шудың үлгідегі ақпаратқа қалай әсер ететінін немесе басқаша айтқанда, диффузия салдарынан қанша ақпарат жоғалатынын анықтау болып табылады.
Модель мұны анықтай алса, ол бастапқы үлгіні шығарып, орын алған ақпарат жоғалуын қайтара алуы керек.
Бұл залалсыздандыратын диффузиялық модель арқылы орындалады. Тура диффузия процесі және кері диффузия процесі екі қадамды құрайды.
Алға диффузия процесі деректер шумен толығымен ластанғанша гаусс шуды (яғни, диффузия процесі) біртіндеп қосуды қамтиды.
Нейрондық желі кері диффузия әдісі арқылы шуды кері қайтару үшін шартты таралу ықтималдығын үйрену үшін оқытылады.
Мұнда сіз туралы көбірек біле аласыз диффузиялық модель.
Диффузия моделі және GANs
Диффузия моделі сияқты, GAN суреттерді шудан шығарады.
Модель класс белгісі немесе мәтіндік кодтау сияқты кейбір ақпараттық кондициялау айнымалысының шуынан басталатын генераторлық нейрондық желіден тұрады.
Нәтиже шынайы бейнеге ұқсайтын нәрсе болуы керек.
Фотореалистік және жоғары дәлдіктегі кескін ұрпақтарын жасау үшін біз GAN пайдаланамыз. Диффузиялық модельдер арқылы GAN-ға қарағанда шынайырақ көрнекіліктер жасалады.
Бір жағынан, диффузиялық модельдер фактілерді сипаттауда дәлірек болады.
GAN кіріс кездейсоқ шу немесе сыныпты кондициялау айнымалысы ретінде қабылдап, нақты үлгіні шығарса, диффузиялық модельдер жиі баяу, итеративті және көбірек басшылықты қажет етеді.
Шуылдан бастапқы кескінге оралу мақсатында деносизация қайта-қайта қолданылғанда қатеге көп орын болмайды.
Әрбір бақылау нүктесі бүкіл жасау кезеңінде өтеді және әр қадам сайын сурет көбірек ақпарат алуы мүмкін.
қорытынды
Қорытындылай келе, 2020 және 2021 жылдары ғана жарияланған бірнеше маңызды зерттеулердің арқасында диффузиялық модельдер сурет синтезі бойынша GAN-дан асып түседі.
Осы жылы OpenAI іске қосылды DALL-E2, тәжірибешілерге диффузиялық модельдерді қолдануға мүмкіндік беретін кескінді өндіру үлгісі.
GANs озық болғанымен, олардың шектеулері оларды жаңа контексте масштабтауды және пайдалануды қиындатады.
Ықтималдылыққа негізделген үлгілерді пайдалана отырып, GAN үлгісіндегі үлгі сапасына қол жеткізу үшін оған көп жұмыс жасалды.
пікір қалдыру