Ընդհանուր առմամբ, խորը գեներացնող մոդելները, ինչպիսիք են GAN-ները, VAE-ները և ավտոռեգեսիվ մոդելները, լուծում են պատկերների սինթեզի խնդիրները:
Հաշվի առնելով նրանց կողմից ստեղծված տվյալների բարձր որակը, գեներատիվ հակառակորդ ցանցերը (GANs) վերջին տարիներին մեծ ուշադրության են արժանացել:
Դիֆուզիոն մոդելները ուսումնասիրության մեկ այլ հետաքրքրաշարժ ոլորտ են, որը հաստատվել է: Պատկերի, տեսանյութի և ձայնի ստեղծման ոլորտները երկուսն էլ լայն կիրառություն են գտել երկուսի համար:
Դիֆուզիոն մոդելներն ընդդեմ GAN-ների. ո՞րն է ավելի լավ արդյունքներ տալիս: Բնականաբար, սա հանգեցրել է շարունակական քննարկման։
Հաշվողական ճարտարապետության մեջ, որը հայտնի է որպես GAN, երկու նյարդային ցանցեր կռվում են միմյանց դեմ՝ ստեղծելու տվյալների նոր սինթեզված օրինակներ, որոնք կարող են փոխանցվել իրական տվյալների համար:
Դիֆուզիոն մոդելներն ավելի ու ավելի տարածված են դառնում, քանի որ ապահովում են մարզման կայունություն և բարձր արդյունքներ երաժշտություն և գրաֆիկա արտադրելու համար:
Այս հոդվածը մանրամասն կներկայացնի դիֆուզիոն մոդելը և GAN-ները, ինչպես նաև, թե ինչպես են դրանք տարբերվում միմյանցից և մի քանի այլ բաներից:
Այսպիսով, ինչ են Generative Adversarial Networks-ը:
Տվյալների նոր, արհեստական օրինակներ ստեղծելու համար, որոնք կարող են սխալվել իրական տվյալների հետ, գեներատիվ հակառակորդ ցանցերը (GANs) օգտագործում են երկու նեյրոնային ցանցեր և դրանք միմյանց դեմ են հանում (հետևաբար՝ անվանման մեջ «հակառակորդ»):
Դրանք լայնորեն օգտագործվում են խոսքի, տեսանյութերի և նկարների ստեղծման համար:
GAN-ի նպատակն է ստեղծել նախկինում չբացահայտված տվյալներ կոնկրետ տվյալներից: Փորձելով եզրակացնել նմուշներից իրական, չբացահայտված հիմքում ընկած տվյալների բաշխման մոդելը, դա արվում է:
Որպես այլընտրանք, այս ցանցերը անուղղակի մոդելներ են, որոնք փորձում են սովորել որոշակի վիճակագրական բաշխում:
Մեթոդը, որն օգտագործում էր GAN-ը, բացահայտելու, թե ինչպես հասնել այս նպատակին, նորություն էր: Իրականում նրանք տվյալներ են արտադրում՝ խաղալով երկու խաղացողով խաղ՝ ենթադրյալ մոդել մշակելու համար:
Հետևյալը նկարագրում է կառուցվածքը.
- Խտրականություն, որը ձեռք է բերում վավերական և կեղծ տվյալների միջև տարբերելու ունակություն
- գեներատորը, որն ընտրում է տվյալներ ստեղծելու նոր ուղիներ, կարող է խաբել խտրականացնողին:
Խտրականությունը հանդես է գալիս որպես նեյրոնային ցանց: Հետևաբար, գեներատորը պետք է բարձր որակով նկար ստեղծի այն խաբելու համար:
Այն փաստը, որ այս գեներատորները չեն ուսուցանվում՝ օգտագործելով որևէ ելքային բաշխում, էական տարբերություն է ինքնակոդավորիչ մոդելների և այլ մոդելների միջև:
Մոդելի կորստի ֆունկցիան քայքայելու երկու եղանակ կա.
- քանակական գնահատման կարողություն, եթե խտրականացնողը ճշգրիտ կանխատեսում է իրական տվյալները
- գեներացված տվյալները ճշգրիտ կանխատեսվում են մի մասի կողմից:
Լավագույն իրագործելի տարբերակիչի դեպքում այս կորստի ֆունկցիան նվազագույնի է հասցվում.
Ընդհանուր մոդելները, հետևաբար, կարող են դիտվել որպես հեռավորության նվազագույնի հասցնելու մոդելներ և, եթե տարբերակիչն իդեալական է, որպես իրական և արտադրված բաշխման միջև տարբերությունների նվազագույնի հասցնել:
Իրականում տարբեր տարաձայնություններ կարող են կիրառվել և հանգեցնել GAN վերապատրաստման տարբեր մեթոդների:
Ուսուցման դինամիկան, որը ներառում է փոխզիջում գեներատորի և տարբերակիչի միջև, դժվար է հետևել, չնայած այն պարզ է, որ հարմարեցված է GAN-ների կորստի գործառույթը:
Չկան նաև հավաստիացումներ, որ ուսուցումը կհամընկնի: Արդյունքում, GAN մոդելի ուսուցումը դժվար է, քանի որ բնորոշ է այնպիսի խնդիրների հետ հանդիպել, ինչպիսիք են անհետացող գրադիենտները և ռեժիմի փլուզումը (երբ ստեղծված նմուշներում չկա բազմազանություն):
Հիմա ժամանակն է դիֆուզիոն մոդելների համար
GAN-ների վերապատրաստման կոնվերգենցիայի հետ կապված խնդիրը լուծվել է դիֆուզիոն մոդելների մշակման միջոցով:
Այս մոդելները ենթադրում են, որ դիֆուզիոն պրոցեսը համարժեք է տեղեկատվության կորստի, որն առաջանում է աղմուկի առաջադեմ միջամտությունից (դիֆուզիոն գործընթացի յուրաքանչյուր ժամանակաշրջանում ավելացվում է գաուսի աղմուկ):
Նման մոդելի նպատակն է որոշել, թե ինչպես է աղմուկը ազդում նմուշում առկա տեղեկատվության վրա, կամ, այլ կերպ ասած, որքան տեղեկատվություն է կորչում դիֆուզիայի պատճառով:
Եթե մոդելը կարող է դա պարզել, ապա այն պետք է կարողանա առբերել սկզբնական նմուշը և վերացնել տեղի ունեցած տեղեկատվության կորուստը:
Սա իրականացվում է դենոիզացնող դիֆուզիոն մոդելի միջոցով: Առաջ տարածման գործընթացը և հակադարձ դիֆուզիոն գործընթացը կազմում են երկու քայլերը:
Առաջատար դիֆուզիոն գործընթացը ներառում է Գաուսի աղմուկի աստիճանական ավելացում (այսինքն՝ դիֆուզիոն գործընթացը), մինչև տվյալները ամբողջությամբ աղտոտվեն աղմուկով:
Հետագայում նեյրոնային ցանցը վերապատրաստվում է՝ օգտագործելով հակադարձ դիֆուզիոն մեթոդը՝ աղմուկը հակադարձելու պայմանական բաշխման հավանականությունները սովորելու համար:
Այստեղ դուք կարող եք ավելին հասկանալ այն մասին դիֆուզիոն մոդել.
Դիֆուզիոն մոդել ընդդեմ GAN-ների
Ինչպես դիֆուզիոն մոդելը, GAN-ները նկարներ են արտադրում աղմուկից:
Մոդելը կազմված է գեներատոր նեյրոնային ցանցից, որը սկսվում է որոշ տեղեկատվական պայմանական փոփոխականի աղմուկից, ինչպիսին է դասի պիտակը կամ տեքստային կոդավորումը:
Այնուհետև արդյունքը պետք է լինի մի բան, որը նման է իրատեսական պատկերի:
Ֆոտոիրատեսական և բարձր հավատարմության պատկերների սերունդներ ստեղծելու համար մենք օգտագործում ենք GAN-ներ: Նույնիսկ ավելի իրատեսական վիզուալներ, քան GAN-ները, արտադրվում են դիֆուզիոն մոդելների միջոցով:
Ինչ-որ կերպ, դիֆուզիոն մոդելներն ավելի ճշգրիտ են փաստերը նկարագրելիս:
Մինչ GAN-ն ընդունում է որպես մուտքային պատահական աղմուկ կամ դասակարգման փոփոխական և թողարկում է իրատեսական նմուշ, դիֆուզիոն մոդելները հաճախ ավելի դանդաղ են, կրկնվող և շատ ավելի շատ առաջնորդության կարիք ունեն:
Սխալների շատ տեղ չկա, երբ զրոյացումն իրականացվում է բազմիցս՝ աղմուկից սկզբնական պատկերին վերադառնալու նպատակով:
Յուրաքանչյուր անցակետով անցնում է ստեղծման ամբողջ փուլում, և յուրաքանչյուր քայլի հետ նկարը կարող է ավելի ու ավելի շատ տեղեկություններ ստանալ:
Եզրափակում
Եզրափակելով, մի քանի նշանակալից հետազոտությունների շնորհիվ, որոնք հրապարակվել են միայն 2020-ականներին և 2021-ին, դիֆուզիոն մոդելներն այժմ կարող են գերազանցել GAN-ին նկարների սինթեզի առումով:
Այս տարի գործարկվեց OpenAI-ը DALL-E2, պատկերի արտադրության մոդել, որը թույլ է տալիս պրակտիկանտներին կիրառել դիֆուզիոն մոդելներ։
Չնայած GAN-ները առաջադեմ են, դրանց սահմանափակումները դժվարացնում են դրանց մասշտաբը և օգտագործումը նոր համատեքստերում:
GAN-ի նման նմուշի որակի հասնելու համար՝ օգտագործելով հավանականության վրա հիմնված մոդելները, դրա վրա մեծ աշխատանք է կատարվել:
Թողնել գրառում