Վերջին տարիներին «դիֆուզիոն մոդելներ» կոչվող գեներատիվ մոդելները դարձել են ավելի ու ավելի տարածված և լավ պատճառներով:
Աշխարհը տեսել է, թե ինչի են ընդունակ դիֆուզիոն մոդելները, օրինակ՝ նկարների սինթեզում GAN-ի գերազանցումը՝ շնորհիվ մի քանի նշանակալից հրապարակումների, որոնք հրապարակվել են հենց 2020-ականներին և 2021-ին:
Պրակտիկանտները վերջերս տեսել են դիֆուզիոն մոդելների օգտագործումը DALL-E2, OpenAI-ի պատկերների ստեղծման մոդելը, որը հրապարակվել է անցյալ ամիս։
Մեքենայական ուսուցման շատ մասնագետներ, անկասկած, հետաքրքրված են Դիֆուզիոն մոդելների ներքին գործունեությամբ՝ հաշվի առնելով վերջիններիս հաջողության աճը:
Այս գրառման մեջ մենք կանդրադառնանք դիֆուզիոն մոդելների տեսական հիմքերին, դրանց դիզայնին, առավելություններին և շատ ավելին: Եկեք գնանք:
Ի՞նչ է դիֆուզիոն մոդելը:
Եկեք սկսենք պարզել, թե ինչու է այս մոդելը կոչվում դիֆուզիոն մոդել:
Ֆիզիկայի դասերին թերմոդինամիկայի հետ կապված բառը կոչվում է դիֆուզիա։ Համակարգը հավասարակշռության մեջ չէ, եթե մեկ վայրում կա նյութի մեծ կոնցենտրացիան, ինչպիսին բույրն է:
Դիֆուզիան պետք է տեղի ունենա, որպեսզի համակարգը մտնի հավասարակշռություն: Հոտի մոլեկուլները տարածվում են համակարգով մեկ՝ ավելի բարձր կոնցենտրացիայի տարածքից՝ դարձնելով համակարգը միատարր ամբողջ տարածքում:
Ամեն ինչ ի վերջո դառնում է միատարր՝ դիֆուզիայի շնորհիվ։
Դիֆուզիոն մոդելները պայմանավորված են այս թերմոդինամիկական ոչ հավասարակշռված պայմանով: Դիֆուզիոն մոդելներն օգտագործում են Մարկովյան շղթա, որը փոփոխականների մի շարք է, որտեղ յուրաքանչյուր փոփոխականի արժեքը կախված է նախորդ իրադարձության վիճակից:
Լուսանկարելով՝ մենք դրան հաջորդաբար որոշակի քանակությամբ աղմուկ ենք ավելացնում առաջ տարածման փուլում:
Ավելի աղմկոտ պատկերը պահելուց հետո մենք անցնում ենք շարքի հաջորդ պատկերի ստեղծմանը` ներմուծելով լրացուցիչ աղմուկ:
Այս ընթացակարգը կատարվում է մի քանի անգամ: Այս մեթոդը մի քանի անգամ կրկնելուց ստացվում է մաքուր աղմուկի պատկեր:
Այդ դեպքում ինչպե՞ս կարող ենք նկար ստեղծել այս խառնաշփոթ պատկերից:
Դիֆուզիոն գործընթացը հակադարձվում է օգտագործելով a նյարդային ցանց. Նույն ցանցերը և նույն կշիռները օգտագործվում են հետընթաց դիֆուզիոն գործընթացում՝ t-ից t-1 պատկերը ստեղծելու համար:
Ցանցին թույլ տալով կանխատեսել նկարը, կարելի է փորձել կանխատեսել աղմուկը յուրաքանչյուր քայլում, որը պետք է հեռացվի պատկերից՝ առաջադրանքն ավելի պարզեցնելու համար:
Ցանկացած սցենարի դեպքում նեյրոնային ցանցի նախագծում պետք է ընտրվի այնպես, որ պահպանի տվյալների ծավալը:
Deep Dive into Diffusion Model
Դիֆուզիոն մոդելի բաղադրիչներն են առաջընթաց պրոցեսը (նաև հայտնի է որպես դիֆուզիոն պրոցես), որի ժամանակ տվյալները (հաճախ պատկերը) աստիճանաբար աղմուկ են բարձրացնում, և հակադարձ պրոցես (հայտնի է նաև որպես հակադարձ դիֆուզիոն պրոցես), որտեղ աղմուկը տեղի է ունենում. վերադարձված նմուշի թիրախային բաշխումից:
Երբ աղմուկի մակարդակը բավականաչափ ցածր է, պայմանական Գաուսիները կարող են օգտագործվել առաջընթաց գործընթացում նմուշառման շղթայի անցումները հաստատելու համար: Առաջընթաց գործընթացի հեշտ պարամետրիզացիան ստացվում է այս գիտելիքը Մարկովի ենթադրության հետ համատեղելուց.
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Այստեղ 1T-ը շեղումների ժամանակացույց է (կամ սովորած կամ ֆիքսված), որը բավականաչափ բարձր T-ի դեպքում վստահեցնում է, որ xT-ն իրականում իզոտրոպ Գաուսին է:
Հակառակ գործընթացն այն է, որտեղ տեղի է ունենում դիֆուզիոն մոդելի կախարդանք: Մոդելը սովորում է հակադարձել այս դիֆուզիոն գործընթացը վերապատրաստման ընթացքում՝ թարմ տվյալներ արտադրելու համար: Մոդելը սովորում է համատեղ բաշխումը որպես (x0:T) Գաուսի մաքուր աղմուկի հավասարումից սկսելու արդյունքը
(xT):=N(xT,0,I):
pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
որտեղ հայտնաբերվել են Գաուսյան անցումների ժամանակից կախված պարամետրերը: Մասնավորապես, ուշադրություն դարձրեք, թե ինչպես է Մարկովի ձևակերպումը նշում, որ հակադարձ դիֆուզիոն անցումային տրված բաշխումը կախված է բացառապես նախորդ ժամանակացույցից (կամ հաջորդ ժամանակացույցից՝ կախված նրանից, թե ինչպես եք դրան նայում).
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))
Մոդելների ուսուցում
Հակադարձ Մարկովի մոդելը, որն առավելագույնի է հասցնում վերապատրաստման տվյալների հավանականությունը, օգտագործվում է դիֆուզիոն մոդելը վարժեցնելու համար: Գործնականում, թրեյնինգը նման է բացասական լոգարի հավանականության տատանումների վերին սահմանի կրճատմանը:
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =՝ Լ
Models
Այժմ մենք պետք է որոշենք, թե ինչպես գործադրել մեր դիֆուզիոն մոդելը մեր նպատակային ֆունկցիայի մաթեմատիկական հիմքերը հաստատելուց հետո: Առաջընթաց գործընթացի համար անհրաժեշտ միակ որոշումը շեղումների ժամանակացույցի որոշումն է, որի արժեքները սովորաբար բարձրանում են ընթացակարգի ընթացքում:
Մենք խստորեն դիտարկում ենք Գաուսի բաշխման պարամետրացման և մոդելային ճարտարապետության օգտագործումը հակառակ ընթացակարգի համար:
Մեր դիզայնի միակ պայմանն այն է, որ և՛ մուտքը, և՛ ելքը ունեն նույն չափերը: Սա ընդգծում է դիֆուզիոն մոդելների ազատության հսկայական աստիճանը:
Ստորև մենք ավելի մանրամասն կանդրադառնանք այս տարբերակներին:
Առաջընթաց գործընթաց
Մենք պետք է տրամադրենք շեղումների ժամանակացույցը` կապված առաջընթացի գործընթացի հետ: Մենք դրանք հատուկ սահմանել ենք որպես ժամանակից կախված հաստատուններ և անտեսել ենք դրանք սովորելու հնարավորությունը: Ժամանակագրական ժամանակացույց սկսած
β1 = 10−4-ից βT = 0.02.
Lt դառնում է հաստատուն՝ կապված մեր ուսանելի պարամետրերի շարքի հետ՝ կապված ֆիքսված շեղումների ժամանակացույցի հետ, ինչը թույլ է տալիս մեզ անտեսել այն վերապատրաստման ընթացքում՝ անկախ ընտրված հատուկ արժեքներից:
Հակադարձ գործընթաց
Այժմ մենք անցնում ենք այն որոշումներին, որոնք անհրաժեշտ են հակառակ գործընթացը սահմանելու համար: Հիշեք, թե ինչպես մենք նկարագրեցինք Մարկովի հակադարձ անցումները որպես Գաուսի.
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))
Այժմ, երբ մենք բացահայտել ենք ֆունկցիոնալ տեսակները. Չնայած այն հանգամանքին, որ կան պարամետրերի ավելի բարդ տեխնիկա, մենք պարզապես սահմանել ենք
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Այլ կերպ ասած, մենք համարում ենք, որ բազմաչափ Գաուսիան առանձին գաուսների արդյունք է նույն շեղումով, դիսպերսիայի արժեք, որը կարող է տատանվել ժամանակի ընթացքում: Այս շեղումները նախատեսված են համապատասխանելու առաքման գործընթացի շեղումների ժամանակացույցին:
Այս նոր ձեւակերպման արդյունքում, մենք ունենք:
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)
Սա հանգեցնում է ստորև ներկայացված այլընտրանքային կորստի գործառույթին, որը հեղինակները պարզել են, որ տալիս է ավելի հետևողական ուսուցում և գերազանց արդյունքներ.
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Հեղինակները նաև կապեր են գծում դիֆուզիոն մոդելների այս ձևակերպման և Լանգևինի վրա հիմնված միավորների համընկնման գեներատիվ մոդելների միջև: Ինչպես ալիքի վրա հիմնված քվանտային ֆիզիկայի և մատրիցային քվանտային մեխանիկայի անկախ և զուգահեռ զարգացման դեպքում, որը բացահայտեց նույն երևույթների երկու համադրելի ձևակերպումներ, թվում է, որ դիֆուզիոն մոդելները և միավորների վրա հիմնված մոդելները կարող են լինել նույն մետաղադրամի երկու կողմերը:
Ցանցային ճարտարապետություն
Չնայած այն հանգամանքին, որ մեր խտացված կորստի գործառույթը նպատակ ունի պատրաստել մոդել Սթ, մենք դեռ չենք որոշել այս մոդելի ճարտարապետությունը: Հիշեք, որ մոդելը պարզապես պետք է ունենա նույն մուտքային և ելքային չափերը:
Հաշվի առնելով այս սահմանափակումը, հավանաբար անսպասելի չէ, որ U-Net-ի նման ճարտարապետությունները հաճախ օգտագործվում են նկարների դիֆուզիոն մոդելներ ստեղծելու համար:
Բազմաթիվ փոփոխություններ են կատարվում հակադարձ գործընթացի երթուղու երկայնքով՝ օգտագործելով շարունակական պայմանական Գաուսի բաշխումները: Հիշեք, որ հակադարձ ընթացակարգի նպատակն է ստեղծել նկար, որը բաղկացած է ամբողջ թվային պիքսելային արժեքներից: Հետևաբար, անհրաժեշտ է որոշել յուրաքանչյուր պոտենցիալ պիքսելային արժեքի դիսկրետ (տեղեկամատյան) հավանականությունը բոլոր պիքսելների նկատմամբ:
Սա կատարվում է հակադարձ դիֆուզիոն շղթայի վերջին անցումին հատկացնելով առանձին դիսկրետ ապակոդավորիչ: գնահատելով որոշակի պատկերի հնարավորությունը x0 տվյալ x1:
pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; μ i θ (x1, 1), σ2 1) dx
δ+(x) = ∞ եթե x = 1 x + 1 255 եթե x < 1 δ−(x) = −∞ եթե x = −1 x − 1 255 եթե x > −1
որտեղ I վերնագիրը նշանակում է մեկ կոորդինատի արդյունահանում, իսկ D-ն՝ տվյալների չափումների քանակը։
Այս պահին նպատակն է սահմանել յուրաքանչյուր ամբողջ արժեքի հավանականությունը որոշակի պիքսելի համար՝ հաշվի առնելով այդ պիքսելի համար պոտենցիալ արժեքների բաշխումը ժամանակի փոփոխության մեջ: t=1.
Վերջնական նպատակ
Ամենամեծ արդյունքները, ըստ գիտնականների, ստացան նկարի աղմուկի բաղադրիչի կանխատեսումը որոշակի ժամանակահատվածում: Ի վերջո, նրանք օգտագործում են հետևյալ նպատակը.
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Հետևյալ պատկերում մեր դիֆուզիոն մոդելի ուսուցման և նմուշառման ընթացակարգերը հակիրճ պատկերված են.
Դիֆուզիոն մոդելի առավելությունները
Ինչպես արդեն նշվեց, վերջերս բազմապատկվել է դիֆուզիոն մոդելների վերաբերյալ հետազոտությունների քանակը: Դիֆուզիոն մոդելներն այժմ ապահովում են պատկերի գերժամանակակից որակ և ոգեշնչված են ոչ հավասարակշռված թերմոդինամիկայից:
Դիֆուզիոն մոդելներն ապահովում են մի շարք այլ առավելություններ՝ ի լրումն պատկերի առաջադեմ որակի, օրինակ՝ հակառակորդների ուսուցում չպահանջելը:
Հակառակորդի ուսուցման թերությունները լայնորեն հայտնի են, հետևաբար հաճախ նախընտրելի է ընտրել ոչ հակառակորդ այլընտրանքներ՝ համարժեք կատարողականությամբ և վերապատրաստման արդյունավետությամբ:
Դիֆուզիոն մոդելները նաև ապահովում են մասշտաբայնության և զուգահեռելիության առավելությունները՝ մարզումների արդյունավետության առումով:
Թեև դիֆուզիոն մոդելները կարծես թե օդից դուրս արդյունքներ են ստեղծում, այս արդյունքների հիմքը դրված է մի շարք խոհուն և հետաքրքիր մաթեմատիկական որոշումների և նրբությունների միջոցով, և արդյունաբերության լավագույն փորձը դեռ մշակվում է:
Եզրափակում
Եզրափակելով, հետազոտողները ցույց են տալիս բարձրորակ նկարների սինթեզի արդյունքներ՝ օգտագործելով դիֆուզիոն հավանականական մոդելներ՝ լատենտ փոփոխական մոդելների դաս, որոնք դրդված են ոչ հավասարակշռված թերմոդինամիկայի գաղափարներով:
Նրանք հսկայական հաջողությունների են հասել իրենց գերժամանակակից արդյունքների և ոչ հակառակորդական պատրաստվածության շնորհիվ, և հաշվի առնելով նրանց մանկությունը, գալիք տարիներին կարող են ակնկալվել ավելի շատ առաջընթացներ:
Մասնավորապես, պարզվել է, որ դիֆուզիոն մոդելները չափազանց կարևոր են DALL-E 2-ի նման առաջադեմ մոդելների ֆունկցիոնալության համար:
Այստեղ դուք կարող եք մուտք գործել ամբողջական հետազոտություն:
Թողնել գրառում