Ներածություն դիֆուզիոն մոդելին

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է դիֆուզիոն մոդելը:
Deep Dive into Diffusion Model+-
Վերջնական նպատակ
Դիֆուզիոն մոդելի առավելությունները
Եզրափակում

Վերջին տարիներին «դիֆուզիոն մոդելներ» կոչվող գեներատիվ մոդելները դարձել են ավելի ու ավելի տարածված և լավ պատճառներով:

Աշխարհը տեսել է, թե ինչի են ընդունակ դիֆուզիոն մոդելները, օրինակ՝ նկարների սինթեզում GAN-ի գերազանցումը՝ շնորհիվ մի քանի նշանակալից հրապարակումների, որոնք հրապարակվել են հենց 2020-ականներին և 2021-ին:

Պրակտիկանտները վերջերս տեսել են դիֆուզիոն մոդելների օգտագործումը DALL-E2, OpenAI-ի պատկերների ստեղծման մոդելը, որը հրապարակվել է անցյալ ամիս։

Մեքենայական ուսուցման շատ մասնագետներ, անկասկած, հետաքրքրված են Դիֆուզիոն մոդելների ներքին գործունեությամբ՝ հաշվի առնելով վերջիններիս հաջողության աճը:

Այս գրառման մեջ մենք կանդրադառնանք դիֆուզիոն մոդելների տեսական հիմքերին, դրանց դիզայնին, առավելություններին և շատ ավելին: Եկեք գնանք:

Ի՞նչ է դիֆուզիոն մոդելը:

Եկեք սկսենք պարզել, թե ինչու է այս մոդելը կոչվում դիֆուզիոն մոդել:

Ֆիզիկայի դասերին թերմոդինամիկայի հետ կապված բառը կոչվում է դիֆուզիա։ Համակարգը հավասարակշռության մեջ չէ, եթե մեկ վայրում կա նյութի մեծ կոնցենտրացիան, ինչպիսին բույրն է:

Դիֆուզիան պետք է տեղի ունենա, որպեսզի համակարգը մտնի հավասարակշռություն: Հոտի մոլեկուլները տարածվում են համակարգով մեկ՝ ավելի բարձր կոնցենտրացիայի տարածքից՝ դարձնելով համակարգը միատարր ամբողջ տարածքում:

Ամեն ինչ ի վերջո դառնում է միատարր՝ դիֆուզիայի շնորհիվ։

Դիֆուզիոն մոդելները պայմանավորված են այս թերմոդինամիկական ոչ հավասարակշռված պայմանով: Դիֆուզիոն մոդելներն օգտագործում են Մարկովյան շղթա, որը փոփոխականների մի շարք է, որտեղ յուրաքանչյուր փոփոխականի արժեքը կախված է նախորդ իրադարձության վիճակից:

Լուսանկարելով՝ մենք դրան հաջորդաբար որոշակի քանակությամբ աղմուկ ենք ավելացնում առաջ տարածման փուլում:

Ավելի աղմկոտ պատկերը պահելուց հետո մենք անցնում ենք շարքի հաջորդ պատկերի ստեղծմանը` ներմուծելով լրացուցիչ աղմուկ:

Այս ընթացակարգը կատարվում է մի քանի անգամ: Այս մեթոդը մի քանի անգամ կրկնելուց ստացվում է մաքուր աղմուկի պատկեր:

Այդ դեպքում ինչպե՞ս կարող ենք նկար ստեղծել այս խառնաշփոթ պատկերից:

Դիֆուզիոն գործընթացը հակադարձվում է օգտագործելով a նյարդային ցանց. Նույն ցանցերը և նույն կշիռները օգտագործվում են հետընթաց դիֆուզիոն գործընթացում՝ t-ից t-1 պատկերը ստեղծելու համար:

Ցանցին թույլ տալով կանխատեսել նկարը, կարելի է փորձել կանխատեսել աղմուկը յուրաքանչյուր քայլում, որը պետք է հեռացվի պատկերից՝ առաջադրանքն ավելի պարզեցնելու համար:

Ցանկացած սցենարի դեպքում նեյրոնային ցանցի նախագծում պետք է ընտրվի այնպես, որ պահպանի տվյալների ծավալը:

Deep Dive into Diffusion Model

Դիֆուզիոն մոդելի բաղադրիչներն են առաջընթաց պրոցեսը (նաև հայտնի է որպես դիֆուզիոն պրոցես), որի ժամանակ տվյալները (հաճախ պատկերը) աստիճանաբար աղմուկ են բարձրացնում, և հակադարձ պրոցես (հայտնի է նաև որպես հակադարձ դիֆուզիոն պրոցես), որտեղ աղմուկը տեղի է ունենում. վերադարձված նմուշի թիրախային բաշխումից:

Երբ աղմուկի մակարդակը բավականաչափ ցածր է, պայմանական Գաուսիները կարող են օգտագործվել առաջընթաց գործընթացում նմուշառման շղթայի անցումները հաստատելու համար: Առաջընթաց գործընթացի հեշտ պարամետրիզացիան ստացվում է այս գիտելիքը Մարկովի ենթադրության հետ համատեղելուց.

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

Այստեղ 1T-ը շեղումների ժամանակացույց է (կամ սովորած կամ ֆիքսված), որը բավականաչափ բարձր T-ի դեպքում վստահեցնում է, որ xT-ն իրականում իզոտրոպ Գաուսին է:

Մեծ Տ

Հակառակ գործընթացն այն է, որտեղ տեղի է ունենում դիֆուզիոն մոդելի կախարդանք: Մոդելը սովորում է հակադարձել այս դիֆուզիոն գործընթացը վերապատրաստման ընթացքում՝ թարմ տվյալներ արտադրելու համար: Մոդելը սովորում է համատեղ բաշխումը որպես (x0:T) Գաուսի մաքուր աղմուկի հավասարումից սկսելու արդյունքը

(xT):=N(xT,0,I):

pθ(x0:T) := p(xT) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))

որտեղ հայտնաբերվել են Գաուսյան անցումների ժամանակից կախված պարամետրերը: Մասնավորապես, ուշադրություն դարձրեք, թե ինչպես է Մարկովի ձևակերպումը նշում, որ հակադարձ դիֆուզիոն անցումային տրված բաշխումը կախված է բացառապես նախորդ ժամանակացույցից (կամ հաջորդ ժամանակացույցից՝ կախված նրանից, թե ինչպես եք դրան նայում).

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))

Մոդելների ուսուցում

Հակադարձ Մարկովի մոդելը, որն առավելագույնի է հասցնում վերապատրաստման տվյալների հավանականությունը, օգտագործվում է դիֆուզիոն մոդելը վարժեցնելու համար: Գործնականում, թրեյնինգը նման է բացասական լոգարի հավանականության տատանումների վերին սահմանի կրճատմանը:

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =՝ Լ

Models

Այժմ մենք պետք է որոշենք, թե ինչպես գործադրել մեր դիֆուզիոն մոդելը մեր նպատակային ֆունկցիայի մաթեմատիկական հիմքերը հաստատելուց հետո: Առաջընթաց գործընթացի համար անհրաժեշտ միակ որոշումը շեղումների ժամանակացույցի որոշումն է, որի արժեքները սովորաբար բարձրանում են ընթացակարգի ընթացքում:

Մենք խստորեն դիտարկում ենք Գաուսի բաշխման պարամետրացման և մոդելային ճարտարապետության օգտագործումը հակառակ ընթացակարգի համար:

Մեր դիզայնի միակ պայմանն այն է, որ և՛ մուտքը, և՛ ելքը ունեն նույն չափերը: Սա ընդգծում է դիֆուզիոն մոդելների ազատության հսկայական աստիճանը:

Ստորև մենք ավելի մանրամասն կանդրադառնանք այս տարբերակներին:

Առաջընթաց գործընթաց

Մենք պետք է տրամադրենք շեղումների ժամանակացույցը` կապված առաջընթացի գործընթացի հետ: Մենք դրանք հատուկ սահմանել ենք որպես ժամանակից կախված հաստատուններ և անտեսել ենք դրանք սովորելու հնարավորությունը: Ժամանակագրական ժամանակացույց սկսած

β1 = 10−4-ից βT = 0.02.

Lt դառնում է հաստատուն՝ կապված մեր ուսանելի պարամետրերի շարքի հետ՝ կապված ֆիքսված շեղումների ժամանակացույցի հետ, ինչը թույլ է տալիս մեզ անտեսել այն վերապատրաստման ընթացքում՝ անկախ ընտրված հատուկ արժեքներից:

Հակադարձ գործընթաց

Այժմ մենք անցնում ենք այն որոշումներին, որոնք անհրաժեշտ են հակառակ գործընթացը սահմանելու համար: Հիշեք, թե ինչպես մենք նկարագրեցինք Մարկովի հակադարձ անցումները որպես Գաուսի.

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))

Այժմ, երբ մենք բացահայտել ենք ֆունկցիոնալ տեսակները. Չնայած այն հանգամանքին, որ կան պարամետրերի ավելի բարդ տեխնիկա, մենք պարզապես սահմանել ենք

Σθ(xt, t) = σ 2 t I

σ 2 t = βt

Այլ կերպ ասած, մենք համարում ենք, որ բազմաչափ Գաուսիան առանձին գաուսների արդյունք է նույն շեղումով, դիսպերսիայի արժեք, որը կարող է տատանվել ժամանակի ընթացքում: Այս շեղումները նախատեսված են համապատասխանելու առաքման գործընթացի շեղումների ժամանակացույցին:

Այս նոր ձեւակերպման արդյունքում, մենք ունենք:

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)

Սա հանգեցնում է ստորև ներկայացված այլընտրանքային կորստի գործառույթին, որը հեղինակները պարզել են, որ տալիս է ավելի հետևողական ուսուցում և գերազանց արդյունքներ.

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Հեղինակները նաև կապեր են գծում դիֆուզիոն մոդելների այս ձևակերպման և Լանգևինի վրա հիմնված միավորների համընկնման գեներատիվ մոդելների միջև: Ինչպես ալիքի վրա հիմնված քվանտային ֆիզիկայի և մատրիցային քվանտային մեխանիկայի անկախ և զուգահեռ զարգացման դեպքում, որը բացահայտեց նույն երևույթների երկու համադրելի ձևակերպումներ, թվում է, որ դիֆուզիոն մոդելները և միավորների վրա հիմնված մոդելները կարող են լինել նույն մետաղադրամի երկու կողմերը:

Ցանցային ճարտարապետություն

Չնայած այն հանգամանքին, որ մեր խտացված կորստի գործառույթը նպատակ ունի պատրաստել մոդել Սթ, մենք դեռ չենք որոշել այս մոդելի ճարտարապետությունը: Հիշեք, որ մոդելը պարզապես պետք է ունենա նույն մուտքային և ելքային չափերը:

Հաշվի առնելով այս սահմանափակումը, հավանաբար անսպասելի չէ, որ U-Net-ի նման ճարտարապետությունները հաճախ օգտագործվում են նկարների դիֆուզիոն մոդելներ ստեղծելու համար:

Ցանցային ճարտարապետություն

Բազմաթիվ փոփոխություններ են կատարվում հակադարձ գործընթացի երթուղու երկայնքով՝ օգտագործելով շարունակական պայմանական Գաուսի բաշխումները: Հիշեք, որ հակադարձ ընթացակարգի նպատակն է ստեղծել նկար, որը բաղկացած է ամբողջ թվային պիքսելային արժեքներից: Հետևաբար, անհրաժեշտ է որոշել յուրաքանչյուր պոտենցիալ պիքսելային արժեքի դիսկրետ (տեղեկամատյան) հավանականությունը բոլոր պիքսելների նկատմամբ:

Սա կատարվում է հակադարձ դիֆուզիոն շղթայի վերջին անցումին հատկացնելով առանձին դիսկրետ ապակոդավորիչ: գնահատելով որոշակի պատկերի հնարավորությունը x0 տվյալ x1:

pθ(x0|x1) = YD i=1 Z δ+(xi 0) δ−(xi 0) N (x; μ i θ (x1, 1), σ2 1) dx

δ+(x) = ∞ եթե x = 1 x + 1 255 եթե x < 1 δ−(x) = −∞ եթե x = −1 x − 1 255 եթե x > −1

որտեղ I վերնագիրը նշանակում է մեկ կոորդինատի արդյունահանում, իսկ D-ն՝ տվյալների չափումների քանակը։

Այս պահին նպատակն է սահմանել յուրաքանչյուր ամբողջ արժեքի հավանականությունը որոշակի պիքսելի համար՝ հաշվի առնելով այդ պիքսելի համար պոտենցիալ արժեքների բաշխումը ժամանակի փոփոխության մեջ: t=1.

Վերջնական նպատակ

Ամենամեծ արդյունքները, ըստ գիտնականների, ստացան նկարի աղմուկի բաղադրիչի կանխատեսումը որոշակի ժամանակահատվածում: Ի վերջո, նրանք օգտագործում են հետևյալ նպատակը.

Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Հետևյալ պատկերում մեր դիֆուզիոն մոդելի ուսուցման և նմուշառման ընթացակարգերը հակիրճ պատկերված են.

Վերջնական նպատակ

Դիֆուզիոն մոդելի առավելությունները

Ինչպես արդեն նշվեց, վերջերս բազմապատկվել է դիֆուզիոն մոդելների վերաբերյալ հետազոտությունների քանակը: Դիֆուզիոն մոդելներն այժմ ապահովում են պատկերի գերժամանակակից որակ և ոգեշնչված են ոչ հավասարակշռված թերմոդինամիկայից:

Դիֆուզիոն մոդելներն ապահովում են մի շարք այլ առավելություններ՝ ի լրումն պատկերի առաջադեմ որակի, օրինակ՝ հակառակորդների ուսուցում չպահանջելը:

Հակառակորդի ուսուցման թերությունները լայնորեն հայտնի են, հետևաբար հաճախ նախընտրելի է ընտրել ոչ հակառակորդ այլընտրանքներ՝ համարժեք կատարողականությամբ և վերապատրաստման արդյունավետությամբ:

Դիֆուզիոն մոդելները նաև ապահովում են մասշտաբայնության և զուգահեռելիության առավելությունները՝ մարզումների արդյունավետության առումով:

Թեև դիֆուզիոն մոդելները կարծես թե օդից դուրս արդյունքներ են ստեղծում, այս արդյունքների հիմքը դրված է մի շարք խոհուն և հետաքրքիր մաթեմատիկական որոշումների և նրբությունների միջոցով, և արդյունաբերության լավագույն փորձը դեռ մշակվում է:

Եզրափակում

Եզրափակելով, հետազոտողները ցույց են տալիս բարձրորակ նկարների սինթեզի արդյունքներ՝ օգտագործելով դիֆուզիոն հավանականական մոդելներ՝ լատենտ փոփոխական մոդելների դաս, որոնք դրդված են ոչ հավասարակշռված թերմոդինամիկայի գաղափարներով:

Նրանք հսկայական հաջողությունների են հասել իրենց գերժամանակակից արդյունքների և ոչ հակառակորդական պատրաստվածության շնորհիվ, և հաշվի առնելով նրանց մանկությունը, գալիք տարիներին կարող են ակնկալվել ավելի շատ առաջընթացներ:

Մասնավորապես, պարզվել է, որ դիֆուզիոն մոդելները չափազանց կարևոր են DALL-E 2-ի նման առաջադեմ մոդելների ֆունկցիոնալության համար:

Այստեղ դուք կարող եք մուտք գործել ամբողջական հետազոտություն:

Դիֆուզիոն մոդելի ներածություն

Ի՞նչ է դիֆուզիոն մոդելը: