Բացեք AI սահում (դիֆուզիոն) - պատկերների ստեղծում՝ ընդամենը տեքստային մուտքագրմամբ

Բառը[Թաքցնել][Ցուցադրում]

Ի՞նչ է Open AI Glide-ը:
GLIDE Architecture
Դիֆուզիոն մոդել
Սահելու հնարավորություններ+-
- 1. Պատկերի սերունդ
- 2. Սահել ներկում
Եզրափակում

Դուք, ամենայն հավանականությամբ, տեղյակ եք, որ համակարգիչը կարող է նկարագրել նկարը:

Օրինակ՝ ձեր երեխաների հետ խաղացող շան նկարը կարող է թարգմանվել որպես «շունն ու երեխաները պարտեզում»։ Բայց դուք գիտեի՞ք, որ հակառակ ճանապարհն այժմ նույնպես հնարավոր է: Դուք մուտքագրում եք որոշ բառեր, և մեքենան ստեղծում է նոր նկար:

Ի տարբերություն Google որոնման, որը որոնում է առկա լուսանկարները, այս ամենը թարմ է: Վերջին տարիներին OpenAI-ը եղել է առաջատար կազմակերպություններից մեկը՝ զեկուցելով ցնցող արդյունքների մասին:

Նրանք ուսուցանում են իրենց ալգորիթմները հսկայական տեքստերի և նկարների տվյալների բազաների վրա: Նրանք հրապարակել են իրենց GLIDE պատկերի մոդելի մասին փաստաթուղթ, որը վերապատրաստվել է հարյուր միլիոնավոր լուսանկարների վրա: Ֆոտոռեալիզմի առումով այն գերազանցում է իրենց նախկին «DALL-E» մոդելին:

Այս գրառման մեջ մենք կանդրադառնանք OpenAI-ի GLIDE-ին, որը մի քանի հետաքրքրաշարժ նախաձեռնություններից մեկն է, որն ուղղված է տեքստով առաջնորդվող դիֆուզիոն մոդելներով ֆոտոռեալիստական նկարներ ստեղծելուն և փոփոխելուն: Եկեք սկսենք.

Ինչ է Բացեք AI Glide-ը?

Թեև պատկերների մեծ մասը կարելի է նկարագրել բառերով, տեքստային մուտքագրումներից պատկերներ ստեղծելը պահանջում է մասնագիտացված գիտելիքներ և զգալի ժամանակ:

Արհեստական ինտելեկտի գործակալին բնական լեզվի հուշումներից ֆոտոռեալիստական նկարներ ստեղծելու թույլտվությունը ոչ միայն թույլ է տալիս մարդկանց ստեղծել հարուստ և բազմազան տեսողական նյութ աննախադեպ հեշտությամբ, այլև թույլ է տալիս ավելի պարզ կրկնվող ճշգրտում և ստեղծվող պատկերների մանրահատիկ վերահսկում:

GLIDE-ը կարող է օգտագործվել գոյություն ունեցող լուսանկարները խմբագրելու համար՝ օգտագործելով բնական լեզվով տեքստային հուշումները՝ նոր առարկաներ տեղադրելու, ստվերներ և արտացոլումներ ստեղծելու, պատկերի ներկում, Եւ այլն:

Այն կարող է նաև հիմնական գծային գծագրերը վերածել ֆոտոռեալիստական լուսանկարների, և այն ունի բացառիկ զրոյական նմուշների արտադրության և վերանորոգման հնարավորություններ բարդ իրավիճակներում:

Վերջին հետազոտությունները ցույց են տվել, որ հավանականության վրա հիմնված դիֆուզիոն մոդելները կարող են նաև արտադրել բարձրորակ սինթետիկ նկարներ, հատկապես, երբ համակցված են ուղղորդող մոտեցման հետ, որը հավասարակշռում է բազմազանությունն ու հավատարմությունը:

Բացեք AI Glide-ը

OpenAI-ը հրապարակել է ա առաջնորդվող դիֆուզիոն մոդել մայիսին, ինչը թույլ է տալիս դիֆուզիոն մոդելներին պայմանավորել դասակարգչի պիտակներով: GLIDE-ը բարելավում է այս հաջողությունը՝ տեքստային պայմանական պատկեր ստեղծելու խնդրին առաջնորդվող դիֆուզիոն բերելով:

3.5 միլիարդ պարամետրանոց GLIDE դիֆուզիոն մոդելը վարժեցնելուց հետո՝ օգտագործելով տեքստային կոդավորիչը՝ բնական լեզվի նկարագրությունները պայմանավորելու համար, հետազոտողները փորձարկեցին երկու այլընտրանքային ուղղորդող ռազմավարություն՝ CLIP ուղղորդում և դասակարգիչ առանց ուղղորդում:

CLIP-ը տեքստի և նկարների համատեղ ներկայացում սովորելու մասշտաբային տեխնիկա է, որը գնահատում է այն հիման վրա, թե որքան մոտ է պատկերը մակագրությանը:

Թիմն օգտագործեց այս ռազմավարությունը իրենց դիֆուզիոն մոդելներում՝ դասակարգիչը փոխարինելով CLIP մոդելով, որը «ուղղորդում» է մոդելներին: Մինչդեռ դասակարգիչից զերծ ուղեցույցը դիֆուզիոն մոդելների ուղղորդման ռազմավարություն է, որը չի ներառում առանձին դասակարգչի ուսուցում:

GLIDE Architecture

GLIDE-ի ճարտարապետությունը բաղկացած է երեք բաղադրիչից՝ Ablated Diffusion Model (ADM), որը պատրաստված է 64 × 64 չափսի պատկեր ստեղծելու համար, տեքստային մոդել (տրանսֆորմատոր), որը ազդում է պատկերի ստեղծման վրա տեքստային հուշման միջոցով, և վերընտրման մոդել, որը փոխակերպում է մեր փոքր 64 × 64 չափերը։ պատկերներ ավելի մեկնաբանելի 256 x 256 պիքսել:

Առաջին երկու բաղադրիչները միասին աշխատում են՝ վերահսկելու նկարների ստեղծման գործընթացը, որպեսզի այն համապատասխան կերպով արտացոլի տեքստի հուշումը, մինչդեռ վերջինս պահանջվում է մեր ստեղծած պատկերները ավելի հեշտ ընկալելի դարձնելու համար: GLIDE նախագիծը ոգեշնչվել է ա զեկույց, որը հրապարակվել է 2021 թ որը ցույց տվեց, որ ADM տեխնիկան գերազանցում է ներկայումս հայտնի, ժամանակակից գեներացնող մոդելներին՝ նկարի նմուշի որակի առումով:

ADM-ի համար GLIDE-ի հեղինակներն օգտագործել են նույն ImageNet 64 x 64 մոդելը, ինչ Դհարիվալը և Նիկոլը, բայց 512-ի փոխարեն 64 ալիքով: Դրա արդյունքում ImageNet մոդելն ունի մոտավորապես 2.3 միլիարդ պարամետր:

GLIDE թիմը, ի տարբերություն Դհարիվալի և Նիկոլի, ցանկանում էր ավելի մեծ անմիջական վերահսկողություն ունենալ նկարների ստեղծման գործընթացի վրա, այդպիսով նրանք համատեղեցին տեսողական մոդելը ուշադրության միացված տրանսֆորմատորի հետ: GLIDE-ը ձեզ որոշակիորեն վերահսկում է նկարների ստեղծման գործընթացի արդյունքը՝ մշակելով տեքստի մուտքագրման հուշումները:

Սահի համեմատություն այլ մոդելների հետ

Սա իրականացվում է տրանսֆորմատորի մոդելի ուսուցմամբ լուսանկարների և ենթագրերի համապատասխան մեծ տվյալների բազայի վրա (նման է DALL-E նախագծում օգտագործվածին):

Տեքստն ի սկզբանե կոդավորված է մի շարք K նշանների մեջ՝ այն պայմանավորելու համար: Դրանից հետո նշանները բեռնվում են տրանսֆորմատորային մոդելի մեջ: Այնուհետև տրանսֆորմատորի ելքը կարող է օգտագործվել երկու եղանակով. ADM մոդելի համար վերջնանշանային ներկառուցումն օգտագործվում է դասի ներդրման փոխարեն:

Երկրորդ, նշանների ներկառուցման վերջնական շերտը` մի շարք առանձնահատկությունների վեկտորներ, նախագծված է անկախ ADM մոդելի յուրաքանչյուր ուշադրության շերտի չափերից և միացված է յուրաքանչյուր ուշադրության համատեքստին:

Իրականում սա ADM մոդելին հնարավորություն է տալիս եզակի և ֆոտոռեալիստական ձևով նմանատիպ տեքստային նշանների նոր համակցություններից նկար ստեղծել՝ հիմնվելով մուտքագրված բառերի և դրանց առնչվող պատկերների սովորած ըմբռնման վրա: Տեքստային կոդավորման այս տրանսֆորմատորը պարունակում է 1.2 միլիարդ պարամետր և օգտագործում է 24 մնացորդային բլոկ՝ 2048 լայնությամբ:

Վերջապես, վերընտիր դիֆուզիոն մոդելը ներառում է մոտ 1.5 միլիարդ պարամետր և տարբերվում է հիմնական մոդելից, քանի որ դրա տեքստային կոդավորիչը ավելի փոքր է՝ 1024 և 384 բազային ալիքների լայնությամբ՝ համեմատած բազային մոդելի: Այս մոդելը, ինչպես անունն է ցույց տալիս, օգնում է նմուշի արդիականացմանը՝ թե՛ մեքենաների, թե՛ մարդկանց մեկնաբանելիությունը բարելավելու համար:

Սահեցրեք զտված փոքր պատկերները

Դիֆուզիոն մոդել

GLIDE-ը պատկերներ է ստեղծում՝ օգտագործելով ADM-ի իր տարբերակը (ADM-G՝ «ուղղորդված»): ADM-G մոդելը դիֆուզիոն U-net մոդելի փոփոխությունն է: Diffusion U-net մոդելը կտրուկ տարբերվում է պատկերների սինթեզի ավելի տարածված մեթոդներից, ինչպիսիք են VAE, GAN և տրանսֆորմատորները:

Դիֆուզիոն մոդել

Նրանք կառուցում են դիֆուզիոն քայլերի Մարկովյան շղթա, որպեսզի աստիճանաբար պատահական աղմուկ ներարկեն տվյալների մեջ, այնուհետև սովորեն հակադարձել դիֆուզիոն գործընթացը և վերականգնել պահանջվող տվյալների նմուշները միայն աղմուկից: Այն գործում է երկու փուլով` առաջ և հետադարձ դիֆուզիոն:

Առաջատար դիֆուզիոն մեթոդը, հաշվի առնելով նմուշի իրական բաշխման տվյալների կետը, մի փոքր քանակությամբ աղմուկ է ավելացնում նմուշին նախապես սահմանված քայլերի շարքի ընթացքում: Քանի որ քայլերը մեծանում են չափերով և մոտենում են անսահմանությանը, նմուշը կորցնում է բոլոր ճանաչելի բնութագրերը, և հաջորդականությունը սկսում է նմանվել իզոտրոպ Գաուսի կորի:

Չաղմկված Աղմկոտ սահող պատկեր

Հետադարձ դիֆուզիայի ժամանակ փուլ, դիֆուզիոն մոդել սովորում է հակադարձել ավելացված աղմուկի ազդեցությունը նկարների վրա և արտադրված պատկերը վերադարձնել իր սկզբնական ձևին՝ փորձելով նմանվել սկզբնական մուտքային նմուշի բաշխմանը:

Ավարտված մոդելը կարող է դա անել իրական գաուսյան աղմուկի մուտքագրման և հուշման միջոցով: ADM-G մեթոդը տարբերվում է նախորդից նրանով, որ մոդելը, կամ CLIP-ը կամ հարմարեցված տրանսֆորմատորը, ազդում է հետադիֆուզիայի փուլի վրա՝ օգտագործելով մուտքագրվող տեքստային հուշման նշանները:

Սահելու հնարավորություններ

1. Պատկերի սերունդ

GLIDE-ի ամենահայտնի և լայնորեն կիրառվող օգտագործումը հավանաբար կլինի պատկերների սինթեզը: Թեև նկարները համեստ են, և GLIDE-ը դժվարություններ ունի կենդանիների/մարդկանց ձևերի հետ, սակայն մեկ կրակոցով պատկեր ստեղծելու հնարավորությունը գրեթե անսահման է:

Պատկերի սերունդ GLIDE-ով

Այն կարող է ստեղծել կենդանիների, հայտնի մարդկանց, լանդշաֆտների, շենքերի և շատ ավելին լուսանկարներ, և դա կարող է անել տարբեր արվեստի ոճերում, ինչպես նաև ֆոտոռեալիստական կերպով: Հետազոտողների հեղինակները պնդում են, որ GLIDE-ն ի վիճակի է մեկնաբանել և հարմարեցնել տեքստային մուտքերի լայն տեսականի տեսողական ձևաչափով, ինչպես երևում է ստորև ներկայացված նմուշներում:

2. Սահել ներկում

GLIDE-ի լուսանկարների ավտոմատ ներկումը, անկասկած, ամենահետաքրքիր օգտագործումն է: GLIDE-ը կարող է վերցնել գոյություն ունեցող նկարը որպես մուտքագրում, մշակել այն՝ նկատի ունենալով տեքստային հուշումը՝ նկատի ունենալով այն վայրերը, որոնք պետք է փոփոխվեն, և այնուհետև հեշտությամբ կատարել այդ մասերի ակտիվ փոփոխությունները:

Այն պետք է օգտագործվի խմբագրման մոդելի հետ միասին, ինչպիսին է SDEdit-ը, նույնիսկ ավելի լավ արդյունքներ ստանալու համար: Ապագայում նման հնարավորություններից օգտվող հավելվածները կարող են առանցքային նշանակություն ունենալ նկարը փոփոխելու առանց ծածկագրի մոտեցումների մշակման համար:

Եզրափակում

Այժմ, երբ մենք անցել ենք այդ գործընթացը, դուք պետք է ըմբռնեք GLIDE-ի աշխատանքի հիմունքները, ինչպես նաև նկարների ստեղծման և ներքևում պատկերի փոփոխման մեջ նրա հնարավորությունների լայնությունը:

Բացեք AI Glide (դիֆուզիոն) – Պատկերների ստեղծում՝ ընդամենը տեքստի մուտքագրմամբ

Ինչ է Բացեք AI Glide-ը?

GLIDE Architecture

Դիֆուզիոն մոդել

Սահելու հնարավորություններ

1. Պատկերի սերունդ

2. Սահել ներկում

Եզրափակում

Մեր Մասին ճայ

Լրացուցիչ հոդվածներ HashDork-ում.

Ինչպես նվազեցնել հալյուցինացիաները ձեր AI-ում

Կոլոսյան vs Հեյգեն

Այս ապագա տեխնոլոգիական տեղեկագիրը չի ծծում

Բացեք AI Glide (դիֆուզիոն) – Պատկերների ստեղծում՝ ընդամենը տեքստի մուտքագրմամբ

Ինչ է Բացեք AI Glide-ը?

GLIDE Architecture

Դիֆուզիոն մոդել

Սահելու հնարավորություններ

1. Պատկերի սերունդ

2. Սահել ներկում

Եզրափակում

Մեր Մասին ճայ

Լրացուցիչ հոդվածներ HashDork-ում.

Ինչպես նվազեցնել հալյուցինացիաները ձեր AI-ում

10 լավագույն AI գործիքներ սոցիալական մեդիայի համար

Կոլոսյան vs Հեյգեն

10 լավագույն AI անիմացիոն վիդեո ստեղծող գործիքներ

Reader փոխազդեցությունների

Թողնել գրառում Ավելացնել կարծիք Չեղարկել պատասխանել

Այս ապագա տեխնոլոգիական տեղեկագիրը չի ծծում

Թողնել գրառում