Դուք, ամենայն հավանականությամբ, տեղյակ եք, որ համակարգիչը կարող է նկարագրել նկարը:
Օրինակ՝ ձեր երեխաների հետ խաղացող շան նկարը կարող է թարգմանվել որպես «շունն ու երեխաները պարտեզում»։ Բայց դուք գիտեի՞ք, որ հակառակ ճանապարհն այժմ նույնպես հնարավոր է: Դուք մուտքագրում եք որոշ բառեր, և մեքենան ստեղծում է նոր նկար:
Ի տարբերություն Google որոնման, որը որոնում է առկա լուսանկարները, այս ամենը թարմ է: Վերջին տարիներին OpenAI-ը եղել է առաջատար կազմակերպություններից մեկը՝ զեկուցելով ցնցող արդյունքների մասին:
Նրանք ուսուցանում են իրենց ալգորիթմները հսկայական տեքստերի և նկարների տվյալների բազաների վրա: Նրանք հրապարակել են իրենց GLIDE պատկերի մոդելի մասին փաստաթուղթ, որը վերապատրաստվել է հարյուր միլիոնավոր լուսանկարների վրա: Ֆոտոռեալիզմի առումով այն գերազանցում է իրենց նախկին «DALL-E» մոդելին:
Այս գրառման մեջ մենք կանդրադառնանք OpenAI-ի GLIDE-ին, որը մի քանի հետաքրքրաշարժ նախաձեռնություններից մեկն է, որն ուղղված է տեքստով առաջնորդվող դիֆուզիոն մոդելներով ֆոտոռեալիստական նկարներ ստեղծելուն և փոփոխելուն: Եկեք սկսենք.
Ինչ է Բացեք AI Glide-ը?
Թեև պատկերների մեծ մասը կարելի է նկարագրել բառերով, տեքստային մուտքագրումներից պատկերներ ստեղծելը պահանջում է մասնագիտացված գիտելիքներ և զգալի ժամանակ:
Արհեստական ինտելեկտի գործակալին բնական լեզվի հուշումներից ֆոտոռեալիստական նկարներ ստեղծելու թույլտվությունը ոչ միայն թույլ է տալիս մարդկանց ստեղծել հարուստ և բազմազան տեսողական նյութ աննախադեպ հեշտությամբ, այլև թույլ է տալիս ավելի պարզ կրկնվող ճշգրտում և ստեղծվող պատկերների մանրահատիկ վերահսկում:
GLIDE-ը կարող է օգտագործվել գոյություն ունեցող լուսանկարները խմբագրելու համար՝ օգտագործելով բնական լեզվով տեքստային հուշումները՝ նոր առարկաներ տեղադրելու, ստվերներ և արտացոլումներ ստեղծելու, պատկերի ներկում, Եւ այլն:
Այն կարող է նաև հիմնական գծային գծագրերը վերածել ֆոտոռեալիստական լուսանկարների, և այն ունի բացառիկ զրոյական նմուշների արտադրության և վերանորոգման հնարավորություններ բարդ իրավիճակներում:
Վերջին հետազոտությունները ցույց են տվել, որ հավանականության վրա հիմնված դիֆուզիոն մոդելները կարող են նաև արտադրել բարձրորակ սինթետիկ նկարներ, հատկապես, երբ համակցված են ուղղորդող մոտեցման հետ, որը հավասարակշռում է բազմազանությունն ու հավատարմությունը:
OpenAI-ը հրապարակել է ա առաջնորդվող դիֆուզիոն մոդել մայիսին, ինչը թույլ է տալիս դիֆուզիոն մոդելներին պայմանավորել դասակարգչի պիտակներով: GLIDE-ը բարելավում է այս հաջողությունը՝ տեքստային պայմանական պատկեր ստեղծելու խնդրին առաջնորդվող դիֆուզիոն բերելով:
3.5 միլիարդ պարամետրանոց GLIDE դիֆուզիոն մոդելը վարժեցնելուց հետո՝ օգտագործելով տեքստային կոդավորիչը՝ բնական լեզվի նկարագրությունները պայմանավորելու համար, հետազոտողները փորձարկեցին երկու այլընտրանքային ուղղորդող ռազմավարություն՝ CLIP ուղղորդում և դասակարգիչ առանց ուղղորդում:
CLIP-ը տեքստի և նկարների համատեղ ներկայացում սովորելու մասշտաբային տեխնիկա է, որը գնահատում է այն հիման վրա, թե որքան մոտ է պատկերը մակագրությանը:
Թիմն օգտագործեց այս ռազմավարությունը իրենց դիֆուզիոն մոդելներում՝ դասակարգիչը փոխարինելով CLIP մոդելով, որը «ուղղորդում» է մոդելներին: Մինչդեռ դասակարգիչից զերծ ուղեցույցը դիֆուզիոն մոդելների ուղղորդման ռազմավարություն է, որը չի ներառում առանձին դասակարգչի ուսուցում:
GLIDE Architecture
GLIDE-ի ճարտարապետությունը բաղկացած է երեք բաղադրիչից՝ Ablated Diffusion Model (ADM), որը պատրաստված է 64 × 64 չափսի պատկեր ստեղծելու համար, տեքստային մոդել (տրանսֆորմատոր), որը ազդում է պատկերի ստեղծման վրա տեքստային հուշման միջոցով, և վերընտրման մոդել, որը փոխակերպում է մեր փոքր 64 × 64 չափերը։ պատկերներ ավելի մեկնաբանելի 256 x 256 պիքսել:
Առաջին երկու բաղադրիչները միասին աշխատում են՝ վերահսկելու նկարների ստեղծման գործընթացը, որպեսզի այն համապատասխան կերպով արտացոլի տեքստի հուշումը, մինչդեռ վերջինս պահանջվում է մեր ստեղծած պատկերները ավելի հեշտ ընկալելի դարձնելու համար: GLIDE նախագիծը ոգեշնչվել է ա զեկույց, որը հրապարակվել է 2021 թ որը ցույց տվեց, որ ADM տեխնիկան գերազանցում է ներկայումս հայտնի, ժամանակակից գեներացնող մոդելներին՝ նկարի նմուշի որակի առումով:
ADM-ի համար GLIDE-ի հեղինակներն օգտագործել են նույն ImageNet 64 x 64 մոդելը, ինչ Դհարիվալը և Նիկոլը, բայց 512-ի փոխարեն 64 ալիքով: Դրա արդյունքում ImageNet մոդելն ունի մոտավորապես 2.3 միլիարդ պարամետր:
GLIDE թիմը, ի տարբերություն Դհարիվալի և Նիկոլի, ցանկանում էր ավելի մեծ անմիջական վերահսկողություն ունենալ նկարների ստեղծման գործընթացի վրա, այդպիսով նրանք համատեղեցին տեսողական մոդելը ուշադրության միացված տրանսֆորմատորի հետ: GLIDE-ը ձեզ որոշակիորեն վերահսկում է նկարների ստեղծման գործընթացի արդյունքը՝ մշակելով տեքստի մուտքագրման հուշումները:
Սա իրականացվում է տրանսֆորմատորի մոդելի ուսուցմամբ լուսանկարների և ենթագրերի համապատասխան մեծ տվյալների բազայի վրա (նման է DALL-E նախագծում օգտագործվածին):
Տեքստն ի սկզբանե կոդավորված է մի շարք K նշանների մեջ՝ այն պայմանավորելու համար: Դրանից հետո նշանները բեռնվում են տրանսֆորմատորային մոդելի մեջ: Այնուհետև տրանսֆորմատորի ելքը կարող է օգտագործվել երկու եղանակով. ADM մոդելի համար վերջնանշանային ներկառուցումն օգտագործվում է դասի ներդրման փոխարեն:
Երկրորդ, նշանների ներկառուցման վերջնական շերտը` մի շարք առանձնահատկությունների վեկտորներ, նախագծված է անկախ ADM մոդելի յուրաքանչյուր ուշադրության շերտի չափերից և միացված է յուրաքանչյուր ուշադրության համատեքստին:
Իրականում սա ADM մոդելին հնարավորություն է տալիս եզակի և ֆոտոռեալիստական ձևով նմանատիպ տեքստային նշանների նոր համակցություններից նկար ստեղծել՝ հիմնվելով մուտքագրված բառերի և դրանց առնչվող պատկերների սովորած ըմբռնման վրա: Տեքստային կոդավորման այս տրանսֆորմատորը պարունակում է 1.2 միլիարդ պարամետր և օգտագործում է 24 մնացորդային բլոկ՝ 2048 լայնությամբ:
Վերջապես, վերընտիր դիֆուզիոն մոդելը ներառում է մոտ 1.5 միլիարդ պարամետր և տարբերվում է հիմնական մոդելից, քանի որ դրա տեքստային կոդավորիչը ավելի փոքր է՝ 1024 և 384 բազային ալիքների լայնությամբ՝ համեմատած բազային մոդելի: Այս մոդելը, ինչպես անունն է ցույց տալիս, օգնում է նմուշի արդիականացմանը՝ թե՛ մեքենաների, թե՛ մարդկանց մեկնաբանելիությունը բարելավելու համար:
Դիֆուզիոն մոդել
GLIDE-ը պատկերներ է ստեղծում՝ օգտագործելով ADM-ի իր տարբերակը (ADM-G՝ «ուղղորդված»): ADM-G մոդելը դիֆուզիոն U-net մոդելի փոփոխությունն է: Diffusion U-net մոդելը կտրուկ տարբերվում է պատկերների սինթեզի ավելի տարածված մեթոդներից, ինչպիսիք են VAE, GAN և տրանսֆորմատորները:
Նրանք կառուցում են դիֆուզիոն քայլերի Մարկովյան շղթա, որպեսզի աստիճանաբար պատահական աղմուկ ներարկեն տվյալների մեջ, այնուհետև սովորեն հակադարձել դիֆուզիոն գործընթացը և վերականգնել պահանջվող տվյալների նմուշները միայն աղմուկից: Այն գործում է երկու փուլով` առաջ և հետադարձ դիֆուզիոն:
Առաջատար դիֆուզիոն մեթոդը, հաշվի առնելով նմուշի իրական բաշխման տվյալների կետը, մի փոքր քանակությամբ աղմուկ է ավելացնում նմուշին նախապես սահմանված քայլերի շարքի ընթացքում: Քանի որ քայլերը մեծանում են չափերով և մոտենում են անսահմանությանը, նմուշը կորցնում է բոլոր ճանաչելի բնութագրերը, և հաջորդականությունը սկսում է նմանվել իզոտրոպ Գաուսի կորի:
Հետադարձ դիֆուզիայի ժամանակ փուլ, դիֆուզիոն մոդել սովորում է հակադարձել ավելացված աղմուկի ազդեցությունը նկարների վրա և արտադրված պատկերը վերադարձնել իր սկզբնական ձևին՝ փորձելով նմանվել սկզբնական մուտքային նմուշի բաշխմանը:
Ավարտված մոդելը կարող է դա անել իրական գաուսյան աղմուկի մուտքագրման և հուշման միջոցով: ADM-G մեթոդը տարբերվում է նախորդից նրանով, որ մոդելը, կամ CLIP-ը կամ հարմարեցված տրանսֆորմատորը, ազդում է հետադիֆուզիայի փուլի վրա՝ օգտագործելով մուտքագրվող տեքստային հուշման նշանները:
Սահելու հնարավորություններ
1. Պատկերի սերունդ
GLIDE-ի ամենահայտնի և լայնորեն կիրառվող օգտագործումը հավանաբար կլինի պատկերների սինթեզը: Թեև նկարները համեստ են, և GLIDE-ը դժվարություններ ունի կենդանիների/մարդկանց ձևերի հետ, սակայն մեկ կրակոցով պատկեր ստեղծելու հնարավորությունը գրեթե անսահման է:
Այն կարող է ստեղծել կենդանիների, հայտնի մարդկանց, լանդշաֆտների, շենքերի և շատ ավելին լուսանկարներ, և դա կարող է անել տարբեր արվեստի ոճերում, ինչպես նաև ֆոտոռեալիստական կերպով: Հետազոտողների հեղինակները պնդում են, որ GLIDE-ն ի վիճակի է մեկնաբանել և հարմարեցնել տեքստային մուտքերի լայն տեսականի տեսողական ձևաչափով, ինչպես երևում է ստորև ներկայացված նմուշներում:
2. Սահել ներկում
GLIDE-ի լուսանկարների ավտոմատ ներկումը, անկասկած, ամենահետաքրքիր օգտագործումն է: GLIDE-ը կարող է վերցնել գոյություն ունեցող նկարը որպես մուտքագրում, մշակել այն՝ նկատի ունենալով տեքստային հուշումը՝ նկատի ունենալով այն վայրերը, որոնք պետք է փոփոխվեն, և այնուհետև հեշտությամբ կատարել այդ մասերի ակտիվ փոփոխությունները:
Այն պետք է օգտագործվի խմբագրման մոդելի հետ միասին, ինչպիսին է SDEdit-ը, նույնիսկ ավելի լավ արդյունքներ ստանալու համար: Ապագայում նման հնարավորություններից օգտվող հավելվածները կարող են առանցքային նշանակություն ունենալ նկարը փոփոխելու առանց ծածկագրի մոտեցումների մշակման համար:
Եզրափակում
Այժմ, երբ մենք անցել ենք այդ գործընթացը, դուք պետք է ըմբռնեք GLIDE-ի աշխատանքի հիմունքները, ինչպես նաև նկարների ստեղծման և ներքևում պատկերի փոփոխման մեջ նրա հնարավորությունների լայնությունը:
Թողնել գրառում