Նոր և կատարելագործված AI-ն ունի բարելավված կարողություններ, ըմբռնում և ավելի բարձր լուծաչափով պատկերներ ստեղծելու կարողություն: Դուք կարող եք վերջերս հանդիպել տարօրինակ և զվարճալի պատկերների, որոնք լողում են համացանցում:
Շիբա Ինու շունը հագած է բերետով և սև կրիա պարանոցով: Եվ ծովային ջրասամույր՝ հոլանդացի նկարիչ Վերմեերի «Մարգարտե ականջօղով աղջիկը» ստեղծագործության ձևով։ Եվ կա մի բաժակ ապուր, որը նման է բրդոտ հրեշի:
Այս պատկերները չեն ստեղծվել մարդկային նկարչի կողմից:
Փոխարենը, DALL-E 2-ը՝ արհեստական ինտելեկտի նոր համակարգ, որը կարող է տեքստային նկարագրությունները վերածել պատկերների, ստեղծել է դրանք:
Պարզապես գրեք այն, ինչ ցանկանում եք տեսնել, և AI-ն այն կստեղծի ձեզ համար՝ վառ մանրամասնությամբ, գերազանց որակով և, որոշ դեպքերում, իսկական հնարամտությամբ: Այս գրառման մեջ մենք խորապես կանդրադառնանք OpenAI-ի վերջին ուսումնասիրությանը, DALL.E 2-ին, ինչպես նաև այն, թե ինչպես է այն աշխատում և շատ ավելին: Եկեք սկսենք.
Այսպիսով, ինչ է իրականում DALL.E 2?
DALL-E 2-ը «գեներատիվ մոդել» է՝ մեքենայական ուսուցման ալգորիթմի տեսակ, որը ստեղծում է բարդ ելք, քան մուտքային տվյալների վրա կանխատեսման կամ դասակարգման առաջադրանքներ կատարելու:
Դուք տրամադրում եք DALL-E 2-ին գրավոր նկարագրություն, և այն ստեղծում է դրան համապատասխան նկար։ Համատեղելով հասկացությունները, որակները և ոճերը՝ OpenAI-ի DALLE 2-ը կարող է ստեղծել նորարարական, իրատեսական գրաֆիկա և արվեստ հիմնական լեզվական նկարագրությունից:
Վերջին տարբերակը՝ DALLE 2-ը, ասվում է, որ ավելի բազմակողմանի է, որը կարող է նկարներ պատրաստել ենթագրերից ավելի բարձր լուծաչափերով և ստեղծագործական ոճերի ավելի լայն սպեկտրով: Օրինակ՝ ստորև ներկայացված նկարները (DALL-E 2 բլոգի գրառումից) ստեղծվել են «Ձի հեծած տիեզերագնաց» նկարագրությամբ։
Մեկ նկարագրությունը եզրափակում է՝ «ինչպես մատիտի ուրվագիծ», մինչդեռ մյուսը եզրակացնում է՝ «ֆոտոռեալիստական ձևով»։
Այն կարող է նաև փոխել առկա լուսանկարները զարմանալի ճշգրտությամբ: Այսպիսով, դուք կարող եք ավելացնել կամ ջնջել տարրեր՝ պահպանելով գույները, արտացոլումները և ստվերները՝ պահպանելով բնօրինակ պատկերի տեսքը:
Ինչպես է դա աշխատում?
DALL-E 2-ն օգտագործում է CLIP և դիֆուզիոն մոդելներ՝ երկու բարդ խորը ուսուցում վերջին տարիներին մշակված մոտեցումները։ Այնուամենայնիվ, այն հիմնված է նույն հասկացության վրա, ինչ մնացած բոլոր խորքերը նեյրոնային ցանցեր. ներկայացուցչական ուսուցում. CLIP-ը միաժամանակ մարզում է երկուսին նյարդային ցանցեր նկարների և մակագրությունների վրա:
Մի ցանցը սովորում է նկարում պատկերված պատկերները, իսկ մյուսը՝ տեքստային ներկայացումները: Ուսուցման ընթացքում երկու ցանցերը փորձում են փոփոխել իրենց պարամետրերը, որպեսզի համեմատելի նկարներն ու նկարագրությունները հանգեցնեն նմանատիպ ներկառուցումների:
«Դիֆուզիոն»՝ գեներատիվ մոդելի մի տեսակ, որը սովորում է նկարներ անել՝ աստիճանաբար աղմկելով և մաքրելով իր ուսումնական նմուշները, մեքենայական ուսուցման մյուս մոտեցումն է, որն օգտագործվում է DALL-E 2-ում: Դիֆուզիոն մոդելները նման են ինքնակոդավորիչներին, քանի որ նրանք մուտքային տվյալները վերածում են ներկառուցված ներկայացում և այնուհետև օգտագործեք ներկառուցված տեղեկատվությունը սկզբնական տվյալները վերստեղծելու համար:
Օգտագործելով OpenAI-ը լեզվի մոդել CLIP-ը, որը կարող է տեքստային նկարագրությունները կապել լուսանկարների հետ, այն նախ թարգմանում է գրավոր հուշումը միջանկյալ ձևի, որը ներառում է այն կարևոր հատկությունները, որոնք նկարը պետք է ունենա՝ համապատասխանելու այդ հուշմանը (ըստ CLIP-ի):
Երկրորդ, DALL-E 2-ը ստեղծում է CLIP-ին համապատասխան պատկեր՝ օգտագործելով դիֆուզիոն մոդել, որը նեյրոնային ցանց է։
Պատահական պիքսելներով աղավաղված լուսանկարների վրա սովորում են դիֆուզիոն մոդելներ: Նրանք սովորում են, թե ինչպես վերականգնել լուսանկարների սկզբնական ձևը: Դիֆուզիոն մոդելները կարող են արտադրել բարձրորակ սինթետիկ պատկերներ, հատկապես, երբ օգտագործվում են ուղղորդող մոտեցման հետ համատեղ, որն առաջնահերթություն է տալիս ճշգրտությանը, քան բազմազանությանը:
Արդյունքում ՝ դիֆուզիոն մոդել վերցնում է պատահական պիքսելները և օգտագործում CLIP՝ դրանք փոխակերպելու նոր պատկերի, որը համապատասխանում է բառի հուշմանը: Դիֆուզիոն կոնցեպտի շնորհիվ DALL-E 2-ը կարող է ավելի արագ ստանալ ավելի բարձր լուծաչափով պատկերներ, քան DALL-E-ն:
DALL.E 2 օգտագործման պատյան
Վերջին քսան տարիներին, համակարգչային տեսլական տեխնոլոգիան առաջընթաց է ապրել պարզ հասկացությունից մինչև մեծ առաջընթաց: Չնայած այս առաջընթացին, նկարների և օբյեկտների ճանաչման մոդելները առօրյա կյանքում դեռևս բախվում են զգալի խոչընդոտների: Տվյալների հավաքածուների բացակայությունը պատկերների ճանաչման և համակարգչային տեսողության ամենակարևոր թերություններից մեկն է: Քանի որ երկու ծայրերում էլ տվյալների պակաս կա, պատկերների ճանաչման մոդելների ուսուցումը 100 տոկոս ճշգրիտ արդյունքներ տալու համար գրեթե դժվար է:
Բարեբախտաբար, OpenAI-ի մեքենայական ուսուցման նոր մոդելը կարող է կամրջել տեխնոլոգիայի բացը: DALLE 2-ն ունակ է ստեղծել զարմանալի նկարներ՝ հիմնված տեքստային նկարագրությունների վրա: Այս կեղծ նկարների արտադրությունը կարող է տվյալներ տրամադրել պատկերների ճանաչման մոդելներին՝ հիմնվելով նրանց պահանջների վրա: Տվյալների բացակայությունը զգալի խոչընդոտ է օբյեկտների և նկարների նույնականացման համար:
Թվային դարաշրջանում տվյալների հավաքածուները ամենուր են, սակայն մենք դեռ փնտրում ենք դյուրանցումներ՝ արհեստական ինտելեկտի մոդելը սնուցելու համար, որպեսզի այն կարողանա լավ արդյունքներ ապահովել: Այնուամենայնիվ, պատկերների ճանաչման մոդել պատրաստելը հեշտ չէ: Դա պահանջում է մեծ թվով տվյալների հավաքածուներ փոքր տարբերություններով, որոնք մենք, հնարավոր է, չկարողանայինք պարզապես վերբերել:
Այսպիսով, ո՞րն է պատասխանը. պատասխանը DALLE 2-ն է: OpenAI նկարների գեներատորը, տեքստերից պատկերներ արտադրելու և գոյություն ունեցողները փոխելու իր կարողությամբ, կարող է օգնել կամրջել բացը: Սա կնպաստի լրացուցիչ վերապատրաստման տվյալների ստեղծմանը, միաժամանակ նվազեցնելով մարդկանց պիտակավորման պահանջվող քանակը: Չնայած զգալի առավելություններին, դուք պետք է տեղյակ լինեք կեղծ պատկերների արտադրության և պատկերների մասին, որոնք բացառում են ներառումը: Սա կարող է հանգեցնել պատկերների հայտնաբերման մեթոդների, որոնք կողմնակալ արդյունքներ են տալիս:
Սահմանափակումները
DALL.E 2-ը կարող է վնասակար ազդեցություն ունենալ, եթե այն ընկնի սխալ ձեռքերում, ըստ OpenAI-ի: Այսօրվա խորը կեղծիքների աշխարհում մոդելը հեշտությամբ կարող է օգտագործվել կեղծ տեղեկություններ կամ ռասիստական պատկերներ տարածելու համար, այդ իսկ պատճառով OpenAI-ը ծրագրավորողներին թույլ է տալիս օգտագործել DALL.2-ը միայն հրավերով: Մոդելը պետք է համապատասխանի բովանդակության խիստ սահմանափակումներին՝ իր ստացած բոլոր առաջարկների համար:
DALL.E 2-ի կողմից թշնամական կամ բռնի նկարներ ստեղծելու հնարավորությունը բացառելու համար տվյալների բազան ստեղծվել է առանց մահացու զենքի: Թեև OpenAI-ը հայտարարել է, որ ծրագրում է այն ապագայում վերածել API-ի, DALL.E 2-ի դեպքում պատրաստ է զգուշությամբ շարունակել:
Եզրափակում
DALL-E 2-ը մեկ այլ հետաքրքիր OpenAI հետազոտական հայտնագործություն է, որը դուռ է բացում նոր հավելվածների համար:
Օրինակներից մեկը տվյալների զանգվածային հավաքածուների ստեղծումն է՝ համակարգչային տեսլականի հիմնական խոչընդոտներից մեկին համապատասխանելու համար: Թեև DALL-E-ի վրա հիմնված շատ հավելվածների տնտեսական գործը որոշվելու է գնով և քաղաքականությամբ, որը OpenAI-ն սահմանում է իր API-ի օգտատերերի համար, նրանք բոլորն էլ, անկասկած, կխթանեն նկարների արտադրությունը:
Թողնել գրառում