Բառը[Թաքցնել][Ցուցադրում]
Տեքստից պատկերի մեծ մոդելները զգալի առաջընթաց են գրանցել արհեստական ինտելեկտի զարգացման մեջ՝ արտադրելով բարձրորակ և բազմազան նկարների սինթեզ տվյալ տեքստային հուշումներից:
Այս մոդելները չեն կարողանում սինթեզել առարկաների եզակի ներկայացումները տարբեր միջավայրերում կամ կրկնօրինակել առարկաների տեսքը տվյալ տեղեկատու հավաքածուում:
Նոր թողարկված տեխնոլոգիաներ, ինչպիսիք են OpenAI-ի DALL.E2-ը կամ StabilityAI-ը Կայուն դիֆուզիոն և Midjourney-ն արդեն փոթորիկ են խլում համացանցը: Այժմ ժամանակն է հարմարեցնել արդյունքները: Այնուամենայնիվ, ինչպե՞ս:
Google DreamBooth AI-ն եկել է:
DreamBooth-ն ունի նկարի թեման ճանաչելու, այն իր սկզբնական համատեքստից ապակառուցելու, այնուհետև այն ճշգրիտ սինթեզելու հնարավորություն նոր ցանկալի համատեքստում: Բացի այդ, այն կարող է օգտագործվել ընթացիկ AI նկարների գեներատորների հետ:
Այս հոդվածում մենք խորապես կանդրադառնանք DreamBooth-ին, դրա օգտագործմանը, ձեռնարկին, սահմանափակումներին և շատ ավելին:
Ի՞նչ է Dreambooth-ը:
երազանքի տաղավարGoogle-ը ներկայացրել է տեքստից պատկերի տարածման բոլորովին նոր մոդելը։ Գրավոր հուշումը կարող է օգտագործվել որպես ուղեցույց Google DreamBooth AI-ի կողմից՝ օգտատիրոջ ընտրած թեմայի լուսանկարների լայն շրջանակ ստեղծելու տարբեր կարգավորումներում:
Բոստոնի համալսարանի և Google-ի հետազոտական խումբը մշակել է DreamBooth-ը՝ տեքստից պատկեր մոդելները փոխելու առաջադեմ տեխնիկա, որոնք անցել են լայնածավալ նախնական վերապատրաստում:
Ընդհանուր հայեցակարգը բավականին պարզ է. նրանք ցանկանում են ավելացնել լեզվի տեսլականի բառարանն այնպես, որ անսովոր նշանային ID-ները կապված լինեն հատուկ թեմաների հետ, որոնք օգտվողները կարող են սահմանել:
Մոդելի հիմնական նպատակը օգտվողներին միացնելն է տեքստ-պատկեր դիֆուզիոն մոդել տալով նրանց անհրաժեշտ ռեսուրսները՝ իրենց ընտրած առարկայի օրինակների ֆոտոռեալիստական պատկերացումներ ստեղծելու համար:
Որպես հետևանք, այս տեխնիկան կարծես թե լավ է աշխատում մի շարք իրավիճակներում մարտահրավերներն ամփոփելու համար:
Google-ի DreamBooth-ը տարբերվում է տեքստից պատկերի նախկին գործիքներից, ինչպիսիք են DALL-E2, Կայուն դիֆուզիոն, եւ Միջին ճանապարհորդություն, քանի որ այն օգտվողներին տալիս է ավելի շատ վերահսկողություն թեմայի պատկերի վրա՝ նախքան թույլ տալով նրանց շահարկել դիֆուզիոն մոդելը՝ օգտագործելով տեքստի վրա հիմնված մուտքերը:
Հատկություններ
- DreamBooth AI-ն կարող է բարելավել տեքստից պատկեր մոդելը 3-5 պատկերով:
- Օրիգինալ ֆոտոռեալիստական լուսանկարներ կարելի է ստեղծել DreamBooth AI-ի միջոցով:
- Բացի այդ, DreamBooth AI-ն կարող է ստեղծել թեմայի լուսանկարներ բազմաթիվ տեսանկյուններից:
դիմում
Արվեստի վերափոխումներ
Այս առաջադրանքը հատկապես տարբերվում է ոճի փոխանցումից, որը պահպանում է սկզբնաղբյուրի տեսարանի իմաստաբանությունը՝ միաժամանակ մեկ այլ պատկերի ոճը ներառելով սկզբնական տեսարանի մեջ:
Ստեղծագործական մոտեցման հիման վրա AI-ն կարող է կատարել տեսարանի զգալի փոփոխություններ՝ պահպանելով նույնականացման և թեմայի օրինակի առանձնահատկությունները:
Գույքի փոփոխություն
Առարկայական օրինակի բնութագրերը կարող են փոփոխվել DreamBooth AI-ի միջոցով:
Աքսեսուարացում
Նախքան սերնդի մոդելի ուժեղ կոմպոզիցիան այն է, որ DreamBooth AI-ի կարողությունն այնքան հետաքրքիր է դարձնում օբյեկտները զարդարելու:
Recontextualization
DreamBooth AI-ն կարող է առանձնահատուկ պատկերներ ստեղծել որոշակի առարկայի օրինակի համար՝ պատրաստված մոդելին տալով նախադասություն, որը ներառում է եզակի նույնացուցիչը և դասի գոյականը:
Այն կարող է առարկան ստեղծել եզակի, նախկինում չլսված կեցվածքով, հոդակապով և տեսարանի կառուցվածքով, այլ ոչ թե փոխել շրջապատը: Իրատեսական արտացոլումներ և ստվերներ, ինչպես նաև առարկայի և շրջակա օբյեկտների միջև փոխազդեցություն:
Dreambooth ձեռնարկ
Այս ձեռնարկում մենք հետևելու ենք Google Collab նոթատետր, և ես ձեզ կուղեկցեմ դրա միջով, ինչը ձեզ կստիպի հասկանալ և օգտագործել այն ինքնուրույն:
GPU-ի կարգավորում և գրադարանների տեղադրում
Պարզելով, թե ինչ տեսակներ կան GPU և VRAM, դա առաջին քայլն է: Անհրաժեշտ է նաև մի քանի պահանջների և կախվածությունների տեղադրում: Պարզապես սեղմեք նվագարկման կոճակը, ապա սպասեք, որ այն ավարտվի:
Ստեղծեք հաշիվ Huggingface-ում և ստեղծեք նշան
Հաջորդ քայլը Huggingface հաշվի համար գրանցվելն է: Ավարտելուց հետո սեղմեք կարգավորումները վերևի աջ անկյունում: Դուք կհասնեք հաջորդ էջում։
Ստեղծեք նշանը և անունը, ինչպես պահանջվում է այստեղից: Նշանը պետք է պատճենվի և տեղադրվի ստորև բջիջի Google համագործակցության մեջ:
Տեղադրեք xformers
Այս փուլում դուք կարող եք պարզապես սեղմել «play» կոճակը՝ xformers-ը տեղադրելու համար՝ սեղմելով գործարկման ժամանակի վրա:
Միացեք Drive-ին
Այժմ դուք պարզապես պետք է գործարկեք այս բջիջը՝ google drive-ին միանալու համար:
Մուտքագրեք հուշումը
Հետևյալ բջիջում պարզապես պետք է մուտքագրեք հուշումը:
Նկարների վերբեռնում
Այս քայլում դուք պարզապես պետք է վերբեռնեք այն նկարները, որոնք ցանկանում էիք մարզել:
Գնացքի AI մոդել
Սա ամենակարևոր փուլն է, քանի որ դուք կօգտագործեք DreamBooth-ը՝ ձեր բոլոր ներկայացված տեղեկատու լուսանկարների հիման վրա AI նոր մոդել պատրաստելու համար: Դուք պետք է սահմանափակեք ձեր ուշադրությունը երկու մուտքագրման դաշտերով: «—instance prompt»-ը առաջին պարամետրն է: Այստեղ դուք պետք է նշեք խիստ հստակ անուն:
«–հայեցակարգերի ցուցակ» արգումենտը երկրորդ կարևոր մուտքային դաշտն է: Այն պետք է վերանվանվի, որպեսզի համապատասխանի «Փոխել հուշումը» բաժնում օգտագործվածին:
Ստեղծեք AI պատկերներ
AI նկարները կստեղծվեն այս փուլում, որտեղ կարող եք մուտքագրել տեքստային հրահանգները:
Dreambooth սահմանափակումներ
- Հրամանի տողը խոչընդոտ է դառնում թեմայի մեջ բարձր մանրամասնությամբ կրկնություններ կատարելու համար: DreamBooth-ը կարող է փոխել թեմայի համատեքստը, բայց եթե մոդելը ցանկանում է փոխել թեման, ապա շրջանակի հետ կապված խնդիրներ կան:
- Մեկ այլ խնդիր է ելքային նկարը մուտքային պատկերին չափից ավելի հարմարեցնելը: Եթե բավարար քանակությամբ նկարներ չկան, թեման կարող է չդիտարկվել կամ խառնվել ներկայացված պատկերների համատեքստին: Երբ հարցնում են կենտ սերնդի համատեքստ, նույնը տեղի է ունենում:
Եզրափակում
Մեկ տեքստի մուտքագրումից արդյունքներ արտադրելու համար տեքստից պատկեր մոդելների մեծ մասը պահանջում է միլիոնավոր պարամետրեր և գրադարաններ:
DreamBooth-ը հեշտացնում է բովանդակության ձեռքբերումն ու օգտագործումը սպառողների համար՝ պահանջելով ընդամենը երեքից հինգ թեմատիկ լուսանկարների մուտքագրում տեքստային ֆոնի հետ միասին:
Թողնել գրառում