Greičiausiai žinote, kad kompiuteris gali apibūdinti paveikslėlį.
Pavyzdžiui, su jūsų vaikais žaidžiančio šuns nuotrauka gali būti išversta kaip „šuo ir vaikai sode“. Bet ar žinojote, kad dabar įmanoma ir priešingai? Įvedate keletą žodžių, ir aparatas sukuria naują paveikslėlį.
Skirtingai nuo Google paieškos, kuri ieško esamų nuotraukų, visa tai nauja. Pastaraisiais metais OpenAI buvo viena iš pirmaujančių organizacijų, pranešančių apie nuostabius rezultatus.
Jie moko savo algoritmus didžiulėse teksto ir paveikslėlių duomenų bazėse. Jie paskelbė straipsnį apie savo GLIDE vaizdo modelį, kuriame buvo išmokyti šimtai milijonų nuotraukų. Fotorealizmo atžvilgiu jis lenkia ankstesnį „DALL-E“ modelį.
Šiame įraše apžvelgsime OpenAI GLIDE – vieną iš kelių patrauklių iniciatyvų, skirtų sukurti ir keisti fotorealistines nuotraukas su tekstu valdomais sklaidos modeliais. Pradėkime.
Kas yra Atidarykite AI Glide?
Nors daugumą vaizdų galima apibūdinti žodžiais, norint sukurti vaizdus iš teksto įvesties, reikia specialių žinių ir daug laiko.
Leidžiant dirbtinio intelekto agentui sukurti fotorealistines nuotraukas iš natūralios kalbos, žmonės ne tik gali kurti turtingą ir įvairią vaizdinę medžiagą beprecedente lengvai, bet ir paprastesnį kartotinį patobulinimą bei smulkiagrūdė sukurtų vaizdų valdymą.
GLIDE galima naudoti esamoms nuotraukoms redaguoti, naudojant natūralios kalbos tekstinius raginimus įterpti naujus objektus, kurti šešėlius ir atspindžius, atlikti vaizdo tapyba, ir taip toliau.
Jis taip pat gali paversti pagrindinius linijų brėžinius į fotorealistines nuotraukas, be to, jis turi išskirtines nulinio pavyzdžio gamybos ir taisymo galimybes sudėtingose situacijose.
Naujausi tyrimai parodė, kad tikimybe pagrįsti difuzijos modeliai taip pat gali sukurti aukštos kokybės sintetines nuotraukas, ypač kai jie derinami su orientaciniu požiūriu, kuris subalansuoja įvairovę ir ištikimybę.
OpenAI paskelbė a valdomas difuzijos modelis gegužės mėn., o tai leidžia difuzijos modeliams priklausyti nuo klasifikatoriaus etikečių. GLIDE pagerina šią sėkmę, įtraukdama vadovaujamą sklaidą į teksto sąlyginio vaizdo kūrimo problemą.
Išmokę 3.5 milijardo parametrų GLIDE sklaidos modelį, naudodami teksto kodavimo įrenginį, kad atitiktų natūralios kalbos aprašymus, mokslininkai išbandė dvi alternatyvias valdymo strategijas: CLIP nurodymus ir nurodymus be klasifikatoriaus.
CLIP yra keičiamo dydžio technika, skirta mokytis bendrai atvaizduoti tekstą ir paveikslėlius, kurie pateikia balą pagal tai, kiek arti vaizdas yra nuo antraštės.
Komanda naudojo šią strategiją savo difuzijos modeliuose, pakeisdama klasifikatorių CLIP modeliu, kuris „vadovauja“ modeliams. Tuo tarpu orientavimas be klasifikatoriaus yra difuzijos modelių nukreipimo strategija, kuri neapima atskiro klasifikatoriaus mokymo.
GLIDE architektūra
GLIDE architektūrą sudaro trys komponentai: abluotos difuzijos modelis (ADM), išmokytas generuoti 64 × 64 vaizdą, teksto modelis (transformatorius), turintis įtakos vaizdo generavimui per teksto raginimą, ir atrankos modelis, konvertuojantis mūsų mažą 64 × 64 formato vaizdą. vaizdus į interpretuojamus 256 x 256 pikselius.
Pirmieji du komponentai veikia kartu, kad valdytų paveikslėlio kūrimo procesą, kad jis tinkamai atspindėtų teksto raginimą, o pastarasis reikalingas, kad mūsų kuriami vaizdai būtų lengviau suvokiami. GLIDE projektą įkvėpė a ataskaita, paskelbta 2021 m kurie parodė, kad ADM metodai pranoko šiuo metu populiarius, naujausius generuojančius modelius vaizdo pavyzdžių kokybės požiūriu.
ADM GLIDE autoriai naudojo tą patį ImageNet 64 x 64 modelį kaip Dhariwal ir Nichol, bet su 512 kanalų, o ne 64. Dėl to ImageNet modelis turi maždaug 2.3 milijardo parametrų.
GLIDE komanda, skirtingai nei Dhariwal ir Nichol, norėjo turėti didesnę tiesioginę vaizdo kūrimo proceso kontrolę, todėl jie sujungė vizualinį modelį su dėmesio transformatoriumi. GLIDE leidžia šiek tiek valdyti paveikslėlio generavimo proceso išvestį apdorojant teksto įvesties raginimus.
Tai pasiekiama treniruojant transformatoriaus modelį naudojant pakankamai didelį nuotraukų ir antraščių duomenų rinkinį (panašiai kaip ir DALL-E projekte).
Iš pradžių tekstas užkoduojamas į K žetonų seriją, kad būtų galima jį sąlygoti. Po to žetonai įkeliami į transformatoriaus modelį. Tada transformatoriaus išvestis gali būti naudojama dviem būdais. ADM modelyje naudojamas galutinis prieigos rakto įterpimas, o ne klasės įterpimas.
Antra, galutinis žetonų įterpimo sluoksnis – funkcijų vektorių serija – projektuojamas nepriklausomai nuo kiekvieno dėmesio sluoksnio matmenų ADM modelyje ir susietas su kiekvienu dėmesio kontekstu.
Iš tikrųjų tai leidžia ADM modeliui sukurti paveikslėlį iš naujų panašių teksto žetonų kombinacijų unikaliu ir fotorealistiniu būdu, remiantis išmoktu įvesties žodžių ir su jais susijusių vaizdų supratimu. Šiame teksto kodavimo transformatoriuje yra 1.2 milijardo parametrų ir jame yra 24 likę blokai, kurių plotis yra 2048.
Galiausiai, padidinto mėginio difuzijos modelis apima apie 1.5 milijardo parametrų ir skiriasi nuo pagrindinio modelio tuo, kad jo teksto koduotuvas yra mažesnis, jo plotis yra 1024 ir 384 baziniai kanalai, palyginti su baziniu modeliu. Šis modelis, kaip rodo pavadinimas, padeda atnaujinti pavyzdį, kad būtų geriau interpretuojama tiek mašinoms, tiek žmonėms.
Difuzijos modelis
GLIDE generuoja vaizdus naudodama savo ADM versiją (ADM-G reiškia „vadovaujama“). ADM-G modelis yra difuzinio U tinklo modelio modifikacija. Difuzinis U tinklo modelis labai skiriasi nuo įprastų vaizdo sintezės metodų, tokių kaip VAE, GAN ir transformatoriai.
Jie sukuria Markovo difuzijos žingsnių grandinę, kad palaipsniui įneštų atsitiktinį triukšmą į duomenis, o tada išmoksta pakeisti difuzijos procesą ir atkurti reikiamus duomenų pavyzdžius vien iš triukšmo. Jis veikia dviem etapais: į priekį ir atgal.
Pirminės difuzijos metodas, atsižvelgiant į duomenų tašką iš tikrojo mėginio pasiskirstymo, prideda nedidelį kiekį triukšmo mėginiui per iš anksto nustatytą žingsnių seriją. Didėjant žingsniams ir artėjant prie begalybės, mėginys praranda visas atpažįstamas charakteristikas ir seka pradeda panašėti į izotropinę Gauso kreivę.
Atgalinės difuzijos metu fazė, difuzijos modelis mokosi pakeisti papildomo triukšmo įtaką nuotraukoms ir grąžinti sukurtą vaizdą į pradinę formą, bandydamas panašėti į pradinį įvesties mėginio pasiskirstymą.
Užbaigtas modelis galėtų tai padaryti naudojant tikrą Gauso triukšmo įvestį ir raginimą. ADM-G metodas skiriasi nuo ankstesnio, nes modelis, arba CLIP, arba pritaikytas transformatorius, veikia atgalinės sklaidos fazę, naudodamas įvestus teksto raginimo žetonus.
Sklandymo galimybės
1. Vaizdo generavimas
Populiariausias ir plačiausiai naudojamas GLIDE panaudojimas tikriausiai bus vaizdo sintezė. Nors nuotraukos yra kuklios, o GLIDE susiduria su sunkumais su gyvūnų / žmonių formomis, vieno kadro vaizdų kūrimo galimybės yra beveik neribotos.
Jis gali kurti gyvūnų, įžymybių, peizažų, pastatų ir daug daugiau nuotraukų, taip pat tai gali padaryti įvairių meno stilių ir fotorealistiškai. Tyrėjų autoriai tvirtina, kad GLIDE gali interpretuoti ir pritaikyti įvairias tekstines įvestis į vaizdinį formatą, kaip matyti toliau pateiktuose pavyzdžiuose.
2. Slydimo tapyba
GLIDE automatinis nuotraukų dažymas, be abejo, yra pats patraukliausias naudojimas. GLIDE gali nufotografuoti esamą nuotrauką kaip įvestį, apdoroti ją atsižvelgdama į teksto raginimą vietoms, kurias reikia keisti, ir tada lengvai atlikti aktyvius tų dalių pakeitimus.
Norint gauti dar geresnių rezultatų, jis turi būti naudojamas kartu su redagavimo modeliu, pvz., SDEdit. Ateityje programos, kurios naudojasi tokiomis galimybėmis, kaip šios, gali būti labai svarbios kuriant vaizdo keitimo be kodo metodus.
Išvada
Dabar, kai atlikome šį procesą, turėtumėte suvokti GLIDE veikimo pagrindus, taip pat jo galimybes kuriant paveikslėlius ir keičiant vaizde.
Palikti atsakymą