Edukien aurkibidea[Ezkutatu][Erakutsi]
Seguruenik badakizu ordenagailu batek irudi bat deskriba dezakeela.
Adibidez, zure seme-alabekin jolasten ari den txakur baten argazkia "txakurra eta haurrak lorategian" gisa itzul daiteke. Baina ba al zenekien alderantzizko bidea orain bideragarria dela? Hitz batzuk idazten dituzu eta makinak argazki berri bat sortzen du.
Google bilaketak ez bezala, lehendik dauden argazkiak bilatzen dituena, hau guztia freskoa da. Azken urteotan, OpenAI erakunde nagusietako bat izan da, emaitza harrigarrien berri emanez.
Beren algoritmoak testu eta irudi datu-base masiboetan entrenatzen dituzte. GLIDE irudi ereduari buruzko artikulu bat argitaratu zuten, ehunka milioi argazkitan trebatu zena. Fotorrealismoari dagokionez, aurreko 'DALL-E' eredua gainditzen du.
Argitalpen honetan, OpenAIren GLIDE ikusiko dugu, testu bidezko difusio-ereduekin irudi fotoerrealistak ekoitzi eta aldatzera zuzendutako hainbat ekimen liluragarrietako bat. Has gaitezen.
Zer da Ireki AI Glide?
Irudi gehienak hitzez deskriba daitezkeen arren, testu-sarreratik irudiak sortzeak ezagutza espezializatua eta denbora kopuru handia behar ditu.
AI agente bati argazki fotorealistak ekoizteko aukera ematen dio hizkuntza naturaleko gomendioetatik, jendeak ikusmen-material aberatsa eta anitza sortzea ahalbidetzen du, aurrekaririk gabeko erraztasunarekin, baizik eta sortutako irudien fintasun iteratibo sinpleagoa eta kontrol zehatza ere ahalbidetzen du.
GLIDE lehendik dauden argazkiak editatzeko erabil daiteke hizkuntza naturaleko testu-abisuak erabiliz objektu berriak txertatzeko, itzalak eta islak sortzeko, egiteko. irudia margotzea, Eta abar.
Oinarrizko lerro-marrazkiak argazki fotorealista bihur ditzake, eta egoera konplexuetarako zero laginak fabrikatzeko eta konpontzeko gaitasun apartak ditu.
Azken ikerketek frogatu dute probabilitatean oinarritutako difusio-ereduek kalitate handiko irudi sintetikoak ere sor ditzaketela, batez ere barietatea eta fideltasuna orekatzen dituen ikuspegi gidari batekin konbinatuta.
OpenAI-k a difusio gidatuaren eredua maiatzean, difusio-ereduak sailkatzaile baten etiketetan baldintzatuta egotea ahalbidetzen duena. GLIDEk arrakasta hau hobetzen du, testu-baldintzatutako irudiak sortzeko arazoari hedapen gidatua ekarriz.
3.5 mila milioi parametroko GLIDE difusio-eredu bat testu-kodetzaile bat erabiliz hizkuntza naturaleko deskribapenak baldintzatzeko entrenatu ondoren, ikertzaileek bi gida-estrategia alternatibo probatu zituzten: CLIP orientazioa eta sailkatzailerik gabeko orientazioa.
CLIP testu eta irudien errepresentazio bateratuak ikasteko teknika eskalagarria da, irudi bat epigrafe batetik zenbat hurbil dagoen kontuan hartuta puntuazioa ematen duena.
Taldeak estrategia hori erabili zuen bere difusio-ereduetan, klasifikatzailea ereduak "gidatzen" dituen CLIP eredu batekin ordezkatuz. Bien bitartean, sailkatzailerik gabeko orientazioa bereizitako sailkatzaile baten trebakuntzarik ez duten difusio-ereduak zuzentzeko estrategia bat da.
GLIDE Arkitektura
GLIDE arkitekturak hiru osagai ditu: Ablated Diffusion Model (ADM) bat 64 × 64 irudi bat sortzeko trebatua, testu-eredu bat (transformadorea) irudiak sortzean eragiten duena testu gonbita bidez, eta laginketa-eredu bat gure 64 × 64 txikia bihurtzen duena. irudiak 256 x 256 pixel gehiago interpretatzeko.
Lehenengo bi osagaiek elkarrekin funtzionatzen dute irudiak sortzeko prozesua kontrolatzeko, testuaren gonbita behar bezala isla dezan, eta bigarrenak, berriz, sortzen ditugun irudiak errazago uler ditzan. GLIDE proiektuan inspiratu zen 2021an argitaratutako txostena horrek erakutsi zuen ADM teknikak gaur egungo eredu sortzaile ezagun eta puntako ereduak gainditu zituela irudi laginaren kalitateari dagokionez.
ADMrentzat, GLIDE egileek Dhariwal eta Nichol-en ImageNet 64 x 64 eredu bera erabili zuten, baina 512 kanalekin 64 beharrean. ImageNet ereduak 2.3 mila milioi parametro ditu gutxi gorabehera honen ondorioz.
GLIDE taldeak, Dhariwal eta Nicholek ez bezala, irudiak sortzeko prozesuaren gaineko kontrol zuzen handiagoa izan nahi zuen, eta, beraz, ikusizko eredua arretarako gaitutako transformadore batekin konbinatu zuten. GLIDE-k irudiak sortzeko prozesuaren irteeraren gaineko kontrol bat ematen dizu testua sartzeko galdeketak prozesatzen badituzu.
Transformadorearen eredua argazki eta epigrafeen datu multzo egoki handi batean trebatuz lortzen da (DALL-E proiektuan erabilitakoaren antzekoa).
Testua hasiera batean K token multzo batean kodetzen da, baldintzatzeko. Horren ondoren, tokenak transformadore eredu batean kargatzen dira. Transformadorearen irteera bi modutara erabil daiteke. ADM eredurako, azken token txertaketa erabiltzen da klase txertatzearen ordez.
Bigarrenik, token txertatzeen azken geruza - ezaugarri-bektore sorta bat - ADM ereduko arreta-geruza bakoitzaren dimentsioetara independentean proiektatzen da eta arreta-testuinguru bakoitzean kateatzen da.
Egia esan, horri esker, ADM ereduak antzeko testu-token konbinazio berrietatik irudi bat ekoizteko aukera ematen du, modu bakarrean eta fotorealista batean, sarrerako hitzak eta haiei lotutako irudiak ikasitako ulermenean oinarrituta. Testu-kodeketa-transformadore honek 1.2 mila milioi parametro ditu eta 24ko zabalera duten 2048 bloke soberan erabiltzen ditu.
Azkenik, gorako laginketa-difusio-ereduak 1.5 mila milioi parametro inguru biltzen ditu eta oinarrizko ereduaren arabera aldatzen da, bere testu-kodetzailea txikiagoa baita, 1024 eta 384 oinarrizko kanaleko zabalera duena, oinarrizko ereduarekin alderatuta. Eredu honek, izenak adierazten duen bezala, lagina berritzen laguntzen du, bai makinentzat bai gizakientzat interpretagarritasuna hobetzeko.
Difusio eredua
GLIDEk irudiak sortzen ditu ADMren bere bertsioa erabiliz (ADM-G "gidatua"). ADM-G eredua difusio U-net ereduaren aldaketa da. Difusio-U-net eredua oso desberdina da irudien sintesi-teknik arruntenetatik, hala nola VAE, GAN eta transformadoreak.
Difusio-urratsen Markov kate bat eraikitzen dute datuetan ausazko zarata pixkanaka injektatzeko, eta gero difusio-prozesua alderantzikatzen ikasten dute eta zaratatik bakarrik behar diren datu-laginak berreraikitzen ikasten dute. Bi fasetan funtzionatzen du: aurrera eta alderantzizko difusioa.
Aurrerako difusio-metodoak, laginaren benetako banaketaren datu-puntu bat emanda, zarata txiki bat gehitzen dio laginari aurrez ezarritako urratsen serie batean. Urratsak tamaina handitu eta infinitura hurbildu ahala, laginak ezagut daitezkeen ezaugarri guztiak galtzen ditu eta sekuentzia Gaussiar kurba isotropo baten antza hartzen hasten da.
Atzerako difusioan fasea, difusio eredua Gehitutako zaratak irudietan duen eragina alderantzikatzen eta sortutako irudia jatorrizko formara itzultzen ikasten du, jatorrizko sarrerako laginaren banaketaren antza hartzen saiatuz.
Osatutako eredu batek gaussaren benetako zarata sarrerarekin eta gonbita batekin egin lezake. ADM-G metodoa aurrekoaren arabera aldatzen da, izan ere, eredu batek, CLIP edo pertsonalizatutako transformadore batek, atzerako difusio-fasean eragiten du, sartzen diren testu gonbita-tokenak erabiliz.
Irristatzeko gaitasunak
1. Irudia sortzea
GLIDEren erabilerarik ezagunena eta erabiliena irudien sintesia izango da ziurrenik. Irudiak xumeak badira eta GLIDEk animalia/giza formarekin zailtasunak baditu ere, argazki bakarreko irudiak ekoizteko ahalmena ia amaigabea da.
Animalien, ospetsuen, paisaien, eraikinen eta askoz gehiagoren argazkiak sor ditzake, eta hainbat arte estilotan egin dezake, baita argazki-errealistaz ere. Ikertzaileen egileek diote GLIDE gai dela testu-sarrera ugari interpretatzeko eta formatu bisual batean egokitzeko, beheko laginetan ikusten den bezala.
2. Glide inpainting
GLIDE-ren argazki margoketa automatikoa da, dudarik gabe, erabilera liluragarriena. GLIDE-k lehendik dagoen argazki bat hartu dezake sarrera gisa, prozesatu egin dezake aldatu behar diren kokapenetarako testu-abisua kontuan hartuta eta, ondoren, zati horietan aldaketa aktiboak erraz egin ditzake.
Edizio eredu batekin batera erabili behar da, SDEdit adibidez, emaitza are hobeak lortzeko. Etorkizunean, horrelako gaitasunak aprobetxatzen dituzten aplikazioak funtsezkoak izan daitezke koderik gabeko irudiak aldatzeko planteamenduak garatzeko.
Ondorioa
Prozesua egin dugula, GLIDEren funtzionamenduaren oinarriak ezagutu behar dituzu, baita irudiak sortzeko eta irudietan aldatzeko dituen gaitasunen zabalera ere.
Utzi erantzun bat