Vi plej verŝajne konscias, ke komputilo povas priskribi bildon.
Ekzemple, bildo de hundo ludanta kun viaj infanoj povas esti tradukita kiel "hundo kaj infanoj en la ĝardeno". Sed ĉu vi sciis, ke la kontraŭa vojo estas nun farebla ankaŭ? Vi tajpas kelkajn vortojn, kaj la maŝino generas novan bildon.
Male al Guglo-serĉo, kiu serĉas ekzistantajn fotojn, ĉi tio estas tute freŝa. En la lastaj jaroj, OpenAI estis unu el la ĉefaj organizoj, raportante mirindajn rezultojn.
Ili trejnas siajn algoritmojn pri amasaj tekstaj kaj bildaj datumbazoj. Ili publikigis artikolon pri sia GLIDE-bildmodelo, kiu estis trejnita sur centoj da milionoj da fotoj. Laŭ fotorealismo, ĝi superas ilian antaŭan "DALL-E" modelon.
En ĉi tiu afiŝo, ni rigardos GLIDE de OpenAI, unu el pluraj fascinaj iniciatoj celantaj produkti kaj ŝanĝi fotorealismajn bildojn kun tekst-gviditaj disvastigmodeloj. Ni komencu.
Kio estas Malfermu AI Glide?
Dum la plej multaj bildoj povas esti priskribitaj per vortoj, krei bildojn de tekstaj enigaĵoj postulas specialan scion kaj signifan tempon.
Permesi al AI-agento produkti fotorealismajn bildojn el naturlingvaj instigoj ne nur permesas al homoj krei riĉan kaj diversan vidan materialon kun senprecedenca facileco, sed ankaŭ permesas pli simplan ripetan rafinadon kaj fajnan kontrolon de la kreitaj bildoj.
GLIDE povas esti uzata por redakti ekzistantajn fotojn uzante naturlingvajn tekstajn invitojn por enmeti novajn objektojn, krei ombrojn kaj reflektojn, plenumi bildo enpentrado, kaj tiel plu.
Ĝi ankaŭ povas transformi bazajn liniajn desegnaĵojn en fotorealismajn fotojn, kaj ĝi havas esceptajn nul-specimajn fabrikajn kaj riparkapablojn por kompleksaj situacioj.
Lastatempa esplorado pruvis ke verŝajnec-bazitaj difuzmodeloj ankaŭ povas produkti altkvalitajn sintezajn bildojn, precipe kiam kombinite kun gvida aliro kiu balancas diversecon kaj fidelecon.
OpenAI publikigis a gvidita difuza modelo en majo, kio permesas al disvastigmodeloj esti kondiĉigitaj de la etikedoj de klasigilo. GLIDE plibonigas ĉi tiun sukceson alportante gviditan disvastigon al la problemo de tekst-kondiĉa bildkreado.
Post trejnado de 3.5 miliardoj da parametro GLIDE-disvastigo-modelo uzante tekstokodilon por kondiĉigi pri naturlingvaj priskriboj, la esploristoj testis du alternativajn gvidajn strategiojn: CLIP-gvido kaj klasigilo-libera gvidado.
CLIP estas skalebla tekniko por lerni komunajn reprezentadojn de teksto kaj bildoj, kiu liveras poentaron bazitan sur kiom proksime bildo estas al bildoteksto.
La teamo uzis tiun strategion en siaj disvastigmodeloj anstataŭigante la klasigilon kun CLIP-modelo kiu "gvidas" la modelojn. Dume, klasigilo-libera gvidado estas strategio por direkti disvastigmodelojn kiuj ne implikas la trejnadon de aparta klasigilo.
GLIDE Arkitekturo
La GLIDE-arkitekturo konsistas el tri komponentoj: Ablated Diffusion Model (ADM) trejnita por generi 64 × 64 bildon, tekstmodelo (transformilo) kiu influas bildgeneradon per teksta prompto, kaj supraspecimpla modelo kiu transformas nian malgrandan 64 × 64. bildoj al pli interpreteblaj 256 x 256 pikseloj.
La unuaj du komponantoj funkcias kune por kontroli la procezon de generado de bildoj tiel ke ĝi taŭge reflektu la tekston, dum ĉi-lasta estas postulata por faciligi la komprenon de la bildoj, kiujn ni kreas. La projekto GLIDE estis inspirita de a raporto publikigita en 2021 tio montris ke ADM-teknikoj superis nuntempe popularajn, pintnivelajn generajn modelojn laŭ bilda provaĵokvalito.
Por la ADM, la GLIDE-aŭtoroj utiligis la saman ImageNet 64 x 64 modelon kiel Dhariwal kaj Nichol, sed kun 512 kanaloj anstataŭe de 64. La ImageNet-modelo havas ĉirkaŭ 2.3 miliardojn da parametroj kiel rezulto de tio.
La GLIDE-teamo, male al Dhariwal kaj Nichol, volis havi pli grandan rektan kontrolon de la bildo-genera procezo, tiel ili kombinis la vidan modelon kun atento-ebligita transformilo. GLIDE donas al vi ioman kontrolon pri la bilda produktanta proceza eligo per prilaborado de la tekstaj enigprogramoj.
Tio estas plenumita trejnante la transformilmodelon sur taŭge granda datumaro de fotoj kaj bildotekstoj (similaj al tio utiligita en la DALL-E-projekto).
La teksto estas komence ĉifrita en serion de K-ĵetonoj por kondiĉigi ĝin. Post tio, la ĵetonoj estas ŝarĝitaj en transformilmodelon. La produktado de la transformilo tiam povas esti uzata laŭ du manieroj. Por la ADM-modelo, la fina ĵetono-enkonstruado estas utiligita anstataŭe de la klas-enigo.
Due, la fina tavolo de la ĵetonaj enkonstruadoj - serio de trajtovektoroj - estas projekciita sendepende al la dimensioj por ĉiu atenttavolo en la ADM-modelo kaj kunligita al ĉiu atentkunteksto.
En realeco, ĉi tio ebligas al la ADM-modelo produkti bildon el novaj kombinaĵoj de similaj tekstaj signoj en unika kaj fotorealisma modo, surbaze de sia lernita kompreno de la enigvortoj kaj iliaj rilataj bildoj. Ĉi tiu tekstkodiga transformilo enhavas 1.2 miliardojn da parametroj kaj uzas 24 postlasitajn blokojn kun larĝo de 2048.
Finfine, la upsampler-disvastigomodelo inkludas proksimume 1.5 miliardojn da parametroj kaj varias de la baza modelo en tio ke ĝia tekstokodilo estas pli malgranda, kun larĝo de 1024 kaj 384 bazkanaloj, komparite kun la bazmodelo. Ĉi tiu modelo, kiel la nomo indikas, helpas en la ĝisdatigo de la specimeno por plibonigi interpreteblecon por kaj maŝinoj kaj homoj.
Disvastigo modelo
GLIDE generas bildojn uzante sian propran version de la ADM (ADM-G por "gvidita"). La ADM-G-modelo estas modifo de la difuza U-reta modelo. Disvastigo U-reta modelo devias dramece de la pli oftaj bildsintezteknikoj kiel ekzemple VAE, GAN, kaj transformiloj.
Ili konstruas Markov-ĉenon de difuzpaŝoj por iom post iom injekti hazardan bruon en la datenojn, kaj tiam lerni inversigi la disvastigprocezon kaj rekonstrui la postulatajn datenspecimenojn de la bruo sole. Ĝi funkcias en du stadioj: antaŭen kaj inversa disvastigo.
La antaŭa difuzmetodo, donita datenpunkton de la vera distribuo de la provaĵo, aldonas etan kvanton de bruo al la provaĵo super antaŭfiksita serio de ŝtupoj. Ĉar la ŝtupoj pliiĝas en grandeco kaj alproksimiĝas al senfineco, la provaĵo perdas ĉiujn rekoneblajn karakterizaĵojn kaj la sekvenco komencas simili izotropan Gaŭsan kurbon.
Dum la malantaŭa disvastigo fazo, la disvastigmodelo lernas inversigi la influon de la aldonita bruo sur la bildoj kaj konduki la produktitan bildon reen al ĝia origina formo per provado simili la originan enigaĵspecimentdistribuon.
Finita modelo povus fari tion kun reala gaŭsa brua enigo kaj prompto. La ADM-G-metodo varias de la antaŭa en tio, ke modelo, ĉu CLIP aŭ adaptita transformilo, efikas la malantaŭan difuzfazon uzante la tekstajn promptajn ĵetonojn, kiuj estas enigitaj.
Glitkapabloj
1. Generacio de Bildo
La plej populara kaj vaste uzata uzo de GLIDE verŝajne estos bilda sintezo. Kvankam la bildoj estas modestaj kaj GLIDE havas malfacilecon kun bestaj/homaj formoj, la potencialo por unu-pafa bildproduktado estas preskaŭ senfina.
Ĝi povas krei fotojn de bestoj, famuloj, pejzaĝoj, konstruaĵoj kaj multe pli, kaj ĝi povas fari ĝin en diversaj artaj stiloj kaj ankaŭ foto-realisme. La aŭtoroj de la esploristoj asertas, ke GLIDE kapablas interpreti kaj adapti ampleksan varion de tekstaj enigaĵoj en vidan formaton, kiel oni vidas en la malsupraj specimenoj.
2. Gliti enpentrado
La aŭtomata fota enpentrado de GLIDE estas verŝajne la plej fascina uzo. GLIDE povas preni ekzistantan bildon kiel enigaĵon, prilabori ĝin kun la teksta prompto en menso por lokoj kiuj devas esti ŝanĝitaj, kaj tiam fari aktivajn modifojn al tiuj partoj facile.
Ĝi devas esti uzata kune kun redakta modelo, kiel SDEdit, por produkti eĉ pli bonajn rezultojn. En la estonteco, apoj kiuj utiligas kapablojn kiel ĉi tiuj eble estos decidaj por disvolvi kod-liberajn bild-ŝanĝajn alirojn.
konkludo
Nun, kiam ni trapasis la procezon, vi devus ekkompreni la bazojn pri kiel funkcias GLIDE, kaj ankaŭ la amplekson de ĝiaj kapabloj pri kreado de bildoj kaj modifo en bildo.
Lasi Respondon