INHOUDSOPGAWE[Versteek][Wys]
Jy is heel waarskynlik bewus daarvan dat 'n rekenaar 'n prentjie kan beskryf.
Byvoorbeeld, 'n prent van 'n hond wat met jou kinders speel, kan vertaal word as 'hond en kinders in die tuin.' Maar het jy geweet die omgekeerde is nou ook haalbaar? Jy tik 'n paar woorde, en die masjien genereer 'n nuwe prentjie.
Anders as 'n Google-soektog, wat bestaande foto's deursoek, is dit alles vars. In onlangse jare was OpenAI een van die toonaangewende organisasies en het verstommende resultate gerapporteer.
Hulle oefen hul algoritmes op massiewe teks- en prentdatabasisse. Hulle het 'n referaat gepubliseer oor hul GLIDE-beeldmodel, wat op honderde miljoene foto's opgelei is. Wat fotorealisme betref, presteer dit beter as hul vorige 'DALL-E'-model.
In hierdie pos sal ons kyk na OpenAI se GLIDE, een van verskeie fassinerende inisiatiewe wat daarop gemik is om fotorealistiese prente met teksgeleide diffusiemodelle te vervaardig en te verander. Laat ons begin.
Wat is Maak AI Glide oop?
Terwyl die meeste beelde in woorde beskryf kan word, vereis die skep van beelde uit teksinsette gespesialiseerde kennis en 'n aansienlike hoeveelheid tyd.
Deur 'n KI-agent toe te laat om fotorealistiese prente uit natuurlike taalaansporings te produseer, laat mense nie net ryk en diverse visuele materiaal met ongekende gemak skep nie, maar maak dit ook moontlik vir eenvoudiger iteratiewe verfyning en fyn beheer van die beelde wat geskep word.
GLIDE kan gebruik word om bestaande foto's te redigeer deur natuurlike taal teksaanwysings te gebruik om nuwe voorwerpe in te voeg, skaduwees en refleksies te skep, uit te voer beeldverf, En so aan.
Dit kan ook basiese lyntekeninge in fotorealistiese foto's verander, en dit het buitengewone nul-monster vervaardigings- en herstelvermoëns vir komplekse situasies.
Onlangse navorsing het getoon dat waarskynlikheidsgebaseerde diffusiemodelle ook sintetiese prente van hoë gehalte kan produseer, veral wanneer dit gekombineer word met 'n leidende benadering wat verskeidenheid en getrouheid balanseer.
OpenAI het 'n gepubliseer geleide diffusiemodel in Mei, wat toelaat dat diffusiemodelle op die etikette van 'n klassifiseerder voorwaardelik is. GLIDE verbeter hierdie sukses deur geleide verspreiding na die probleem van teksvoorwaardelike beeldskepping te bring.
Na die opleiding van 'n 3.5 miljard parameter GLIDE diffusie model met behulp van 'n teks enkodeerder om op natuurlike taal beskrywings te kondisioneer, het die navorsers twee alternatiewe leidingstrategieë getoets: CLIP leiding en klassifiseerder-vrye leiding.
CLIP is 'n skaalbare tegniek om gesamentlike voorstellings van teks en prente te leer wat 'n telling lewer gebaseer op hoe naby 'n prent aan 'n onderskrif is.
Die span het hierdie strategie in hul verspreidingsmodelle gebruik deur die klassifiseerder te vervang met 'n CLIP-model wat die modelle "lei". Intussen is klassifiseerdervrye leiding 'n strategie om diffusiemodelle te rig wat nie die opleiding van 'n aparte klassifiseerder behels nie.
GLIDE-argitektuur
Die GLIDE-argitektuur bestaan uit drie komponente: 'n Ablated Diffusion Model (ADM) wat opgelei is om 'n 64 × 64-beeld te genereer, 'n teksmodel (transformator) wat beeldgenerering beïnvloed deur middel van 'n teksprompt, en 'n upsampling-model wat ons klein 64 × 64 omskakel. beelde tot meer interpreteerbare 256 x 256 piksels.
Die eerste twee komponente werk saam om die proses van die generering van prente te beheer sodat dit die teksopdrag toepaslik weerspieël, terwyl laasgenoemde nodig is om die beelde wat ons skep makliker te verstaan. Die GLIDE-projek is geïnspireer deur 'n verslag gepubliseer in 2021 wat getoon het dat ADM-tegnieke beter gevaar het as tans gewilde, moderne generatiewe modelle in terme van beeldmonsterkwaliteit.
Vir die ADM het die GLIDE-outeurs dieselfde ImageNet 64 x 64-model as Dhariwal en Nichol gebruik, maar met 512 kanale in plaas van 64. Die ImageNet-model het ongeveer 2.3 miljard parameters as gevolg hiervan.
Die GLIDE-span wou, anders as Dhariwal en Nichol, groter direkte beheer hê oor die prentgenereringsproses, en daarom het hulle die visuele model gekombineer met 'n aandag-geaktiveerde transformator. GLIDE gee jou 'n mate van beheer oor die prentjie wat proses uitset genereer deur die teksinvoeropdragte te verwerk.
Dit word bewerkstellig deur die transformatormodel op 'n gepaste groot datastel van foto's en byskrifte op te lei (soortgelyk aan dié wat in die DALL-E-projek gebruik word).
Die teks word aanvanklik in 'n reeks K-tekens geënkodeer om dit te kondisioneer. Daarna word die tokens in 'n transformatormodel gelaai. Die uitset van die transformator kan dan op twee maniere gebruik word. Vir die ADM-model word die finale token-inbedding gebruik in plaas van die klas-inbedding.
Tweedens word die token-inbeddings se laaste laag – 'n reeks kenmerkvektore – onafhanklik geprojekteer na die dimensies vir elke aandaglaag in die ADM-model en aaneengeskakel na elke aandagkonteks.
In werklikheid stel dit die ADM-model in staat om 'n prentjie te produseer uit nuwe kombinasies van soortgelyke tekstekens op 'n unieke en fotorealistiese wyse, gebaseer op sy aangeleerde begrip van die insette woorde en hul verwante beelde. Hierdie tekskoderingstransformator bevat 1.2 miljard parameters en gebruik 24 oorskietblokke met 'n breedte van 2048.
Laastens bevat die upsampler-diffusiemodel ongeveer 1.5 miljard parameters en verskil van die basiese model deurdat sy tekskodeerder kleiner is, met 'n breedte van 1024 en 384 basiskanale, in vergelyking met die basismodel. Hierdie model, soos die naam aandui, help met die opgradering van die monster om interpreteerbaarheid vir beide masjiene en mense te verbeter.
Diffusie model
GLIDE genereer beelde met behulp van sy eie weergawe van die ADM (ADM-G vir "begelei"). Die ADM-G model is 'n wysiging van die diffusie U-net model. 'n Diffusie U-net model verskil dramaties van die meer algemene beeldsintese tegnieke soos VAE, GAN en transformators.
Hulle bou 'n Markov-ketting van diffusiestappe om ewekansige geraas geleidelik in die data in te spuit, en leer dan om die diffusieproses om te keer en die vereiste datamonsters uit die geraas alleen te herbou. Dit werk in twee fases: vorentoe en agtertoe diffusie.
Die voorwaartse diffusiemetode, gegewe 'n datapunt van die monster se ware verspreiding, voeg 'n klein hoeveelheid geraas by die monster oor 'n voorafbepaalde reeks stappe. Soos die stappe in grootte toeneem en oneindig nader, verloor die monster alle herkenbare eienskappe en begin die volgorde soos 'n isotropiese Gaussiese kurwe lyk.
Tydens die terugwaartse diffusie fase, die diffusiemodel leer om die invloed van die bygevoegde geraas op die prente om te keer en die geproduseerde beeld terug te lei na sy oorspronklike vorm deur te probeer om soos die oorspronklike insetmonsterverspreiding te lyk.
'n Voltooide model kan dit doen met 'n regte Gaussiese geraasinvoer en 'n opdrag. Die ADM-G-metode verskil van die voorafgaande een deurdat 'n model, hetsy CLIP of 'n pasgemaakte transformator, die terugwaartse diffusiefase beïnvloed deur die teksprompt-tokens te gebruik wat ingevoer word.
Glyvermoëns
1. Generering van beeld
Die gewildste en algemeenste gebruik van GLIDE sal waarskynlik beeldsintese wees. Alhoewel die prente beskeie is en GLIDE probleme ondervind met dierlike/menslike vorms, is die potensiaal vir eenskoot-beeldproduksie byna eindeloos.
Dit kan foto's van diere, bekendes, landskappe, geboue en nog baie meer skep, en dit kan dit in 'n verskeidenheid kunsstyle sowel as fotorealisties doen. Die skrywers van die navorsers beweer dat GLIDE in staat is om 'n wye verskeidenheid tekstuele insette te interpreteer en aan te pas in 'n visuele formaat, soos gesien in die voorbeelde hieronder.
2. Gly inpainting
GLIDE se outomatiese foto-inverf is waarskynlik die mees fassinerende gebruik. GLIDE kan 'n bestaande prent as invoer neem, dit verwerk met die teksprompt in gedagte vir liggings wat verander moet word, en dan aktiewe wysigings aan daardie dele met gemak aanbring.
Dit moet saam met 'n redigeermodel, soos SDEdit, gebruik word om nog beter resultate te lewer. In die toekoms kan toepassings wat voordeel trek uit vermoëns soos hierdie deurslaggewend wees in die ontwikkeling van kodevrye beeldveranderingsbenaderings.
Gevolgtrekking
Noudat ons deur die proses gegaan het, behoort jy die grondbeginsels van hoe GLIDE werk te begryp, sowel as die breedte van sy vermoëns in prentskepping en in-beeld-modifikasie.
Lewer Kommentaar