Azo inoana fa fantatrao fa ny solosaina dia afaka mamaritra sary.
Ohatra, ny sarin'alika milalao miaraka amin'ny zanakao dia azo adika hoe 'alika sy ankizy ao an-jaridaina'. Saingy fantatrao ve fa azo atao koa ny mifanohitra amin'izany? Manoratra teny vitsivitsy ianao, ary mamorona sary vaovao ilay milina.
Tsy toy ny fikarohana Google, izay mikaroka sary efa misy, vaovao daholo izany. Tao anatin'ny taona vitsivitsy izay, OpenAI dia iray amin'ireo fikambanana lehibe indrindra, mitatitra vokatra manaitra.
Mampiofana ny algorithm-ny amin'ny angon-drakitra lahatsoratra sy sary be dia be izy ireo. Namoaka lahatsoratra momba ny maodelin'ny sary GLIDE izy ireo, izay niofana tamin'ny sary an-jatony tapitrisa. Raha resaka photorealism dia mihoatra lavitra noho ny modely 'DALL-E' teo aloha izy io.
Ato amin'ity lahatsoratra ity, hijery ny OpenAI's GLIDE isika, iray amin'ireo hetsika mahaliana maro mikendry ny hamokatra sy hanova ny sary photorealistic miaraka amin'ny maodely diffusion tari-dalana. Andeha isika hanomboka.
Inona ny Sokafy AI Glide?
Na dia azo faritana amin'ny teny aza ny ankamaroan'ny sary, ny famoronana sary avy amin'ny fampidirana lahatsoratra dia mila fahalalana manokana sy fotoana be.
Ny famelana ny mpiasan'ny AI hamokatra sary an-tsary avy amin'ny fiteny voajanahary dia tsy vitan'ny hoe mamela ny olona hamorona fitaovana hita maso manankarena sy isan-karazany miaraka amin'ny fanamorana tsy mbola nisy hatrizay, fa mamela koa ny fanatsarana miverimberina sy ny fanaraha-maso tsara ireo sary noforonina.
Ny GLIDE dia azo ampiasaina hanitsiana sary efa misy amin'ny alàlan'ny fampiasana bitsika lahatsoratra amin'ny fiteny voajanahary mba hampidirana zavatra vaovao, hamorona aloka sy fisaintsainana, hanao zavatra. sary hosodoko, sy ny sisa.
Izy io koa dia afaka mamadika sary an-tsipika fototra ho sary photorealistic, ary manana fahaiza-manamboatra sy manamboatra santionany aotra miavaka ho an'ny toe-javatra sarotra.
Ny fikarohana vao haingana dia naneho fa ny modelin'ny diffusion mifototra amin'ny mety dia afaka mamokatra sary sentetika avo lenta, indrindra rehefa ampiarahina amin'ny fomba fitarihana mampifandanja ny karazany sy ny fahatokiana.
OpenAI namoaka a modely diffusion tari-dalana amin'ny volana Mey, izay mamela ny modely fanaparitahana ho fepetra amin'ny mari-pamantarana mpanasokajy. Manatsara an'io fahombiazana io ny GLIDE amin'ny alàlan'ny fampielezam-peo amin'ny olan'ny famoronana sary misy fepetra.
Taorian'ny fanofanana modely fanaparitahana GLIDE 3.5 lavitrisa amin'ny alàlan'ny encoder lahatsoratra mba hifehezana ny filazalazana amin'ny fiteny voajanahary, ny mpikaroka dia nanandrana paikady fitarihana roa hafa: fitarihana CLIP sy torolàlana tsy misy fanasokajiana.
Ny CLIP dia teknika azo esorina amin'ny fianarana ireo fanehoana iraisan'ny lahatsoratra sy sary izay manome isa mifototra amin'ny halehiben'ny sary amin'ny lohateny.
Nampiasa io paikady io ny ekipa tamin'ny modely fanaparitahana azy ireo tamin'ny fanoloana ny mpanasokajy tamin'ny maodely CLIP izay “mitarika” ireo maodely. Mandritra izany fotoana izany, ny tari-dalana tsy misy fanasokajiana dia paikady ho an'ny fitarihana ireo modely fanaparitahana izay tsy tafiditra amin'ny fanofanana mpanasokajy misaraka.
GLIDE Architecture
Ny maritrano GLIDE dia misy singa telo: Ablated Diffusion Model (ADM) voaofana hamorona sary 64 × 64, maodely lahatsoratra (transformer) izay misy fiantraikany amin'ny famoronana sary amin'ny alàlan'ny bitsika lahatsoratra, ary modely upsampling izay manova ny 64 × 64 kely ananantsika. sary mankany amin'ny 256 x 256 pixel azo adika kokoa.
Ny singa roa voalohany dia miara-miasa amin'ny fanaraha-maso ny fizotry ny famokarana sary mba hanehoany araka ny tokony ho izy ny bitsika lahatsoratra, fa ny farany kosa dia takiana mba hanamora ny fahazoana ireo sary noforoninay. Ny tetikasa GLIDE dia aingam-panahy avy amin'ny a tatitra nivoaka tamin'ny 2021 izay nampiseho fa ny teknikan'ny ADM dia nihoatra ny maodely famokarana malaza amin'izao fotoana izao raha ny kalitaon'ny santionany amin'ny sary.
Ho an'ny ADM, ny mpanoratra GLIDE dia nampiasa modely ImageNet 64 x 64 mitovy amin'i Dhariwal sy Nichol, saingy miaraka amin'ny fantsona 512 fa tsy 64. Ny modely ImageNet dia manana mari-pamantarana eo amin'ny 2.3 miliara vokatr'izany.
Ny ekipan'ny GLIDE, tsy toa an'i Dhariwal sy Nichol, dia naniry ny hanana fifehezana mivantana bebe kokoa amin'ny fizotran'ny famokarana sary, noho izany dia nampifangaro ny maodely hita maso miaraka amin'ny mpanova iray mahasarika ny saina. Ny GLIDE dia manome anao fifehezana kely amin'ny famoahana sary amin'ny alàlan'ny fanodinana ny bitsika fampidirana lahatsoratra.
Tanteraka izany amin'ny alalan'ny fanofanana ny maodelin'ny mpanova amin'ny angon-drakitra lehibe misy sary sy soratra (mitovy amin'ilay ampiasaina amin'ny tetikasa DALL-E).
Ny lahatsoratra dia voahodidin'ny andian-tsoratra K mba hanamafisana azy. Aorian'izay dia ampidirina ao anaty modely transformer ny marika. Ny vokatra avy amin'ny transformer dia azo ampiasaina amin'ny fomba roa. Ho an'ny maodely ADM, ny fampidirana famantarana farany dia ampiasaina fa tsy ny fampidirana kilasy.
Faharoa, ny sosona farany amin'ny fametahana famantarana – andiana vectors misy endri-javatra – dia vinavinaina tsy miankina amin'ny refy ho an'ny soson'ny fifantohana tsirairay ao amin'ny maodely ADM ary ampifandraisina amin'ny tontolon'ny fifantohana tsirairay.
Raha ny tena izy dia ahafahan'ny maodely ADM mamokatra sary avy amin'ny fitambarana vaovao amin'ny mari-pamantarana lahatsoratra mitovitovy amin'ny fomba tsy manam-paharoa sy photorealistic, mifototra amin'ny fahatakarany ny teny fampidirana sy ny sary mifandraika amin'izany. Ity mpanova fanoratana lahatsoratra ity dia misy masontsivana 1.2 lavitrisa ary mampiasa sakana 24 sisa tavela amin'ny sakany 2048.
Farany, ny modelin'ny diffusion upsampler dia misy masontsivana manodidina ny 1.5 miliara ary miovaova amin'ny maodely fototra satria ny encoder lahatsoratra dia kely kokoa, miaraka amin'ny sakan'ny fantsona fototra 1024 sy 384, raha oharina amin'ny modely fototra. Ity modely ity, araka ny asehon'ny anarana, dia manampy amin'ny fanavaozana ny santionany mba hanatsarana ny fahaiza-mandika ny milina sy ny olombelona.
Modely diffusion
GLIDE dia mamorona sary amin'ny alàlan'ny dikan-teny ADM azy manokana (ADM-G ho an'ny "tari-dalana"). Ny maodely ADM-G dia fanovana ny modely U-net diffusion. Ny maodely U-net diffusion dia tsy mitovy amin'ny teknikan'ny synthesis sary mahazatra toy ny VAE, GAN, ary transformer.
Manangana dingana fanaparitahana Markov izy ireo mba hampidirana tsikelikely ny tabataba kisendrasendra ao anaty angon-drakitra, ary avy eo mianatra mamadika ny fizotran'ny diffusion ary manangana indray ireo santionany angon-drakitra ilaina avy amin'ny tabataba irery. Miasa amin'ny dingana roa izy io: diffusion mandroso sy miverina.
Ny fomba fanaparitahana mandroso, raha omena teboka angona avy amin'ny fitsinjarana marina ny santionany, dia manampy tabataba kely amin'ny santionany amin'ny dingana maromaro efa voatendry. Rehefa mihamitombo ny dingana ary manatona ny tsy manam-petra, dia very ny toetra rehetra fantatra ny santionany ary manomboka mitovitovy amin'ny curve Gaussian isotropic ny filaharana.
Nandritra ny diffusion aoriana dingana, ny modely diffusion mianatra mamadika ny fitaoman'ny tabataba fanampiny amin'ny sary ary mitarika ny sary novokarina hiverina amin'ny endriny voalohany amin'ny fiezahana hitovy amin'ny fizarana santionany voalohany.
Ny modely vita dia afaka manao izany miaraka amin'ny fampidirana feo Gaussian tena izy sy ny bitsika. Ny fomba ADM-G dia miovaova amin'ny teo aloha satria ny maodely, na CLIP na mpanova namboarina, dia misy fiantraikany amin'ny diffusion mihemotra amin'ny alàlan'ny fampiasana ny mari-pamantarana fampandrenesana lahatsoratra izay ampidirina.
Fahaiza-manao glide
1. Famoronana sary
Ny fampiasana GLIDE malaza indrindra sy be mpampiasa indrindra dia mety ho ny famoronana sary. Na dia maotina aza ny sary ary sarotra amin'ny GLIDE amin'ny endriky ny biby/olona, dia saika tsy misy farany ny mety ho famokarana sary iray.
Afaka mamorona sarin'ny biby, olo-malaza, tanimbary, tranobe, sy ny maro hafa, ary afaka manao izany amin'ny karazan-javakanto isan-karazany ary koa amin'ny sary tena izy. Ny mpanoratra ny mpikaroka dia nanamafy fa ny GLIDE dia afaka mandika sy mampifanaraka ny isan-karazany ny fampidirana lahatsoratra ho endrika hita maso, araka ny hita ao amin'ny santionany etsy ambany.
2. Fandokoana glide
Ny fandokoana sary mandeha ho azy an'i GLIDE no azo lazaina fa fampiasana mahavariana indrindra. GLIDE dia afaka maka sary efa misy ho fampidirana, manodina azy miaraka amin'ny bitsika lahatsoratra ao an-tsaina ho an'ny toerana mila ovaina, ary avy eo dia manao fanovana mavitrika amin'ireo faritra ireo mora foana.
Tsy maintsy ampiasaina miaraka amin'ny maodely fanitsiana, toy ny SDEdit, mba hahazoana vokatra tsara kokoa. Amin'ny ho avy, mety ho zava-dehibe amin'ny famolavolana fomba fanovàna sary tsy misy kaody ny fampiharana izay manararaotra ny fahaiza-manao tahaka izao.
Famaranana
Rehefa nandalo ny dingana isika izao dia tokony ho azonao ny fototry ny fomba fiasan'ny GLIDE, ary koa ny halehiben'ny fahaizany amin'ny famoronana sary sy fanovana sary.
Leave a Reply