Tõenäoliselt teate, et arvuti suudab pilti kirjeldada.
Näiteks võib teie lastega mängiva koera pildi tõlkida kui "koer ja lapsed aias". Kuid kas teadsite, et nüüd on võimalik ka vastupidine viis? Sisestate mõned sõnad ja masin loob uue pildi.
Erinevalt Google'i otsingust, mis otsib olemasolevaid fotosid, on see kõik värske. Viimastel aastatel on OpenAI olnud üks juhtivaid organisatsioone, mis on teatanud vapustavatest tulemustest.
Nad treenivad oma algoritme massiivsetel teksti- ja pildiandmebaasidel. Nad avaldasid artikli oma GLIDE-pildimudeli kohta, mida õpetati sadade miljonite fotode kohta. Fotorealismi osas ületab see nende varasemat DALL-E mudelit.
Selles postituses vaatleme OpenAI GLIDE-i, mis on üks paljudest põnevatest algatustest, mille eesmärk on luua ja muuta fotorealistlikke pilte tekstipõhise difusioonimudeliga. Alustagem.
Mis on Avage AI Glide?
Kuigi enamikku pilte saab kirjeldada sõnadega, on tekstisisendite põhjal piltide loomiseks vaja eriteadmisi ja märkimisväärset aega.
Lubades tehisintellekti agendil toota loomulikust keelest fotorealistlikke pilte, ei võimalda inimesed mitte ainult luua rikkalikku ja mitmekesist visuaalset materjali enneolematu kergusega, vaid võimaldab ka lihtsamat iteratiivset viimistlemist ja loodud kujutiste täpset kontrolli.
GLIDE-i saab kasutada olemasolevate fotode redigeerimiseks, kasutades loomuliku keele tekstiviipasid uute objektide sisestamiseks, varjude ja peegelduste loomiseks, pildi maalimine, ja nii edasi.
See võib muuta ka põhijoonised fotorealistlikeks fotodeks ning sellel on erakordsed nullnäidise valmistamise ja parandamise võimalused keeruliste olukordade jaoks.
Hiljutised uuringud on näidanud, et tõenäosuspõhised difusioonimudelid võivad toota ka kvaliteetseid sünteetilisi pilte, eriti kui need on kombineeritud suunava lähenemisviisiga, mis tasakaalustab mitmekesisust ja täpsust.
OpenAI avaldas a juhitud difusioonimudel maikuus, mis võimaldab difusioonimudeleid siduda klassifikaatori siltidega. GLIDE parandab seda edu, tuues juhitud difusiooni teksti tingimusliku kujutise loomise probleemile.
Pärast 3.5 miljardi parameetriga GLIDE difusioonimudeli väljaõpet, kasutades tekstikodeerijat loomuliku keele kirjelduste jaoks, katsetasid teadlased kahte alternatiivset juhtimisstrateegiat: CLIP-juhist ja klassifikaatorivaba juhendamist.
CLIP on skaleeritav tehnika teksti ja piltide ühise esituse õppimiseks, mis annab tulemuse selle põhjal, kui lähedal pilt on pealdisele.
Meeskond kasutas seda strateegiat oma difusioonimudelites, asendades klassifikaatori CLIP-mudeliga, mis "juhib" mudeleid. Samal ajal on klassifikaatorivaba juhendamine strateegia difusioonimudelite suunamiseks, mis ei hõlma eraldi klassifikaatori väljaõpet.
GLIDE arhitektuur
GLIDE arhitektuur koosneb kolmest komponendist: ableeritud difusioonimudel (ADM), mis on koolitatud genereerima 64 × 64 pilti, tekstimudel (trafo), mis mõjutab pildi genereerimist tekstiviipa kaudu, ja ülesdiskreetimismudel, mis teisendab meie väikese 64 × 64 kujutise. pildid tõlgendatavamaks 256 x 256 piksliks.
Esimesed kaks komponenti töötavad koos, et juhtida pildi loomise protsessi nii, et see peegeldaks asjakohaselt tekstiviipa, samas kui viimane on vajalik meie loodud piltide hõlpsamaks mõistmiseks. GLIDE projekt sai inspiratsiooni a 2021. aastal avaldatud aruanne mis näitas, et ADM-i tehnikad edestasid praegu populaarseid ja nüüdisaegseid generatiivseid mudeleid pildinäidise kvaliteedi osas.
ADM-i jaoks kasutasid GLIDE autorid sama ImageNeti 64 x 64 mudelit nagu Dhariwal ja Nichol, kuid 512 kanali asemel 64. Selle tulemusel on ImageNeti mudelil ligikaudu 2.3 miljardit parameetrit.
GLIDE meeskond soovis erinevalt Dhariwalist ja Nicholist omada suuremat otsest kontrolli pildi loomise protsessi üle, mistõttu nad ühendasid visuaalse mudeli tähelepanuvõimelise transformaatoriga. GLIDE annab teile teatud kontrolli pildi loomise protsessi väljundi üle, töötledes tekstisisestusviipasid.
See saavutatakse trafo mudeli koolitamisega sobival hulgal fotode ja pealdistega (sarnaselt DALL-E projektis kasutatavale).
Tekst kodeeritakse algselt K-märkide seeriasse, et seda tingida. Pärast seda laaditakse märgid trafo mudelisse. Trafo väljundit saab seejärel kasutada kahel viisil. ADM-mudeli puhul kasutatakse klassi manustamise asemel lõplikku märgi manustamist.
Teiseks projitseeritakse märgi manustamise viimane kiht – funktsioonivektorite jada – ADM-mudeli iga tähelepanukihi mõõtmetele sõltumatult ja ühendatakse iga tähelepanu kontekstiga.
Tegelikkuses võimaldab see ADM-i mudelil toota sarnaste tekstimärkide uutest kombinatsioonidest pilti ainulaadsel ja fotorealistlikul viisil, tuginedes sisendsõnade ja nendega seotud piltide õpitud mõistmisele. See tekstikodeeringuga trafo sisaldab 1.2 miljardit parameetrit ja kasutab 24 plokki, mille laius on 2048.
Lõpuks sisaldab ülessampleri difusioonimudel umbes 1.5 miljardit parameetrit ja erineb põhimudelist selle poolest, et selle tekstikooder on põhimudeliga võrreldes väiksem, laiusega 1024 ja 384 baaskanalit. See mudel, nagu nimigi viitab, aitab proovi uuendamisel, et parandada tõlgendatavust nii masinate kui ka inimeste jaoks.
Difusioonimudel
GLIDE genereerib pilte, kasutades oma ADM-i versiooni (ADM-G tähendab "juhendatud"). ADM-G mudel on difusiooni U-võrgu mudeli modifikatsioon. Hajutatud U-võrgu mudel erineb dramaatiliselt enamlevinud kujutise sünteesi tehnikatest, nagu VAE, GAN ja trafod.
Nad loovad Markovi difusioonisammude ahela, et järk-järgult sisestada andmetesse juhuslikku müra, ning seejärel õpivad nad difusiooniprotsessi ümber pöörama ja ainuüksi müra põhjal nõutavad andmenäidised uuesti koostama. See töötab kahes etapis: edasi- ja tagurpidi difusioon.
Edaspidine difusioonimeetod, mille andmepunkt valimi tegelikust jaotusest, lisab proovile eelseadistatud sammude seeria jooksul väikese koguse müra. Kui sammud suurenevad ja lähenevad lõpmatusele, kaotab proov kõik äratuntavad omadused ja järjestus hakkab meenutama isotroopset Gaussi kõverat.
Tagurpidi difusiooni ajal faas, difusioonimudel õpib ümber pöörama lisatud müra mõju piltidele ja viima toodetud pildi tagasi algsele kujule, püüdes sarnaneda algse sisendnäidise jaotusega.
Valmis mudel saaks seda teha tõelise Gaussi mürasisendi ja viipaga. ADM-G meetod erineb eelmisest selle poolest, et mudel, kas CLIP või kohandatud trafo, mõjutab tagurpidi difusioonifaasi, kasutades sisestatud tekstiviiba märke.
Libisemisvõimalused
1. Pildi genereerimine
Kõige populaarsem ja laialdasemalt kasutatav GLIDE kasutusala on ilmselt piltide süntees. Kuigi pildid on tagasihoidlikud ja GLIDE-l on raskusi looma/inimese vormidega, on ühe kaadri kujutise tootmise potentsiaal peaaegu lõputu.
Sellega saab luua fotosid loomadest, kuulsustest, maastikest, hoonetest ja paljust muust ning seda saab teha nii erinevates kunstistiilides kui ka fotorealistlikult. Uurijate autorid väidavad, et GLIDE suudab tõlgendada ja kohandada mitmesuguseid tekstilisi sisendeid visuaalsesse vormingusse, nagu on näha allolevatest näidistest.
2. Glide maalimine
GLIDE automaatne fotomaalimine on vaieldamatult kõige põnevam kasutusala. GLIDE saab võtta sisendiks olemasoleva pildi, töödelda seda muutmist vajavate asukohtade jaoks tekstiviipa silmas pidades ja seejärel teha nendes osades hõlpsalt aktiivseid muudatusi.
Veelgi paremate tulemuste saamiseks tuleb seda kasutada koos redigeerimismudeliga, nagu SDEdit. Tulevikus võivad rakendused, mis kasutavad selliseid võimalusi, olla koodivabade piltide muutmise lähenemisviiside väljatöötamisel otsustava tähtsusega.
Järeldus
Nüüd, kui oleme protsessi läbinud, peaksite mõistma GLIDE-i tööpõhimõtteid, samuti selle võimaluste laiust piltide loomisel ja pildisisese muutmise vallas.
Jäta vastus