Table of Contents[Qari][muuji]
Waxay u badan tahay inaad ka warqabto in kombuyuutarku uu qeexi karo sawirka.
Tusaale ahaan, sawirka eeyga oo la ciyaaraya carruurtaada waxaa loo turjumi karaa 'ey iyo carruurta beerta dhexdeeda.' Laakiin ma ogtahay in si ka soo horjeeda ay hadda suurtagal tahay sidoo kale? Waxaad ku qortaa erayada qaar, oo mishiinku wuxuu soo saaraa sawir cusub.
Si ka duwan raadinta Google-ka, kaas oo baadhaya sawirada jira, tani waa mid cusub. Sanadihii la soo dhaafay, OpenAI waxay ahayd mid ka mid ah ururada hormuudka ka ah, ka warbixinta natiijooyin cajiib ah.
Waxay ku tababaraan algorithms-kooda qoraalka weyn iyo xogta sawirka. Waxay daabaceen warqad ku saabsan qaabka sawirka GLIDE, kaas oo lagu tababaray boqolaal milyan oo sawiro ah. Marka la eego sawir-qaadista, waxay ka sarraysaa moodalkoodii hore ee 'DALL-E'.
Maqaalkan, waxaan ku eegi doonaa OpenAI's GLIDE, mid ka mid ah dhowr hindise oo soo jiidasho leh oo loogu talagalay soo saarista iyo beddelka sawirrada sawir-qaadista ee moodooyinka faafinta qoraalka lagu hago. Aan bilowno.
waa maxay Fur AI Glide?
Iyadoo sawirada intooda badan lagu qeexi karo erayo, abuurista sawiro laga soo qaaday qoraallada waxay u baahan tahay aqoon gaar ah iyo waqti aad u badan.
Oggolaanshaha wakiilka AI inuu soo saaro sawirro sawir-qaadis ah oo ka imanaya luqadda dabiiciga ah maaha oo keliya inay dadka u oggolaato inay abuuraan waxyaabo muuqaal ah oo hodan ah oo kala duwan leh si fudud oo aan horay loo arag, laakiin waxay sidoo kale u oggolaaneysaa hagaajin sahlan oo isdaba-joog ah iyo xakamaynta si fiican u xakameynaya sawirada la abuuray.
GLIDE waxaa loo isticmaali karaa in lagu saxo sawirada jira iyadoo la adeegsanayo qoraalada luqadda dabiiciga ah si loo geliyo walxo cusub, loo abuuro hadh iyo milicsi, samee rinji sawireed, iyo wixii la mid ah.
Waxa kale oo ay u rogi kartaa sawirada khadadka aasaasiga ah sawiro sawir leh, waxayna leedahay wax soo saar eber ah oo aan caadi ahayn iyo awoodaha dayactirka xaaladaha adag.
Cilmi-baadhis dhowaan la sameeyay ayaa muujisay in moodooyinka faafinta ku salaysan ee suurtogalka ah ay sidoo kale soo saari karaan sawirro tayo sare leh, gaar ahaan marka lagu daro hab hagitaan ah oo dheellitiran kala duwanaanta iyo daacadnimada.
OpenAI ayaa daabacay a model faafin la hago bisha Maajo, taas oo u oggolaanaysa moodooyinka faafintu in ay shuruud ku xidhaan calaamadaha kala-soocida. GLIDE waxay ku wanaajisaa guushan iyadoo keenaysa faafin la hagayo dhibaatada abuurista sawir-qaran.
Ka dib markii ay tababareen 3.5 bilyan oo cabbirka GLIDE qaabka faafinta iyadoo la adeegsanayo codeer qoraal ah si ay shuruud uga dhigaan sharraxaadaha luqadda dabiiciga ah, cilmi-baarayaashu waxay tijaabiyeen laba xeeladood oo hagitaan ah: hagitaan CLIP iyo hagitaan-free-classifier.
CLIP waa farsamo la miisaami karo oo lagu baranayo matalida wadajirka ah ee qoraalka iyo sawirada taasoo keenta dhibco ku salaysan sida sawirku ugu dhow yahay qoraalka.
Kooxdu waxay xeeladan u adeegsadeen moodallada faafintooda iyagoo ku beddelay kala soociye moode CLIP oo "hagaya" moodooyinka. Dhanka kale, hagida-free-classifier waa istaraatijiyad lagu hagayo moodooyinka fidinta ee aan ku lug lahayn tababbarka kalasaar gaar ah.
Dhismaha GLIDE
Qaab dhismeedka GLIDE wuxuu ka kooban yahay saddex qaybood: Model Faafinta Ablated (ADM) oo loo tababaray in uu soo saaro sawir 64 × 64 ah, qaab qoraal ah (transformer) kaas oo saameeya jiilka sawirka iyada oo loo marayo isla markiiba qoraalka, iyo qaab kor u qaadaya oo beddelaya 64 × 64 yar. sawiro loo fasiri karo 256 x 256 pixels.
Labada qaybood ee ugu horreeya waxay isla shaqeeyaan si ay u xakameeyaan geeddi-socodka soo saarista sawirka si ay si habboon u muujiso qoraalka degdegga ah, halka kan dambe loo baahan yahay si loo fududeeyo fahamka sawirada aan abuurno. Mashruuca GLIDE waxa dhiirigeliyay a warbixin la daabacay 2021 taas oo muujisay in farsamooyinka ADM ay ka sarreeyaan hadda caanka ah, moodooyinka wax soo saarka ee casriga ah marka loo eego tayada muunadda sawirka.
Dhanka ADM, qorayaasha GLIDE waxay shaqaaleysiiyeen qaabka ImageNet 64 x 64 ee Dhariwal iyo Nichol, laakiin leh kanaalka 512 halkii ay ka ahaan lahaayeen 64. Qaabka ImageNet wuxuu leeyahay qiyaas ahaan 2.3 bilyan oo xuduud ah natiijada tan.
Kooxda GLIDE, oo ka duwan Dhariwal iyo Nichol, waxay rabeen inay si toos ah u maamulaan habka sawir-qaadista, sidaas darteed waxay isku darsameen moodeelka muuqaalka iyo beddelka fiiro gaar ah u leh. GLIDE waxa ay ku siinaysaa xoogaa xakamayn ah oo ku saabsan soo saarista habka sawirka iyada oo la socodsiinayo soo-jeedinta qoraalka.
Tan waxaa lagu dhammeeyaa iyadoo la tababaro qaabka transformer-ka xog-ururin ku habboon oo sawiro iyo qoraallo ah (oo la mid ah kan ka shaqeeya mashruuca DALL-E).
Qoraalka ayaa markii hore lagu dhejiyay taxane K calaamado ah si shuruud looga dhigo. Taas ka dib, calaamadaha waxaa lagu shubaa qaabka transformer. Wax soo saarka Transformer-ka ayaa markaa loo isticmaali karaa laba siyaabood. Qaabka ADM, ku-xidhka calaamada ugu dambeeya ayaa la isticmaalayaa halkii fasalka la gelin lahaa.
Midda labaad, lakabka ugu dambeeya ee calaamadaynta - taxane ah oo ka mid ah qaybaha muuqaalka - ayaa si madax bannaan loogu saadaaliyay cabbirrada lakabka dareenka kasta ee qaabka ADM oo lagu soo koobay dareen kasta.
Xaqiiqda, tani waxay awood u siineysaa qaabka ADM inuu soo saaro sawir laga soo qaaday isku-dhafka cusub ee calaamadaha qoraalka ee la midka ah ee qaab gaar ah oo sawir leh, oo ku salaysan fahamka la bartay ee ereyada soo-gelinta iyo sawiradooda la xidhiidha. Transformer-kan qoraalka-ku-qodeynta ah wuxuu ka kooban yahay 1.2 bilyan oo cabbir wuxuuna shaqeeyaa 24 baloog oo hadha oo ballac ah 2048.
Ugu dambeyntii, qaabka faafinta kor-u-qaadka waxaa ka mid ah qiyaastii 1.5 bilyan oo cabbirro wuxuuna ka duwan yahay qaabka aasaasiga ah in cod-bixiye qoraalkiisu ka yar yahay, oo ballaciisu yahay 1024 iyo 384 kanaalada saldhigga, marka la barbar dhigo qaabka saldhigga. Habkani, sida magacu tilmaamayo, waxa uu caawiyaa cusboonaysiinta muunada si loo horumariyo tarjumaada mashiinada iyo bini'aadamkaba.
Qaabka faafinta
GLIDE waxay soo saartaa sawiro iyadoo adeegsanaysa nooceeda ADM (ADM-G ee "la hagayo"). Qaabka ADM-G waa wax ka beddelka qaabka faafinta U-net. Qaabka faafinta U-net wuxuu si weyn uga duwan yahay farsamooyinka isku-dhafka sawirka sida VAE, GAN, iyo transformers.
Waxay dhisaan silsiladda Markov ee tillaabooyinka faafinta si ay si tartiib tartiib ah ugu duraan dhawaaq aan toos ahayn xogta, ka dibna ay bartaan inay beddelaan habka faafinta oo ay dib ugu dhisaan muunadaha xogta loo baahan yahay ee qaylada oo keliya. Waxay u shaqeysaa laba marxaladood: hore iyo faafin.
Habka fidinta hore, ee la siiyay barta xogta saamiga dhabta ah ee muunadda, waxay ku kordhinaysaa cadad yar oo buuq muunada iyadoo la raacayo tillaabooyin taxane ah oo hore loo sii diyaariyay. Marka ay tillaabooyinku kor u kacaan cabbirka iyo habka aan dhammaadka lahayn, muunadda ayaa luminaysa dhammaan sifooyinka la aqoonsan karo oo isku xigxiga wuxuu bilaabmayaa inuu u ekaado qalooca Gaussian isotropic.
Inta lagu jiro fidinta gadaal wajiga, qaabka fidinta wuxuu bartaa inuu ka noqdo saamaynta dhawaaqa lagu daray sawirada oo uu ku hogaamiyo sawirka la soo saaray qaabkiisii hore isagoo isku dayaya inuu u ekaado qaybinta muunada wax gelinta ee asalka ah.
Qaabka la dhammeeyey wuxuu ku samayn karaa gelinta dhawaaqa Gaussian dhabta ah iyo degdeg. Habka ADM-G wuu ka duwan yahay kii hore ee qaabkaas, midkood CLIP ama transformer-ka la habeeyey, wuxuu saameeyaa marxaladda faafinta gadaal iyadoo la adeegsanayo calaamadaha degdega ah ee qoraalka ee la geliyay.
Awoodaha qulqulka
1. Jiilka Sawirka
Isticmaalka ugu caansan uguna isticmaalka badan ee GLIDE waxay u badan tahay inay noqon doonto sawir sawir. Inkasta oo sawiradu ay yihiin kuwo dhexdhexaad ah oo GLIDE ay ku adag tahay qaababka xayawaanka / bini'aadamka, suurtogalnimada soo saarista sawir hal-shut ah waa mid aan dhammaad lahayn.
Waxay abuuri kartaa sawirada xayawaanka, dadka caanka ah, muuqaalka muuqaalka, dhismooyinka, iyo waxyaabo kale oo badan, waxayna ku samayn kartaa noocyo farshaxan oo kala duwan iyo sidoo kale sawir-waaqici ah. Qorayaasha cilmi-baarayaashu waxay caddeeyeen in GLIDE ay awood u leedahay inay tarjumto oo la qabsato noocyo badan oo qoraal ah oo qoraal ah oo qaab muuqaal ah, sida lagu arkay muunadaha hoose.
2. Rinjiyeynta galley
Rinjiyeynta sawirka tooska ah ee GLIDE ayaa muran la'aan ah isticmaalka ugu xiisaha badan. GLIDE waxay u qaadan kartaa sawir jira sidii gelinta, waxay ku socodsiisaa qoraalka isla markiiba maskaxda ku haysa meelaha u baahan in wax laga beddelo, ka dibna wax ka beddel firfircoon ku samayso qaybahaas si sahlan.
Waa in lala isticmaalo qaabka tafatirka, sida SDEdit, si loo soo saaro natiijooyin ka sii wanaagsan. Mustaqbalka, abka ka faa'iidaysanaya awoodaha kuwan oo kale ah ayaa laga yaabaa inay muhiim u yihiin horumarinta habab wax ka beddelka sawir-la'aanta koodka.
Ugu Dambeyn
Hadda oo aan soo marnay habka, waa inaad fahantaa aasaaska sida GLIDE u shaqeyso, iyo sidoo kale ballaadhka awoodeeda abuurista sawirka iyo wax ka beddelka muuqaalka.
Leave a Reply