Teburin Abubuwan Ciki[Boye][Nuna]
Wataƙila kun san cewa kwamfuta na iya kwatanta hoto.
Misali, hoton kare yana wasa da yaranku ana iya fassara shi da 'kare da yara a lambu.' Amma ka san akasin hanyar yanzu kuma tana yiwuwa? Kuna rubuta wasu kalmomi, kuma injin yana haifar da sabon hoto.
Ba kamar binciken Google ba, wanda ke bincika hotunan da ke akwai, wannan duk sabo ne. A cikin 'yan shekarun nan, OpenAI ya kasance ɗaya daga cikin manyan ƙungiyoyi, yana ba da rahoton sakamako masu ban mamaki.
Suna horar da algorithms ɗin su akan manyan bayanai na rubutu da hotuna. Sun buga takarda akan samfurin hoton su na GLIDE, wanda aka horar akan daruruwan miliyoyin hotuna. Dangane da photorealism, ya zarce samfurin 'DALL-E' na farko.
A cikin wannan sakon, za mu kalli OpenAI's GLIDE, ɗaya daga cikin yunƙuri masu ban sha'awa da yawa waɗanda ke da nufin samarwa da musanya hotuna na zahiri tare da ƙirar watsa rubutu mai jagora. Mu fara.
Mene ne Bude AI Glide?
Yayin da yawancin hotuna za a iya bayyana su cikin kalmomi, ƙirƙirar hotuna daga abubuwan shigar da rubutu yana buƙatar ilimi na musamman da kuma adadi mai yawa.
Ba da izinin wakili na AI don samar da hotuna na ainihi daga harshen harshe yana haifar da ba kawai damar mutane su ƙirƙiri abubuwa masu wadata da bambance-bambancen gani tare da sauƙi wanda ba a taɓa gani ba amma kuma yana ba da damar sauƙi mai sauƙi da sauƙi na sarrafa hotuna da aka halitta.
Ana iya amfani da GLIDE don shirya hotunan da ake da su ta hanyar amfani da rubutun yare na halitta don saka sabbin abubuwa, ƙirƙirar inuwa da tunani, yi. zanen hoto, da sauransu.
Hakanan yana iya juyar da zane-zanen layi na asali zuwa hotuna na zahiri, kuma yana da keɓaɓɓen ƙirar ƙirar sifili da ƙarfin gyara don yanayi masu rikitarwa.
Bincike na baya-bayan nan ya nuna cewa yuwuwar tushen yaɗuwar samfuran kuma na iya samar da ingantattun hotuna na roba, musamman idan aka haɗa su da tsarin jagora wanda ke daidaita iri-iri da aminci.
OpenAI ya buga a samfurin watsa shirye-shirye a watan Mayu, wanda ke ba da damar samfuran watsawa su zama sharaɗi a kan lakabin mai rarrabawa. GLIDE yana inganta akan wannan nasarar ta hanyar kawo yaɗuwar jagora ga matsalar ƙirƙirar hoto na yanayin rubutu.
Bayan horar da siga na biliyan 3.5 GLIDE samfurin yaɗawa ta amfani da mai rikodin rubutu don daidaita kwatancen yaren yanayi, masu binciken sun gwada wasu dabarun jagora guda biyu: jagorar CLIP da jagorar kyauta.
CLIP wata dabara ce mai ƙima don koyan haɗin haɗin gwiwa na rubutu da hotuna waɗanda ke ba da maki dangane da kusancin hoto zuwa taken magana.
Ƙungiya ta yi amfani da wannan dabarar a cikin nau'ikan yaduwa ta hanyar musanya mai rarrabawa tare da ƙirar CLIP wanda ke "jagoranci" ƙirar. A halin yanzu, jagorar da ba ta da rabe-rabe dabara ce don jagorantar ƙirar yaɗuwa waɗanda ba su haɗa da horar da keɓantawa daban ba.
GLIDE Architecture
Gine-ginen GLIDE ya ƙunshi sassa uku: Model Faɗakarwa (ADM) wanda aka horar da shi don samar da hoto na 64 × 64, ƙirar rubutu (mai canzawa) wanda ke rinjayar ƙirar hoto ta hanyar saurin rubutu, da samfurin haɓakawa wanda ke canza ƙaramin 64 × 64 ɗin mu. hotuna zuwa mafi fassarori 256 x 256 pixels.
Bangarorin biyu na farko suna aiki tare don sarrafa tsarin samar da hoto ta yadda ya dace daidai da saurin rubutu, yayin da ake buƙatar na ƙarshen don sauƙaƙe hotunan da muke ƙirƙira don fahimta. Aikin GLIDE ya samu kwarin gwiwa daga wani rahoton da aka buga a cikin 2021 wanda ya nuna cewa dabarun ADM sun fi shahara a halin yanzu, ƙirar ƙira ta zamani dangane da ingancin samfurin hoto.
Ga ADM, mawallafin GLIDE sun yi amfani da samfurin ImageNet 64 x 64 iri ɗaya kamar Dhariwal da Nichol, amma tare da tashoshi 512 maimakon 64. Tsarin ImageNet yana da kimanin 2.3 biliyan sigogi a sakamakon wannan.
Ƙungiyar GLIDE, ba kamar Dhariwal da Nichol ba, suna so su sami iko mai girma kai tsaye a kan tsarin samar da hoto, don haka sun haɗu da samfurin gani tare da mai canzawa mai kulawa. GLIDE yana ba ku wasu iko akan fitar da tsarin samar da hoto ta hanyar sarrafa abubuwan shigar da rubutu.
Ana cim ma wannan ta hanyar horar da ƙirar taswira akan ƙayyadaddun manyan bayanai na hotuna da rubutu (mai kama da wanda aka yi aiki a cikin aikin DALL-E).
An fara sanya rubutun cikin jerin alamun K don daidaita shi. Bayan haka, ana ɗora alamomin a cikin ƙirar mai canzawa. Za'a iya amfani da abin da ake fitarwa na taransfoma ta hanyoyi biyu. Don ƙirar ADM, ana amfani da saka alamar ƙarshe maimakon saka ajin.
Na biyu, Layer na ƙarshe na abubuwan saka alama - jerin abubuwan da suka dace - an tsara shi da kansa zuwa ma'auni na kowane Layer hankali a cikin ƙirar ADM kuma an haɗa shi da kowane mahallin hankali.
A hakikanin gaskiya, wannan yana ba da damar samfurin ADM don samar da hoto daga sababbin haɗuwa na alamomin rubutu iri ɗaya a cikin yanayi na musamman da na hoto, dangane da fahimtar da aka koya game da kalmomin shigarwa da kuma hotunan su. Wannan na'ura mai rikodin rubutu ya ƙunshi sigogi biliyan 1.2 kuma yana ɗaukar ragowar tubalan guda 24 tare da faɗin 2048.
A ƙarshe, ƙirar haɓakar haɓakawa ta ƙunshi kusan sigogi biliyan 1.5 kuma ya bambanta daga ƙirar asali a cikin cewa rikodin rubutun sa ya yi ƙarami, tare da faɗin tashoshi na tushe 1024 da 384, idan aka kwatanta da ƙirar tushe. Wannan samfurin, kamar yadda sunan ya nuna, yana taimakawa wajen haɓaka samfurin don inganta fassarar duka inji da mutane.
Samfurin yaduwa
GLIDE yana haifar da hotuna ta amfani da sigar ta ADM (ADM-G don "shirya"). Samfurin ADM-G shine gyare-gyaren ƙirar U-net ɗin watsawa. Samfurin U-net na watsawa ya bambanta sosai da mafi yawan fasahar haɗa hoto kamar VAE, GAN, da masu taswira.
Suna gina sarkar Markov na matakan watsawa don a hankali shigar da karar bazuwar a cikin bayanan, sannan su koyi juyar da tsarin watsawa da sake gina samfuran bayanan da ake buƙata daga amo kadai. Yana aiki a matakai biyu: gaba da baya yadawa.
Hanyar yadawa ta gaba, da aka ba da ma'anar bayanai daga ainihin rarraba samfurin, yana ƙara ƙaramar ƙarar ƙara ga samfurin akan matakan da aka saita. Yayin da matakan haɓaka girma da kusanci zuwa iyaka, samfurin ya rasa duk halayen da za a iya ganewa kuma jerin ya fara kama da gaussian isotropic.
Lokacin yaduwa ta baya lokaci, samfurin yaduwa ya koyi juyar da tasirin ƙarar amo akan hotuna kuma ya jagoranci hoton da aka samar ya koma ga asalinsa ta hanyar ƙoƙarin kama da rarraba samfurin shigarwa na asali.
Samfurin da aka kammala zai iya yin hakan tare da shigar da amo na Gaussian na gaske da faɗakarwa. Hanyar ADM-G ta bambanta da wadda ta gabata a cikin wannan ƙirar, ko dai CLIP ko na'ura mai canzawa, yana tasiri ga yanayin yaɗuwar baya ta hanyar amfani da alamun faɗakarwar rubutu da aka shigar.
Ƙarfi mai ƙarfi
1. Tsarin Hoto
Mafi shahara da amfani da GLIDE mai yiwuwa zai zama haɗin hoto. Kodayake hotunan suna da girman kai kuma GLIDE yana da wahala tare da nau'ikan dabba/ ɗan adam, yuwuwar samar da hoton hoto ɗaya kusan ba shi da iyaka.
Yana iya ƙirƙirar hotuna na dabbobi, mashahurai, shimfidar wurare, gine-gine, da ƙari mai yawa, kuma yana iya yin shi a cikin nau'i-nau'i na fasaha da kuma hoto-ainihin. Marubutan masu binciken sun tabbatar da cewa GLIDE yana da ikon fassarawa da daidaita nau'ikan abubuwan rubutu iri-iri a cikin sigar gani, kamar yadda aka gani a samfuran da ke ƙasa.
2. Glide inpainting
Zane-zanen hoto na GLIDE ta atomatik tabbas shine mafi kyawun amfani. GLIDE na iya ɗaukar hoto mai gudana azaman shigarwa, sarrafa shi tare da saurin rubutu a zuciyarsa don wuraren da ake buƙatar canzawa, sannan yin gyare-gyare mai aiki ga waɗannan sassan cikin sauƙi.
Dole ne a yi amfani da shi tare da ƙirar gyare-gyare, kamar SDEdit, don samar da sakamako mafi kyau. A nan gaba, ƙa'idodin da ke amfani da damar iyakoki irin waɗannan na iya zama mahimmanci a haɓaka hanyoyin canza hotuna marasa lambar.
Kammalawa
Yanzu da muka ci gaba da aiwatarwa, ya kamata ku fahimci tushen yadda GLIDE ke aiki, da kuma faɗin iyawar sa wajen ƙirƙirar hoto da gyaran hoto.
Leave a Reply