Orodha ya Yaliyomo[Ficha][Onyesha]
Kuna uwezekano mkubwa kwamba kompyuta inaweza kuelezea picha.
Kwa mfano, picha ya mbwa akicheza na watoto wako inaweza kutafsiriwa kuwa 'mbwa na watoto bustanini.' Lakini je, ulijua kuwa njia iliyo kinyume sasa inawezekana pia? Unaandika baadhi ya maneno, na mashine hutoa picha mpya.
Tofauti na utafutaji wa Google, ambao hutafuta picha zilizopo, hii yote ni safi. Katika miaka ya hivi karibuni, OpenAI imekuwa moja ya mashirika inayoongoza, ikiripoti matokeo ya kushangaza.
Wanafunza algoriti zao kwenye hifadhidata kubwa za maandishi na picha. Walichapisha karatasi kwenye modeli yao ya picha ya GLIDE, ambayo ilifunzwa kwenye mamia ya mamilioni ya picha. Kwa upande wa uhalisia wa picha, inaboresha zaidi muundo wao wa awali wa 'DALL-E'.
Katika chapisho hili, tutaangalia GLIDE ya OpenAI, mojawapo ya mipango kadhaa ya kuvutia inayolenga kutoa na kubadilisha picha za uhalisia kwa kutumia miundo ya usambaaji inayoongozwa na maandishi. Hebu tuanze.
Nini Fungua Glide ya AI?
Ingawa picha nyingi zinaweza kuelezewa kwa maneno, kuunda picha kutoka kwa pembejeo za maandishi kunahitaji ujuzi maalum na kiasi kikubwa cha muda.
Kuruhusu wakala wa AI kutoa picha halisi kutoka kwa vidokezo vya lugha asilia hakuruhusu tu watu kuunda nyenzo nyingi za kuona na tofauti kwa urahisi sana, lakini pia inaruhusu uboreshaji rahisi wa kurudia na udhibiti mzuri wa picha zilizoundwa.
GLIDE inaweza kutumika kuhariri picha zilizopo kwa kutumia vidokezo vya maandishi ya lugha asili ili kuingiza vitu vipya, kuunda vivuli na kuakisi, kutekeleza. uchoraji wa picha, Na kadhalika.
Inaweza pia kugeuza michoro ya msingi kuwa picha za uhalisia, na ina uwezo wa kipekee wa kutengeneza na kutengeneza sampuli za sifuri katika hali ngumu.
Utafiti wa hivi majuzi umeonyesha kuwa miundo ya uenezaji kulingana na uwezekano inaweza pia kutoa picha za sintetiki za ubora wa juu, hasa zikiunganishwa na mbinu elekezi inayosawazisha aina na uaminifu.
OpenAI ilichapisha a mfano wa uenezaji ulioongozwa mwezi wa Mei, ambayo huruhusu mifano ya uenezaji kuwa na masharti kwenye lebo za kiainishaji. GLIDE inaboresha mafanikio haya kwa kuleta uenezaji unaoongozwa kwa tatizo la kuunda picha kwa masharti.
Baada ya kufunza kigezo cha bilioni 3.5 cha kielelezo cha uenezaji cha GLIDE kwa kutumia kisimbaji cha maandishi ili kukidhi maelezo ya lugha asilia, watafiti walijaribu mbinu mbili mbadala za mwongozo: mwongozo wa CLIP na mwongozo usio na uainishaji.
CLIP ni mbinu inayoweza kupanuka ya kujifunza uwakilishi wa pamoja wa maandishi na picha ambayo hutoa alama kulingana na jinsi picha ilivyo karibu na maelezo mafupi.
Timu ilitumia mkakati huu katika miundo yao ya uenezaji kwa kubadilisha kiainishaji na muundo wa CLIP "unaoongoza" miundo. Wakati huo huo, mwongozo usio na uainishaji ni mkakati wa kuelekeza miundo ya uenezi ambayo haijumuishi mafunzo ya kiainishi tofauti.
Usanifu wa GLIDE
Usanifu wa GLIDE una vipengee vitatu: Muundo wa Usambazaji Ulioboreshwa (ADM) uliofunzwa kutoa picha ya 64 × 64, muundo wa maandishi (transfoma) unaoathiri uundaji wa picha kupitia arifa ya maandishi, na modeli ya kuongeza sampuli inayobadilisha 64 × 64 yetu ndogo. picha kwa pikseli 256 x 256 zinazoweza kufasirika zaidi.
Vipengee viwili vya kwanza hufanya kazi pamoja ili kudhibiti mchakato wa kutengeneza picha ili iakisi ipasavyo kidokezo cha maandishi, huku cha pili kinahitajika ili kufanya picha tunazounda ziwe rahisi kueleweka. Mradi wa GLIDE ulitiwa msukumo na a ripoti iliyochapishwa mnamo 2021 ambayo ilionyesha kuwa mbinu za ADM zilifanya kazi vizuri zaidi kwa mifano maarufu ya kisasa, ya kisasa katika suala la ubora wa sampuli za picha.
Kwa ADM, waandishi wa GLIDE waliajiri muundo sawa wa ImageNet 64 x 64 kama Dhariwal na Nichol, lakini kwa chaneli 512 badala ya 64. Muundo wa ImageNet una takribani vigezo bilioni 2.3 kutokana na hili.
Timu ya GLIDE, tofauti na Dhariwal na Nichol, ilitaka kuwa na udhibiti mkubwa wa moja kwa moja juu ya mchakato wa kutengeneza picha, kwa hivyo waliunganisha kielelezo cha kuona na kibadilishaji cha uangalizi. GLIDE hukupa udhibiti fulani juu ya matokeo ya mchakato wa kutengeneza picha kwa kuchakata madokezo ya uingizaji maandishi.
Hili linakamilishwa kwa kufunza kielelezo cha kibadilishaji data kwenye mkusanyiko mkubwa wa data wa picha na maelezo mafupi (sawa na ile iliyotumika katika mradi wa DALL-E).
Maandishi hapo awali yamesimbwa katika mfululizo wa tokeni za K ili kuiweka hali. Baada ya hayo, ishara zimewekwa kwenye mfano wa transformer. Pato la transformer linaweza kutumika kwa njia mbili. Kwa muundo wa ADM, upachikaji wa tokeni wa mwisho hutumiwa badala ya upachikaji wa darasa.
Pili, safu ya mwisho ya upachikaji wa tokeni - msururu wa vivekta vya vipengele - inakadiriwa kwa kujitegemea kwa vipimo kwa kila safu ya umakini katika muundo wa ADM na kuambatanishwa kwa kila muktadha wa umakini.
Kwa uhalisia, hii huwezesha mtindo wa ADM kutoa picha kutoka kwa michanganyiko mipya ya tokeni za maandishi zinazofanana kwa mtindo wa kipekee na wa picha halisi, kulingana na ufahamu wake uliojifunza wa maneno ya ingizo na picha zao zinazohusiana. Transfoma hii ya usimbaji maandishi ina vigezo bilioni 1.2 na huajiri vizuizi 24 vilivyosalia vyenye upana wa 2048.
Hatimaye, muundo wa uenezaji wa upsampler unajumuisha takribani vigezo bilioni 1.5 na hutofautiana kutoka kwa muundo msingi kwa kuwa kisimbaji chake cha maandishi ni kidogo, na upana wa chaneli 1024 na 384, ikilinganishwa na muundo wa msingi. Mtindo huu, kama jina linavyoonyesha, husaidia katika uboreshaji wa sampuli ili kuboresha tafsiri kwa mashine na wanadamu.
Mfano wa kueneza
GLIDE hutengeneza picha kwa kutumia toleo lake la ADM (ADM-G kwa "kuongozwa"). Mfano wa ADM-G ni marekebisho ya muundo wa U-net wa kueneza. Muundo wa upanuzi wa U-net hutofautiana kwa kiasi kikubwa na mbinu zinazojulikana zaidi za usanisi wa picha kama vile VAE, GAN, na vibadilishaji umeme.
Wanaunda msururu wa hatua za uenezaji wa Markov ili kuingiza polepole kelele isiyo ya kawaida kwenye data, na kisha kujifunza kubadilisha mchakato wa uenezaji na kuunda upya sampuli za data zinazohitajika kutoka kwa kelele pekee. Inafanya kazi katika hatua mbili: usambazaji wa mbele na wa nyuma.
Mbinu ya uenezaji wa mbele, ikizingatiwa alama ya data kutoka kwa usambazaji wa kweli wa sampuli, huongeza kiwango kidogo cha kelele kwenye sampuli juu ya mfululizo wa hatua zilizowekwa mapema. Kadiri hatua zinavyoongezeka kwa ukubwa na kukaribia ukomo, sampuli hupoteza sifa zote zinazotambulika na mfuatano huanza kufanana na mkunjo wa Gaussian wa isotropiki.
Wakati wa kuenea kwa nyuma awamu, mfano wa uenezi hujifunza kugeuza ushawishi wa kelele iliyoongezwa kwenye picha na kurudisha picha inayotolewa kwenye umbo lake la asili kwa kujaribu kufanana na usambazaji wa sampuli asilia.
Mfano uliokamilishwa unaweza kufanya hivyo na ingizo halisi la kelele la Gaussian na haraka. Mbinu ya ADM-G inatofautiana na ile iliyotangulia kwa kuwa modeli, ama CLIP au kibadilishaji kigezo kilichogeuzwa kukufaa, huathiri awamu ya nyuma ya uenezaji kwa kutumia tokeni za maongozi ya maandishi ambazo huingizwa.
Uwezo wa kuteleza
1. Kizazi cha Picha
Matumizi maarufu na yanayotumiwa sana ya GLIDE pengine yatakuwa usanisi wa picha. Ingawa picha ni za kiasi na GLIDE ina ugumu wa kutumia maumbo ya wanyama/binadamu, uwezekano wa utengenezaji wa picha moja unakaribia kutokuwa na mwisho.
Inaweza kuunda picha za wanyama, watu mashuhuri, mandhari, majengo, na mengine mengi, na inaweza kufanya hivyo katika mitindo mbalimbali ya sanaa na pia picha kwa uhalisia. Waandishi wa watafiti wanadai kuwa GLIDE ina uwezo wa kutafsiri na kurekebisha aina mbalimbali za pembejeo za maandishi katika muundo wa kuona, kama inavyoonekana katika sampuli hapa chini.
2. Uchoraji wa glide
Uchoraji otomatiki wa picha wa GLIDE bila shaka ndiyo matumizi yanayovutia zaidi. GLIDE inaweza kuchukua picha iliyopo kama ingizo, kuichakata kwa kuzingatia kidokezo cha maandishi kwa maeneo ambayo yanahitaji kubadilishwa, na kisha kufanya marekebisho yanayoendelea kwa sehemu hizo kwa urahisi.
Ni lazima itumike pamoja na muundo wa uhariri, kama vile SDEdit, ili kutoa matokeo bora zaidi. Katika siku zijazo, programu zinazotumia uwezo kama huu zinaweza kuwa muhimu katika kuunda mbinu za kubadilisha picha bila msimbo.
Hitimisho
Sasa kwa kuwa tumepitia mchakato huo, unapaswa kufahamu misingi ya jinsi GLIDE inavyofanya kazi, pamoja na upana wa uwezo wake katika kuunda picha na urekebishaji wa picha.
Acha Reply