Tabl Cynnwys[Cuddio][Dangos]
Rydych yn fwy na thebyg yn ymwybodol y gall cyfrifiadur ddisgrifio llun.
Er enghraifft, gellir cyfieithu llun o gi yn chwarae gyda'ch plant fel 'ci a phlant yn yr ardd.' Ond a oeddech chi'n gwybod bod y gwrthwyneb yn ymarferol bellach hefyd? Rydych chi'n teipio rhai geiriau, ac mae'r peiriant yn cynhyrchu llun newydd.
Yn wahanol i chwiliad Google, sy'n chwilio ffotograffau sy'n bodoli eisoes, mae hyn i gyd yn ffres. Yn ystod y blynyddoedd diwethaf, mae OpenAI wedi bod yn un o'r sefydliadau blaenllaw, gan adrodd am ganlyniadau syfrdanol.
Maent yn hyfforddi eu algorithmau ar gronfeydd data testun a llun enfawr. Fe wnaethon nhw gyhoeddi papur ar eu model delwedd GLIDE, a gafodd ei hyfforddi ar gannoedd o filiynau o luniau. O ran ffotorealaeth, mae'n perfformio'n well na'u model 'DALL-E' blaenorol.
Yn y swydd hon, byddwn yn edrych ar GLIDE OpenAI, un o nifer o fentrau hynod ddiddorol sydd â'r nod o gynhyrchu a newid lluniau ffotorealistig gyda modelau tryledu a arweinir gan destun. Gadewch i ni ddechrau.
Beth yw Agor AI Glide?
Er y gellir disgrifio'r rhan fwyaf o ddelweddau mewn geiriau, mae creu delweddau o fewnbynnau testun yn gofyn am wybodaeth arbenigol a chryn dipyn o amser.
Mae caniatáu i asiant AI gynhyrchu lluniau ffotorealistig o ysgogiadau iaith naturiol nid yn unig yn caniatáu i bobl greu deunydd gweledol cyfoethog ac amrywiol yn rhwydd heb ei debyg ond hefyd yn caniatáu ar gyfer mireinio ailadroddol symlach a rheolaeth fanwl ar y delweddau a grëwyd.
Gellir defnyddio GLIDE i olygu lluniau presennol trwy ddefnyddio anogwyr testun iaith naturiol i fewnosod gwrthrychau newydd, creu cysgodion ac adlewyrchiadau, perfformio peintio delwedd, ac yn y blaen.
Gall hefyd droi lluniadau llinell sylfaenol yn ffotograffau ffotorealistig, ac mae ganddo alluoedd gweithgynhyrchu ac atgyweirio sampl sero eithriadol ar gyfer sefyllfaoedd cymhleth.
Mae ymchwil diweddar wedi dangos y gall modelau trylediad seiliedig ar debygolrwydd hefyd gynhyrchu lluniau synthetig o ansawdd uchel, yn enwedig o'u cyfuno â dull arweiniol sy'n cydbwyso amrywiaeth a ffyddlondeb.
Cyhoeddodd OpenAI a model tryledu dan arweiniad ym mis Mai, sy'n caniatáu i fodelau tryledu fod yn amodol ar labeli dosbarthwr. Mae GLIDE yn gwella ar y llwyddiant hwn trwy ddod â gwasgariad tywysedig i'r broblem o greu delweddau testun-amodol.
Ar ôl hyfforddi model trylediad GLIDE paramedr 3.5 biliwn gan ddefnyddio amgodiwr testun i amod ar ddisgrifiadau iaith naturiol, profodd yr ymchwilwyr ddwy strategaeth arweiniol amgen: canllawiau CLIP a chanllawiau di-ddosbarthwr.
Mae CLIP yn dechneg raddadwy ar gyfer dysgu cynrychioliadau testun a lluniau ar y cyd sy'n cyflwyno sgôr yn seiliedig ar ba mor agos yw delwedd at gapsiwn.
Defnyddiodd y tîm y strategaeth hon yn eu modelau trylediad trwy roi model CLIP yn lle'r dosbarthwr sy'n “arwain” y modelau. Yn y cyfamser, mae canllawiau di-ddosbarthwr yn strategaeth ar gyfer cyfeirio modelau trylediad nad ydynt yn cynnwys hyfforddi dosbarthwr ar wahân.
Pensaernïaeth GLIDE
Mae pensaernïaeth GLIDE yn cynnwys tair cydran: Model Tryledu Abladedig (ADM) sydd wedi'i hyfforddi i gynhyrchu delwedd 64 × 64, model testun (trawsnewidydd) sy'n dylanwadu ar gynhyrchu delwedd trwy anogwr testun, a model uwchsamplu sy'n trosi ein 64 × 64 bach. delweddau i 256 x 256 picsel y gellir eu dehongli.
Mae'r ddwy gydran gyntaf yn gweithio gyda'i gilydd i reoli'r broses cynhyrchu lluniau fel ei bod yn adlewyrchu'r anogwr testun yn briodol, tra bod angen yr olaf i wneud y delweddau a grëwn yn haws i'w deall. Ysbrydolwyd y prosiect GLIDE gan a adroddiad a gyhoeddwyd yn 2021 dangosodd hynny fod technegau ADM yn perfformio'n well na modelau cynhyrchiol o'r radd flaenaf o ran ansawdd sampl lluniau.
Ar gyfer yr ADM, cyflogodd awduron GLIDE yr un model ImageNet 64 x 64 â Dhariwal a Nichol, ond gyda 512 o sianeli yn lle 64. Mae gan fodel ImageNet tua 2.3 biliwn o baramedrau o ganlyniad i hyn.
Roedd tîm GLIDE, yn wahanol i Dhariwal a Nichol, eisiau cael mwy o reolaeth uniongyrchol dros y broses cynhyrchu lluniau, ac felly fe wnaethant gyfuno'r model gweledol â thrawsnewidydd sy'n galluogi sylw. Mae GLIDE yn rhoi rhywfaint o reolaeth i chi dros allbwn y broses cynhyrchu lluniau trwy brosesu'r awgrymiadau mewnbwn testun.
Cyflawnir hyn trwy hyfforddi'r model trawsnewidydd ar set ddata fawr addas o luniau a chapsiynau (yn debyg i'r hyn a ddefnyddir yn y prosiect DALL-E).
Mae'r testun wedi'i amgodio i ddechrau i gyfres o docynnau K er mwyn ei gyflyru. Ar ôl hynny, mae'r tocynnau'n cael eu llwytho i fodel trawsnewidydd. Yna gellir defnyddio allbwn y trawsnewidydd mewn dwy ffordd. Ar gyfer y model ADM, mae'r mewnosod tocyn terfynol yn cael ei ddefnyddio yn lle'r mewnosod dosbarth.
Yn ail, mae haen olaf y mewnosodiadau tocyn - cyfres o fectorau nodwedd - yn cael ei rhagamcanu'n annibynnol i'r dimensiynau ar gyfer pob haen sylw yn y model ADM ac wedi'i chydgadwynu i bob cyd-destun sylw.
Mewn gwirionedd, mae hyn yn galluogi'r model ADM i gynhyrchu llun o gyfuniadau newydd o docynnau testun tebyg mewn modd unigryw a ffotorealistig, yn seiliedig ar ei ddealltwriaeth ddysgedig o'r geiriau mewnbwn a'u delweddau cysylltiedig. Mae'r trawsnewidydd amgodio testun hwn yn cynnwys 1.2 biliwn o baramedrau ac yn cyflogi 24 bloc dros ben gyda lled o 2048.
Yn olaf, mae'r model trylediad upsampler yn cynnwys tua 1.5 biliwn o baramedrau ac yn amrywio o'r model sylfaenol gan fod ei amgodiwr testun yn llai, gyda lled o 1024 a 384 o sianeli sylfaen, o'i gymharu â'r model sylfaenol. Mae'r model hwn, fel y mae'r enw'n nodi, yn helpu i uwchraddio'r sampl er mwyn gwella dehongliad ar gyfer peiriannau a bodau dynol.
Model trylediad
Mae GLIDE yn cynhyrchu delweddau gan ddefnyddio ei fersiwn ei hun o'r ADM (ADM-G ar gyfer “guided”). Mae'r model ADM-G yn addasiad o'r model U-net gwasgariad. Mae model U-net gwasgariad yn wahanol iawn i'r technegau synthesis delwedd mwy cyffredin fel VAE, GAN, a thrawsnewidwyr.
Maent yn adeiladu cadwyn Markov o gamau tryledu i chwistrellu sŵn ar hap yn raddol i'r data, ac yna'n dysgu gwrthdroi'r broses ymlediad ac ailadeiladu'r samplau data gofynnol o'r sŵn yn unig. Mae'n gweithredu mewn dau gam: trylediad ymlaen a gwrthdro.
Mae'r dull tryledu ymlaen, o gael pwynt data o wir ddosbarthiad y sampl, yn ychwanegu swm bach iawn o sŵn i'r sampl dros gyfres o gamau rhagosodedig. Wrth i'r camau gynyddu mewn maint a dull anfeidredd, mae'r sampl yn colli'r holl nodweddion adnabyddadwy ac mae'r dilyniant yn dechrau ymdebygu i gromlin Gaussiaidd isotropig.
Yn ystod y trylediad tuag yn ôl cyfnod, y model trylediad yn dysgu gwrthdroi dylanwad y sŵn ychwanegol ar y lluniau ac arwain y ddelwedd a gynhyrchwyd yn ôl i'w siâp gwreiddiol trwy geisio ymdebygu i'r dosbarthiad sampl mewnbwn gwreiddiol.
Gallai model gorffenedig wneud hynny gyda mewnbwn sŵn Gaussian go iawn ac anogwr. Mae'r dull ADM-G yn amrywio o'r un blaenorol gan fod model, naill ai CLIP neu drawsnewidydd wedi'i deilwra, yn effeithio ar y cyfnod tryledu yn ôl trwy ddefnyddio'r tocynnau anogwr testun sy'n cael eu mewnbynnu.
Galluoedd gleidio
1. Cynhyrchu Delwedd
Mae'n debyg mai'r defnydd mwyaf poblogaidd a chyffredin o GLIDE fydd synthesis delweddau. Er bod y lluniau'n gymedrol a bod GLIDE yn cael anhawster gyda ffurfiau anifeiliaid/dynol, mae'r potensial ar gyfer cynhyrchu delwedd un ergyd bron yn ddiddiwedd.
Gall greu lluniau o anifeiliaid, enwogion, tirweddau, adeiladau, a llawer mwy, a gall ei wneud mewn amrywiaeth o arddulliau celf yn ogystal â llun-realistig. Mae awduron yr ymchwilwyr yn honni bod GLIDE yn gallu dehongli ac addasu amrywiaeth eang o fewnbynnau testunol i fformat gweledol, fel y gwelir yn y samplau isod.
2. Gleidio peintio
Gellir dadlau mai peintio lluniau awtomatig GLIDE yw'r defnydd mwyaf cyfareddol. Gall GLIDE gymryd llun sy'n bodoli eisoes fel mewnbwn, ei brosesu gyda'r anogwr testun mewn golwg ar gyfer lleoliadau y mae angen eu newid, ac yna gwneud addasiadau gweithredol i'r rhannau hynny yn rhwydd.
Rhaid ei ddefnyddio ar y cyd â model golygu, fel SDEdit, i gynhyrchu canlyniadau gwell fyth. Yn y dyfodol, gallai apiau sy'n manteisio ar alluoedd fel y rhain fod yn hanfodol wrth ddatblygu dulliau newid lluniau heb god.
Casgliad
Nawr ein bod ni wedi mynd trwy'r broses, dylech chi ddeall hanfodion sut mae GLIDE yn gweithio, yn ogystal ag ehangder ei alluoedd wrth greu lluniau ac addasu delweddau.
Gadael ymateb