Clár na nÁbhar[Folaigh][Taispeáin]
Is dóichí go dtuigeann tú gur féidir le ríomhaire cur síos a dhéanamh ar phictiúr.
Mar shampla, is féidir pictiúr de mhadra ag imirt le do leanaí a aistriú mar 'madra agus leanaí sa ghairdín.' Ach an raibh a fhios agat go bhfuil a mhalairt ar fad indéanta anois freisin? Clóscríobhann tú roinnt focal, agus gineann an meaisín pictiúr nua.
Murab ionann agus cuardach Google, a chuardaíonn grianghraif atá ann cheana féin, tá sé seo úr ar fad. Le blianta beaga anuas, tá OpenAI ar cheann de na heagraíochtaí is mó le rá, ag tuairisciú torthaí iontacha.
Cuireann siad oiliúint ar a gcuid halgartaim ar bhunachair shonraí ollmhóra téacs agus pictiúr. D’fhoilsigh siad páipéar ar a samhail íomhá GLIDE, a cuireadh oiliúint ar na céadta milliún grianghraf. Maidir le fótaréalachas, sáraíonn sé an tsamhail 'DALL-E' a bhí acu roimhe seo.
Sa phost seo, breathnóidh muid ar GLIDE de chuid OpenAI, ceann de roinnt tionscnamh thar a bheith suimiúil atá dírithe ar phictiúir fótaréadúla a tháirgeadh agus a athrú le samhlacha idirleata téacs-threoraithe. Tosaímid.
Cad é Oscail AI Glide?
Cé gur féidir cur síos a dhéanamh ar fhormhór na n-íomhánna i bhfocail, teastaíonn saineolas agus cuid mhór ama chun íomhánna a chruthú ó ionchuir téacs.
Ní hamháin go gceadaítear do dhaoine ábhar amhairc saibhir agus éagsúil a chruthú gan fasach ach freisin le mionchoigeartú atriallach níos simplí agus le rialú mín a dhéanamh ar na híomhánna a chruthaítear má ligeann do ghníomhaire AI pictiúir fótaréalaíoch a tháirgeadh ó leideanna teanga nádúrtha.
Is féidir GLIDE a úsáid chun grianghraif atá ann cheana a chur in eagar trí leideanna téacs teanga nádúrtha a úsáid chun rudaí nua a chur isteach, scáthanna agus frithchaitheamh a chruthú, a dhéanamh péinteáil íomhá, Agus mar sin de.
Féadann sé líníochtaí bunlíne a iompú ina ngrianghraif fótaréalacha freisin, agus tá cumas déantúsaíochta agus deisiúcháin samplaí nialasach aige le haghaidh cásanna casta.
Tá sé léirithe ag taighde le déanaí gur féidir le samhlacha idirleata bunaithe ar chosúlacht pictiúir shintéiseacha ardcháilíochta a tháirgeadh, go háirithe nuair a chuirtear iad le cur chuige treorach a chothromaíonn éagsúlacht agus dílseacht.
D’fhoilsigh OpenAI a samhail idirleathadh treoraithe i mí na Bealtaine, rud a fhágann gur féidir samhlacha idirleata a bheith coinníollach ar lipéid aicmitheora. Feabhsaíonn GLIDE an rath seo trí idirleathadh treoraithe a thabhairt chuig an bhfadhb a bhaineann le híomhánna téacs-choinníollach a chruthú.
Tar éis oiliúint a dhéanamh ar mhúnla idirleata GLIDE 3.5 billiún paraiméadar ag baint úsáide as ionchódóir téacs chun coinníoll a dhéanamh ar thuairiscí teanga nádúrtha, rinne na taighdeoirí tástáil ar dhá straitéis treorach eile: treoir CLIP agus treoir saor ó aicmitheora.
Teicníc inscálaithe is ea CLIP chun comhléiriúcháin téacs agus pictiúir a fhoghlaim a sheachadann scór bunaithe ar chomh gar agus atá íomhá d’fhotheideal.
D’úsáid an fhoireann an straitéis seo ina gcuid samhlacha idirleata trí mhúnla CLIP a “treoraíonn” na múnlaí a chur in ionad an aicmitheora. Idir an dá linn, is straitéis é treoir saor ó aicmitheora chun samhlacha idirleata a threorú nach mbaineann oiliúint aicmitheora ar leith leo.
Ailtireacht GLIDE
Tá trí chomhpháirt in ailtireacht GLIDE: Samhail Idirleata Ablated (ADM) atá oilte chun íomhá 64 × 64 a ghiniúint, múnla téacs (claochladán) a mbíonn tionchar aige ar ghiniúint íomhá trí leid téacs, agus samhail upsampling a athraíonn ár n-íomhá beag 64 × 64. íomhánna 256 x 256 picteilín níos soléirmhínithe.
Oibríonn an chéad dá chomhpháirt le chéile chun an próiseas giniúna pictiúr a rialú ionas go léiríonn sé go cuí an leid téacs, agus tá an dara ceann ag teastáil chun na híomhánna a chruthaímid a dhéanamh níos éasca a thuiscint. Spreag an tionscadal GLIDE a tuarascáil a foilsíodh in 2021 a léirigh gur sháraigh teicnící ADM na samhlacha giniúna úrscothacha a bhfuil tóir orthu faoi láthair i dtéarmaí cáilíochta sampla pictiúr.
Maidir leis an ADM, d'fhostaigh údair GLIDE an tsamhail ImageNet 64 x 64 céanna le Dhariwal agus Nichol, ach le 512 cainéal in ionad 64. Tá thart ar 2.3 billiún paraiméadair ag an tsamhail ImageNet mar thoradh air seo.
Ba mhian le foireann GLIDE, murab ionann agus Dhariwal agus Nichol, go mbeadh smacht díreach níos mó acu ar an bpróiseas ginte pictiúr, agus mar sin chuir siad an tsamhail amhairc le chéile le claochladán aird-chumasaithe. Tugann GLIDE roinnt smachta duit ar aschur an phróisis giniúna pictiúr trí leideanna ionchuir téacs a phróiseáil.
Baintear é seo amach trí mhúnla an claochladáin a oiliúint ar thacar sonraí mór de ghrianghraif agus de fhotheidil (cosúil leis an gceann a úsáidtear sa tionscadal DALL-E).
Ionchódaítear an téacs i sraith comharthaí K ar dtús chun é a riochtú. Tar éis sin, luchtaítear na comharthaí isteach i múnla claochladáin. Is féidir aschur an claochladáin a úsáid ansin ar dhá bhealach. Maidir leis an tsamhail ADM, baintear úsáid as an leabú comhartha deiridh in ionad leabú an ranga.
Ar an dara dul síos, déantar ciseal deiridh an leabaithe chomharthaí – sraith veicteoirí gné – a réamh-mheasta go neamhspleách de réir na dtoisí do gach ciseal aird sa tsamhail ADM agus comhghaolaithe do gach comhthéacs aird.
I ndáiríre, cuireann sé seo ar chumas an tsamhail ADM pictiúr a tháirgeadh ó theaglaim nua de chomharthaí téacs comhchosúla ar bhealach uathúil agus fótaréalaíoch, bunaithe ar an tuiscint atá foghlamtha aige ar na focail ionchuir agus ar na híomhánna a bhaineann leo. Tá 1.2 billiún paraiméadair sa chlaochladán ionchódaithe téacs seo agus fostaíonn sé 24 bloc fágtha le leithead 2048.
Mar fhocal scoir, cuimsíonn an tsamhail idirleathadh upsampler thart ar 1.5 billiún paraiméadair agus athraíonn sé ón múnla bunúsach sa mhéid is go bhfuil a ionchódóir téacs níos lú, le leithead 1024 agus 384 cainéal bonn, i gcomparáid leis an múnla bonn. Cuidíonn an tsamhail seo, mar a léiríonn an t-ainm, le huasghrádú an tsampla chun inléirmhíniú a fheabhsú do mheaisíní agus do dhaoine araon.
Múnla idirleathadh
Gineann GLIDE íomhánna ag baint úsáide as a leagan féin den ADM (ADM-G le haghaidh “treoraithe”). Is modhnú ar an tsamhail U-net idirleata é an tsamhail ADM-G. Tá difríocht mhór idir samhail U-net idirleata agus na teicnící sintéise íomhá níos coitianta mar VAE, GAN, agus claochladáin.
Tógann siad slabhra Markov de chéimeanna idirleata chun torann randamach a instealladh de réir a chéile isteach sna sonraí, agus ansin foghlaimíonn siad conas an próiseas idirleata a aisiompú agus na samplaí sonraí riachtanacha a atógáil ón torann amháin. Feidhmíonn sé in dhá chéim: idirleathadh ar aghaidh agus droim ar ais.
Cuireann an modh idirleathadh chun tosaigh, nuair a thugtar pointe sonraí ó fhíordháileadh an tsampla, méid beag torainn leis an sampla thar shraith céimeanna réamhshocraithe. De réir mar a mhéadaíonn na céimeanna i méid agus cur chuige Infinity, cailleann an sampla gach tréithe inaitheanta agus tosaíonn an seicheamh a bheith cosúil le cuar Gaussach isotrópach.
Le linn an idirleathadh ar gcúl chéim, an tsamhail idirleata foghlaimíonn sé conas tionchar an torainn bhreise ar na pictiúir a aisiompú agus an íomhá a tháirgtear a threorú ar ais chuig a cruth bunaidh trí iarracht a dhéanamh a bheith cosúil leis an dáileadh samplach ionchuir bunaidh.
D’fhéadfadh múnla críochnaithe é sin a dhéanamh le fíor-ionchur torainn Gaussach agus leid. Ní hionann an modh ADM-G agus an modh roimhe seo sa mhéid is go mbíonn tionchar ag samhail, CLIP nó claochladán saincheaptha, ar an gcéim idirleata ar gcúl trí úsáid a bhaint as na comharthaí leide téacs a chuirtear isteach.
Cumais glide
1. Giniúint Íomhá
Is dócha gurb é an úsáid is coitianta agus a úsáidtear go forleathan de GLIDE ná sintéis íomhá. Cé go bhfuil na pictiúir measartha agus go bhfuil deacracht ag GLIDE le foirmeacha ainmhíoch/daonna, tá an poitéinseal do tháirgeadh aon-shot íomhá beagnach gan teorainn.
Is féidir leis grianghraif d'ainmhithe, daoine cáiliúla, tírdhreacha, foirgnimh, agus i bhfad níos mó a chruthú, agus is féidir é a dhéanamh i stíleanna ealaíne éagsúla chomh maith le grianghraf-réalaíoch. Dearbhaíonn údair na dtaighdeoirí go bhfuil GLIDE in ann raon leathan ionchuir téacsúla a léirmhíniú agus a oiriúnú i bhformáid amhairc, mar a fheictear sna samplaí thíos.
2. Glide inpainting
D'fhéadfaí a áitiú gurb í péinteáil uathoibríoch ghrianghraf GLIDE an úsáid is suimiúla. Is féidir le GLIDE pictiúr atá ann cheana a ghlacadh mar ionchur, é a phróiseáil agus an téacs leid san áireamh le haghaidh láithreacha ar gá iad a athrú, agus ansin mionathruithe gníomhacha a dhéanamh ar na codanna sin gan stró.
Ní mór é a úsáid in éineacht le múnla eagarthóireachta, mar SDEdit, chun torthaí níos fearr fós a bhaint amach. Sa todhchaí, d'fhéadfadh go mbeadh feidhmchláir a bhaineann leas as cumais mar seo ríthábhachtach chun cur chuige saor ó chód a fhorbairt chun pictiúir a athrú.
Conclúid
Anois go bhfuilimid imithe tríd an bpróiseas, ba cheart duit na bunghnéithe a bhaineann le conas a oibríonn GLIDE a thuiscint, chomh maith le fairsinge a chumais i gcruthú pictiúr agus i modhnú in-íomhá.
Leave a Reply