Le blianta beaga anuas, tá samhlacha domhainfhoghlama tar éis éirí níos éifeachtaí chun teanga dhaonna a thuiscint.
Smaoinigh ar thionscadail mar GPT-3, atá in ann ailt agus láithreáin ghréasáin iomlána a chruthú anois. Thug GitHub isteach le déanaí Copilot GitHub, seirbhís a sholáthraíonn gearrthóga cód iomlána ach cur síos a dhéanamh ar an gcineál cód atá uait.
Tá taighdeoirí ag OpenAI, Facebook, agus Google ag obair ar bhealaí chun foghlaim dhomhain a úsáid chun tasc eile a láimhseáil: íomhánna a fhotheidealú. Ag baint úsáide as tacar sonraí mór leis na milliúin iontrálacha, tá siad tar éis teacht suas le roinnt iontas torthaí.
Le déanaí, rinne na taighdeoirí seo iarracht a mhalairt a dhéanamh: íomhánna a chruthú as fotheideal. An bhfuil sé indéanta anois íomhá iomlán nua a chruthú as cur síos?
Scrúdóidh an treoir seo dhá cheann de na samhlacha téacs-go-íomhá is forbartha: DALL-E 2 de chuid OpenAI agus Imagen AI de chuid Google. Tá modhanna úrnua tugtha isteach ag gach ceann de na tionscadail seo a d’fhéadfadh an tsochaí a athrú mar is eol dúinn í.
Ach ar dtús, tuigimid cad atá i gceist againn le giniúint téacs-go-íomhá.
Cad is giniúint téacs-go-íomhá ann?
Samhlacha téacs-go-íomhá ligean do ríomhairí íomhánna nua agus uathúla a chruthú bunaithe ar leideanna. Is féidir le daoine anois cur síos téacs a sholáthar ar íomhá ar mian leo a tháirgeadh, agus déanfaidh an tsamhail iarracht amhairc a chruthú a mheaitseálann an cur síos sin chomh gar agus is féidir.
Tá giaráil déanta ag samhlacha meaisínfhoghlama ar úsáid tacar sonraí móra ina bhfuil péirí fotheideal íomhánna chun feidhmíocht a fheabhsú tuilleadh.
Téacs-go-íomhá is mó úsáideann samhlacha múnla teanga claochladáin leideanna a léirmhíniú. Is samhail é an cineál seo a líonra neodrach a dhéanann iarracht comhthéacs agus brí shéimeantach teanga nádúrtha a fhoghlaim.
Next, samhlacha giniúna ar nós samhlacha idirleathadh agus úsáidtear líonraí sáraíochta giniúna le haghaidh sintéis íomhá.
Cad é DALLE 2?
DALL-E2 Is samhail ríomhaire é OpenAI a eisíodh i mí Aibreáin 2022. Cuireadh oiliúint ar an tsamhail ar bhunachar sonraí de na milliúin pictiúr lipéadaithe chun focail agus frásaí a cheangal le híomhánna.
Is féidir le húsáideoirí frása simplí a chlóscríobh, mar “cat ag ithe lasagna”, agus ginfidh DALL-E 2 a léirmhíniú féin ar a bhfuil an frása ag iarraidh cur síos a dhéanamh air.
Seachas íomhánna a chruthú ón tús, is féidir le DALL-E 2 íomhánna atá ann cheana a chur in eagar freisin. Sa sampla thíos, bhí DALL-E in ann íomhá modhnaithe de sheomra a ghiniúint le tolg breise.
Níl ann DALL-E 2 ach ceann amháin den iliomad tionscadal comhchosúil atá eisithe ag OpenAI le blianta beaga anuas. Tháinig GPT-3 de chuid OpenAI chun suntais nuair a ghin sé téacs de stíleanna éagsúla.
Faoi láthair, tá DALL-E 2 fós i dtástáil béite. Is féidir le húsáideoirí ar spéis leo clárú dá gcuid liosta feithimh agus fanacht le rochtain.
Cén chaoi a gcuireann sé Obair?
Cé go bhfuil torthaí DALL-E 2 go hiontach, b'fhéidir go bhfuil tú ag smaoineamh ar conas a oibríonn sé go léir.
Is sampla é DALL-E 2 de chur i bhfeidhm ilmhódach thionscadal GPT-3 OpenAI.
Ar dtús, cuirtear leid téacs an úsáideora isteach in ionchódóir téacs a mhapálann an leid chuig spás ionadaíochta. Úsáideann DALL-E 2 samhail OpenAI eile ar a dtugtar CLIP (Réamh-Oiliúint Íomhá Teanga-Chodarsnachta) chun faisnéis shéimeantach a fháil ó theanga nádúrtha.
Ar aghaidh, múnla ar a dtugtar an roimh mapálann an t-ionchódú téacs isteach i ionchódú íomhá. Ba cheart don ionchódú íomhá seo an fhaisnéis shéimeantach a fuarthas sa chéim ionchódaithe téacs a ghabháil.
Chun an íomhá iarbhír a chruthú, úsáideann DALL-E 2 díchódóir íomhá chun amhairc a ghiniúint ag baint úsáide as faisnéis shéimeantach agus sonraí ionchódaithe íomhá. Úsáideann OpenAI leagan modhnaithe den SLEAMHNAIGH múnla chun íomhá a ghiniúint. Braitheann GLIDE ar a samhail idirleathadh chun íomhánna a chruthú.
Mar gheall ar GLIDE a chur leis an tsamhail DALL-E 2 bhí níos mó aschur fótaréalaíoch. Ós rud é go bhfuil an tsamhail GLIDE stochastic nó a chinneadh go randamach, is féidir leis an tsamhail DALL-E 2 éagsúlachtaí a chruthú go héasca tríd an múnla a reáchtáil arís agus arís eile.
Teorainneacha
In ainneoin torthaí iontacha an tsamhail DALL-E 2, tá roinnt teorainneacha fós le sárú.
Téacs Litrithe
Léiríonn leideanna a dhéanann iarracht téacs a ghineann DALL-E 2 a dhéanamh go bhfuil deacracht aige focail a litriú. Glacann saineolaithe leis go bhféadfadh sé seo a bheith toisc nach bhfuil eolas litrithe mar chuid den tacar sonraí oiliúna.
Réasúnaíocht Chomhdhéanta
Tugann taighdeoirí faoi deara go bhfuil roinnt deacrachtaí fós ag DALL-E 2 le réasúnaíocht chomhdhéanaimh. Go simplí, is féidir leis an tsamhail gnéithe aonair d'íomhá a thuiscint agus é fós i dtrioblóid ag déanamh amach an chaidrimh idir na gnéithe seo.
Mar shampla, má thugtar an leid “ciúb dearg ar bharr ciúb gorm”, ginfidh DALL-E ciúb gorm agus ciúb dearg go cruinn ach ní chuirfidh sé iad i gceart. Tá sé tugtha faoi deara freisin go bhfuil deacracht ag an tsamhail le leideanna a éilíonn go ndéanfaí líon sonrach rudaí a tharraingt amach.
Laofacht sa tacar sonraí
Mura bhfuil aon sonraí eile sa leid, breathnaíodh go léiríonn DALL-E daoine agus timpeallachtaí bána nó an Iarthair. Tarlaíonn an claonadh ionadaíochta seo mar gheall ar fhlúirse na n-íomhánna Iarthar-lárnach sa tacar sonraí.
Tá sé tugtha faoi deara freisin go leanann an tsamhail steiréitíopaí inscne. Mar shampla, má chlóscríobhann tú isteach an pras “freastalaí eitilte” is mó a ghineann íomhánna de mhná freastalaithe eitilte.
Cad é Google Imagen AI?
Google Íomhá AI Is samhail é a bhfuil sé mar aidhm aige íomhánna fótaréalaíoch a chruthú as téacs ionchuir. Cosúil le DALL-E, úsáideann an tsamhail samhlacha teanga claochladáin freisin chun an téacs a thuiscint agus braitheann sé ar mhúnlaí idirleata a úsáid chun íomhánna ardcháilíochta a chruthú.
In éineacht le Imagen, tá tagarmharc eisithe ag Google freisin le haghaidh samhlacha téacs-go-íomhá ar a dtugtar DrawBench. Agus DrawBench á n-úsáid acu, bhí siad in ann a thabhairt faoi deara gurbh fhearr le rátáileoirí daonna aschur Imagen ná samhlacha eile lena n-áirítear DALL-E 2.
Cén chaoi a gcuireann sé Obair?
Cosúil le DALL-E, tiontaíonn Imagen an leid úsáideora isteach i dtéacs a neadaíonn trí ionchódóir téacs reoite.
Úsáideann Imagen samhail idirleata a fhoghlaimíonn conas patrún torainn a thiontú ina íomhánna. Tá aschur tosaigh na n-íomhánna seo ísealtaifeach agus cuirtear ar aghaidh iad níos déanaí trí mhúnla eile ar a dtugtar múnla idirleata sár-réiteach chun réiteach na híomhá deiridh a mhéadú. Aschuir an chéad mhúnla idirleata íomhá 64 × 64 picteilín agus séidtear suas é go dtí íomhá ardtaifigh 1024 × 1024.
Bunaithe ar thaighde fhoireann Imagen, is ionchódóirí an-éifeachtacha fós iad samhlacha móra teanga reoite a oiltear ar shonraí téacs amháin chun téacs-go-íomhá a ghiniúint.
Tugann an staidéar coincheap na tairsí dinimiciúla isteach freisin. Cuireann an modh seo ar chumas íomhánna a bheith níos fótaréalaíoch trí mheáchain treorach a mhéadú agus an íomhá á giniúint.
Feidhmíocht DALLE 2 vs Imagen
Léiríonn réamhthorthaí ó thagarmharc Google gur fearr le freagróirí daonna íomhánna arna nginiúint ag Imagen thar DALL-E 2 agus samhlacha téacs-go-íomhá eile ar nós Latent Diffusion agus VQGAN+CLIP.
Tá sé léirithe ag aschur ó fhoireann Imagen freisin go n-éiríonn lena múnla níos fearr maidir le litriú téacs, laige aitheanta sa tsamhail DALL-E 2.
Mar sin féin, ós rud é nach bhfuil an tsamhail eisithe ag Google don phobal fós, tá sé fós le feiceáil cé chomh cruinn agus atá tagarmharcanna Google.
Conclúid
Tá an t-ardú ar shamhlacha téacs-go-íomhá fótaréadúil conspóideach mar go bhfuil na samhlacha seo aibí le húsáid mhí-eiticiúil.
D’fhéadfadh go gcruthófar ábhar follasach nó mar uirlis dífhaisnéise mar thoradh ar an teicneolaíocht. Tá taighdeoirí ó Google agus OpenAI araon ar an eolas faoi seo, agus is é sin go páirteach an fáth nach bhfuil na teicneolaíochtaí seo inrochtana do gach duine fós.
Tá impleachtaí suntasacha eacnamaíocha ag samhlacha téacs-go-íomhá freisin. An mbeidh tionchar ag gairmeacha ar nós samhlacha, grianghrafadóirí, agus ealaíontóirí má thagann samhlacha ar nós DALL-E chun bheith ina bpríomhshrutha?
Faoi láthair, tá teorainneacha fós ag na samhlacha seo. Má choinnítear aon íomhá a ghintear le AI chun grinnscrúdú, léireofar a neamhfhoirfeachtaí. Agus OpenAI agus Google araon san iomaíocht do na samhlacha is éifeachtaí, d’fhéadfadh go mbeadh sé ina ábhar ama sula ngintear aschur fíor-fhoirfe: íomhá atá do-aitheanta ón rud fíor.
Cad a cheapann tú a tharlóidh nuair a théann an teicneolaíocht chomh fada sin?
Leave a Reply