DALL-E 2 vs Imagen - Íomhánna agus Ealaín Ginte AI

Clár na nÁbhar[Folaigh][Taispeáin]

Cad is giniúint téacs-go-íomhá ann?
Cad é DALLE 2?+-
- Cén chaoi a gcuireann sé Obair?
- Teorainneacha
Cad é Google Imagen AI?+-
- Cén chaoi a gcuireann sé Obair?
Feidhmíocht DALLE 2 vs Imagen
Conclúid

Le blianta beaga anuas, tá samhlacha domhainfhoghlama tar éis éirí níos éifeachtaí chun teanga dhaonna a thuiscint.

Smaoinigh ar thionscadail mar GPT-3, atá in ann ailt agus láithreáin ghréasáin iomlána a chruthú anois. Thug GitHub isteach le déanaí Copilot GitHub, seirbhís a sholáthraíonn gearrthóga cód iomlána ach cur síos a dhéanamh ar an gcineál cód atá uait.

Tá taighdeoirí ag OpenAI, Facebook, agus Google ag obair ar bhealaí chun foghlaim dhomhain a úsáid chun tasc eile a láimhseáil: íomhánna a fhotheidealú. Ag baint úsáide as tacar sonraí mór leis na milliúin iontrálacha, tá siad tar éis teacht suas le roinnt iontas torthaí.

Le déanaí, rinne na taighdeoirí seo iarracht a mhalairt a dhéanamh: íomhánna a chruthú as fotheideal. An bhfuil sé indéanta anois íomhá iomlán nua a chruthú as cur síos?

Scrúdóidh an treoir seo dhá cheann de na samhlacha téacs-go-íomhá is forbartha: DALL-E 2 de chuid OpenAI agus Imagen AI de chuid Google. Tá modhanna úrnua tugtha isteach ag gach ceann de na tionscadail seo a d’fhéadfadh an tsochaí a athrú mar is eol dúinn í.

Ach ar dtús, tuigimid cad atá i gceist againn le giniúint téacs-go-íomhá.

Cad is giniúint téacs-go-íomhá ann?

Samhlacha téacs-go-íomhá ligean do ríomhairí íomhánna nua agus uathúla a chruthú bunaithe ar leideanna. Is féidir le daoine anois cur síos téacs a sholáthar ar íomhá ar mian leo a tháirgeadh, agus déanfaidh an tsamhail iarracht amhairc a chruthú a mheaitseálann an cur síos sin chomh gar agus is féidir.

Tá giaráil déanta ag samhlacha meaisínfhoghlama ar úsáid tacar sonraí móra ina bhfuil péirí fotheideal íomhánna chun feidhmíocht a fheabhsú tuilleadh.

Téacs-go-íomhá is mó úsáideann samhlacha múnla teanga claochladáin leideanna a léirmhíniú. Is samhail é an cineál seo a líonra neodrach a dhéanann iarracht comhthéacs agus brí shéimeantach teanga nádúrtha a fhoghlaim.

Next, samhlacha giniúna ar nós samhlacha idirleathadh agus úsáidtear líonraí sáraíochta giniúna le haghaidh sintéis íomhá.

Cad é DALLE 2?

Cruthaíonn DALL-E 2 íomhánna réalaíocha agus ealaín

DALL-E2 Is samhail ríomhaire é OpenAI a eisíodh i mí Aibreáin 2022. Cuireadh oiliúint ar an tsamhail ar bhunachar sonraí de na milliúin pictiúr lipéadaithe chun focail agus frásaí a cheangal le híomhánna.

Is féidir le húsáideoirí frása simplí a chlóscríobh, mar “cat ag ithe lasagna”, agus ginfidh DALL-E 2 a léirmhíniú féin ar a bhfuil an frása ag iarraidh cur síos a dhéanamh air.

Seachas íomhánna a chruthú ón tús, is féidir le DALL-E 2 íomhánna atá ann cheana a chur in eagar freisin. Sa sampla thíos, bhí DALL-E in ann íomhá modhnaithe de sheomra a ghiniúint le tolg breise.

Is féidir le DALL-E 2 íomhánna atá ann cheana a chur in eagar

Níl ann DALL-E 2 ach ceann amháin den iliomad tionscadal comhchosúil atá eisithe ag OpenAI le blianta beaga anuas. Tháinig GPT-3 de chuid OpenAI chun suntais nuair a ghin sé téacs de stíleanna éagsúla.

Faoi láthair, tá DALL-E 2 fós i dtástáil béite. Is féidir le húsáideoirí ar spéis leo clárú dá gcuid liosta feithimh agus fanacht le rochtain.

Cén chaoi a gcuireann sé Obair?

Cé go bhfuil torthaí DALL-E 2 go hiontach, b'fhéidir go bhfuil tú ag smaoineamh ar conas a oibríonn sé go léir.

Is sampla é DALL-E 2 de chur i bhfeidhm ilmhódach thionscadal GPT-3 OpenAI.

forbhreathnú ar ailtireacht DALL-E 2

Ar dtús, cuirtear leid téacs an úsáideora isteach in ionchódóir téacs a mhapálann an leid chuig spás ionadaíochta. Úsáideann DALL-E 2 samhail OpenAI eile ar a dtugtar CLIP (Réamh-Oiliúint Íomhá Teanga-Chodarsnachta) chun faisnéis shéimeantach a fháil ó theanga nádúrtha.

Ar aghaidh, múnla ar a dtugtar an roimh mapálann an t-ionchódú téacs isteach i ionchódú íomhá. Ba cheart don ionchódú íomhá seo an fhaisnéis shéimeantach a fuarthas sa chéim ionchódaithe téacs a ghabháil.

Chun an íomhá iarbhír a chruthú, úsáideann DALL-E 2 díchódóir íomhá chun amhairc a ghiniúint ag baint úsáide as faisnéis shéimeantach agus sonraí ionchódaithe íomhá. Úsáideann OpenAI leagan modhnaithe den SLEAMHNAIGH múnla chun íomhá a ghiniúint. Braitheann GLIDE ar a samhail idirleathadh chun íomhánna a chruthú.

Mar gheall ar GLIDE a chur leis an tsamhail DALL-E 2 bhí níos mó aschur fótaréalaíoch. Ós rud é go bhfuil an tsamhail GLIDE stochastic nó a chinneadh go randamach, is féidir leis an tsamhail DALL-E 2 éagsúlachtaí a chruthú go héasca tríd an múnla a reáchtáil arís agus arís eile.

Teorainneacha

In ainneoin torthaí iontacha an tsamhail DALL-E 2, tá roinnt teorainneacha fós le sárú.

Téacs Litrithe

cuireann an tsamhail salach ar litriú na bhfocal i gcomharthaí

Léiríonn leideanna a dhéanann iarracht téacs a ghineann DALL-E 2 a dhéanamh go bhfuil deacracht aige focail a litriú. Glacann saineolaithe leis go bhféadfadh sé seo a bheith toisc nach bhfuil eolas litrithe mar chuid den tacar sonraí oiliúna.

Réasúnaíocht Chomhdhéanta

bíonn eiseamláir ag streachailt le rudaí a chur sa spás

Tugann taighdeoirí faoi deara go bhfuil roinnt deacrachtaí fós ag DALL-E 2 le réasúnaíocht chomhdhéanaimh. Go simplí, is féidir leis an tsamhail gnéithe aonair d'íomhá a thuiscint agus é fós i dtrioblóid ag déanamh amach an chaidrimh idir na gnéithe seo.

Mar shampla, má thugtar an leid “ciúb dearg ar bharr ciúb gorm”, ginfidh DALL-E ciúb gorm agus ciúb dearg go cruinn ach ní chuirfidh sé iad i gceart. Tá sé tugtha faoi deara freisin go bhfuil deacracht ag an tsamhail le leideanna a éilíonn go ndéanfaí líon sonrach rudaí a tharraingt amach.

Laofacht sa tacar sonraí

Mura bhfuil aon sonraí eile sa leid, breathnaíodh go léiríonn DALL-E daoine agus timpeallachtaí bána nó an Iarthair. Tarlaíonn an claonadh ionadaíochta seo mar gheall ar fhlúirse na n-íomhánna Iarthar-lárnach sa tacar sonraí.

Tá laofacht inscne ag DALL-E 2

Tá sé tugtha faoi deara freisin go leanann an tsamhail steiréitíopaí inscne. Mar shampla, má chlóscríobhann tú isteach an pras “freastalaí eitilte” is mó a ghineann íomhánna de mhná freastalaithe eitilte.

Cad é Google Imagen AI?

DALL-E 2 vs Imagen - Is fearr litriú agus comhdhéanamh Imagen

Google Íomhá AI Is samhail é a bhfuil sé mar aidhm aige íomhánna fótaréalaíoch a chruthú as téacs ionchuir. Cosúil le DALL-E, úsáideann an tsamhail samhlacha teanga claochladáin freisin chun an téacs a thuiscint agus braitheann sé ar mhúnlaí idirleata a úsáid chun íomhánna ardcháilíochta a chruthú.

In éineacht le Imagen, tá tagarmharc eisithe ag Google freisin le haghaidh samhlacha téacs-go-íomhá ar a dtugtar DrawBench. Agus DrawBench á n-úsáid acu, bhí siad in ann a thabhairt faoi deara gurbh fhearr le rátáileoirí daonna aschur Imagen ná samhlacha eile lena n-áirítear DALL-E 2.

Cén chaoi a gcuireann sé Obair?

Úsáideann imagen samhail idirleata chun obair ardtaifeach a tháirgeadh

Cosúil le DALL-E, tiontaíonn Imagen an leid úsáideora isteach i dtéacs a neadaíonn trí ionchódóir téacs reoite.

Úsáideann Imagen samhail idirleata a fhoghlaimíonn conas patrún torainn a thiontú ina íomhánna. Tá aschur tosaigh na n-íomhánna seo ísealtaifeach agus cuirtear ar aghaidh iad níos déanaí trí mhúnla eile ar a dtugtar múnla idirleata sár-réiteach chun réiteach na híomhá deiridh a mhéadú. Aschuir an chéad mhúnla idirleata íomhá 64 × 64 picteilín agus séidtear suas é go dtí íomhá ardtaifigh 1024 × 1024.

Bunaithe ar thaighde fhoireann Imagen, is ionchódóirí an-éifeachtacha fós iad samhlacha móra teanga reoite a oiltear ar shonraí téacs amháin chun téacs-go-íomhá a ghiniúint.

Tugann an staidéar coincheap na tairsí dinimiciúla isteach freisin. Cuireann an modh seo ar chumas íomhánna a bheith níos fótaréalaíoch trí mheáchain treorach a mhéadú agus an íomhá á giniúint.

Feidhmíocht DALLE 2 vs Imagen

Léiríonn réamhthorthaí ó thagarmharc Google gur fearr le freagróirí daonna íomhánna arna nginiúint ag Imagen thar DALL-E 2 agus samhlacha téacs-go-íomhá eile ar nós Latent Diffusion agus VQGAN+CLIP.

Torthaí DALL-E 2 vs Imagen ag baint úsáide as DrawBench ó Google

Tá sé léirithe ag aschur ó fhoireann Imagen freisin go n-éiríonn lena múnla níos fearr maidir le litriú téacs, laige aitheanta sa tsamhail DALL-E 2.

Mar sin féin, ós rud é nach bhfuil an tsamhail eisithe ag Google don phobal fós, tá sé fós le feiceáil cé chomh cruinn agus atá tagarmharcanna Google.

Conclúid

Tá an t-ardú ar shamhlacha téacs-go-íomhá fótaréadúil conspóideach mar go bhfuil na samhlacha seo aibí le húsáid mhí-eiticiúil.

D’fhéadfadh go gcruthófar ábhar follasach nó mar uirlis dífhaisnéise mar thoradh ar an teicneolaíocht. Tá taighdeoirí ó Google agus OpenAI araon ar an eolas faoi seo, agus is é sin go páirteach an fáth nach bhfuil na teicneolaíochtaí seo inrochtana do gach duine fós.

Tá impleachtaí suntasacha eacnamaíocha ag samhlacha téacs-go-íomhá freisin. An mbeidh tionchar ag gairmeacha ar nós samhlacha, grianghrafadóirí, agus ealaíontóirí má thagann samhlacha ar nós DALL-E chun bheith ina bpríomhshrutha?

Faoi láthair, tá teorainneacha fós ag na samhlacha seo. Má choinnítear aon íomhá a ghintear le AI chun grinnscrúdú, léireofar a neamhfhoirfeachtaí. Agus OpenAI agus Google araon san iomaíocht do na samhlacha is éifeachtaí, d’fhéadfadh go mbeadh sé ina ábhar ama sula ngintear aschur fíor-fhoirfe: íomhá atá do-aitheanta ón rud fíor.

Cad a cheapann tú a tharlóidh nuair a théann an teicneolaíocht chomh fada sin?

DALL-E 2 vs Imagen – Íomhánna agus Ealaín Ginte AI

Cad is giniúint téacs-go-íomhá ann?

Cad é DALLE 2?

Cén chaoi a gcuireann sé Obair?

Teorainneacha

Cad é Google Imagen AI?

Cén chaoi a gcuireann sé Obair?

Feidhmíocht DALLE 2 vs Imagen

Conclúid

Maidir Deion Menor

Tuilleadh alt ar HashDork:

Conas siabhránachtaí a laghdú i do AI

Colossyan vs Heygen

Níl an Nuachtlitir Theicniúil seo sa Todhchaí Tréan

DALL-E 2 vs Imagen – Íomhánna agus Ealaín Ginte AI

Cad is giniúint téacs-go-íomhá ann?

Cad é DALLE 2?

Cén chaoi a gcuireann sé Obair?

Teorainneacha

Cad é Google Imagen AI?

Cén chaoi a gcuireann sé Obair?

Feidhmíocht DALLE 2 vs Imagen

Conclúid

Maidir Deion Menor

Tuilleadh alt ar HashDork:

Conas siabhránachtaí a laghdú i do AI

Na 10 nUirlisí AI is Fearr do na Meáin Shóisialta

Colossyan vs Heygen

10 nUirlis Déantóra Físeáin Beoite AI is Fearr

Idirghníomhaíochtaí Reader

Leave a Reply Cealaigh freagra

Níl an Nuachtlitir Theicniúil seo sa Todhchaí Tréan