Edukien aurkibidea[Ezkutatu][Erakutsi]
Azken urteotan, deep-learning ereduak eraginkorragoak izan dira giza hizkuntza ulertzeko.
Pentsatu horrelako proiektuetan GPT-3, gaur egun artikulu eta webgune osoak sortzeko gai dena. GitHub berriki aurkeztu da GitHub Copilot, behar duzun kode mota deskribatuz kode zati osoak eskaintzen dituen zerbitzua.
OpenAI, Facebook eta Google-ko ikertzaileak beste zeregin bat kudeatzeko deep learning erabiltzeko moduak lantzen aritu dira: irudiak azpitituluak jartzea. Milioika sarrera dituen datu multzo handi bat erabiliz, batzuk asmatu dituzte harrigarria emaitzak.
Azkenaldian, ikertzaile hauek kontrako zeregina egiten saiatu dira: epigrafe batetik irudiak sortzen. Orain posible al da deskribapen batetik irudi guztiz berria sortzea?
Gida honek testutik irudirako eredu aurreratuenetako bi aztertuko ditu: OpenAI-ren DALL-E 2 eta Google-ren Imagen AI. Proiektu horietako bakoitzak ezagutzen dugun gizartea alda dezaketen metodo aitzindariak aurkeztu ditu.
Baina lehenik eta behin, uler dezagun zer esan nahi dugun testutik irudira sortzearekin.
Zer da testutik irudira sortzea?
Testutik irudirako ereduak baimendu ordenagailuei irudi berri eta bereziak sortzeko galderen arabera. Jendeak ekoitzi nahi duen irudi baten testu-deskribapena eman dezake orain, eta eredua deskribapen horrekin ahalik eta gehien bat datorren ikus-entzunezko bat sortzen saiatuko da.
Ikaskuntza automatikoko ereduek irudi-oinen bikoteak dituzten datu multzo handien erabilera baliatu dute errendimendua gehiago hobetzeko.
Gehienak testutik irudira ereduek hizkuntza eredu transformatzailea erabiltzen dute eskaerak interpretatzeko. Eredu mota hau a sare neural hizkuntza naturalaren testuingurua eta esanahi semantikoa ikasten saiatzen dena.
Ondoren, eredu sortzaileak, esaterako difusio ereduak eta sormenezko sareak erabiltzen dira irudien sintesirako.
Zer da DALLE 2?
DALL-E2 2022ko apirilean kaleratu zen OpenAI-ren ordenagailu-eredu bat da. Eredua etiketatutako milioika irudiz osatutako datu-base batean trebatu zen, hitzak eta esaldiak irudiekin lotzeko.
Erabiltzaileek esaldi sinple bat idatzi dezakete, esate baterako, "katu bat lasagna jaten", eta DALL-E 2-k esaldia deskribatzen saiatzen ari denaren interpretazio propioa sortuko du.
Irudiak hutsetik sortzeaz gain, DALL-E 2 lehendik dauden irudiak ere edita ditzake. Beheko adibidean, DALL-E-k sofa gehigarri batekin gela baten irudi aldatu bat sortzeko gai izan zen.
DALL-E 2 OpenAIk azken urteotan kaleratu dituen antzeko proiektuetako bat besterik ez da. OpenAI-ren GPT-3 estilo ezberdinetako testuak sortzen zituela zirudien albiste-gai bihurtu zen.
Une honetan, DALL-E 2 beta proban dago oraindik. Interesa duten erabiltzaileek beren izena eman dezakete itxarote zerrenda eta itxaron sarbidea.
Nola funtzionatzen du?
DALL-E 2-ren emaitzak ikusgarriak diren arren, dena nola funtzionatzen duen galdetzen ari zara.
DALL-E 2 OpenAIren GPT-3 proiektuaren inplementazio multimodalaren adibide bat da.
Lehenik eta behin, erabiltzailearen testu-gonbita irudikapen-espazio batera mapatzen duen testu-kodetzaile batean jartzen da. DALL-E 2k CLIP ( Contrastive Language-Image Pre-Training ) izeneko OpenAI eredu bat erabiltzen du hizkuntza naturaletik informazio semantikoa lortzeko.
Jarraian, izeneko eredu bat aldez aurretik testu-kodeketa irudi-kodeketa batean mapatzen du. Irudi kodetze honek testua kodetzeko urratsean aurkitutako informazio semantikoa jaso beharko luke.
Benetako irudia sortzeko, DALL-E 2-k irudi deskodetzaile bat erabiltzen du informazio semantikoa eta irudiak kodetzeko xehetasunak erabiliz bisual bat sortzeko. OpenAI-ren bertsio aldatua erabiltzen du BISA irudiak sortzeko eredua. GLIDE a-n oinarritzen da difusio eredua irudiak sortzeko.
DALL-E 2 modeloari GLIDE gehitzeak irteera fotorealistagoa ahalbidetu zuen. GLIDE eredua estokastikoa edo ausaz zehazten denez, DALL-E 2 ereduak erraz sor ditzake aldaerak eredua behin eta berriro exekutatzen baduzu.
Mugak
DALL-E 2 modeloaren emaitza ikusgarriak izan arren, oraindik muga batzuk ditu.
Testu ortografikoa
DALL-E 2 testua sortzen saiatzen diren galderek agerian uzten dute hitzak idazteko zailtasunak dituela. Adituek uste dute hori izan daitekeela informazio ortografikoa ez dagoelako prestakuntza-datu multzoa.
Konposizio-arrazoimena
Ikertzaileek ikusten dute DALL-E 2-k oraindik zailtasun batzuk dituela konposizio-arrazoimenduarekin. Besterik gabe, ereduak irudi baten alderdi indibidualak uler ditzake, alderdi horien arteko erlazioak zehazteko arazoak dituen bitartean.
Adibidez, "kubo gorria kubo urdin baten gainean" gonbita ematen bazaio, DALL-E-k kubo urdin bat eta kubo gorri bat sortuko ditu zehaztasunez, baina ez ditu behar bezala jartzen. Era berean, ikusi da ereduak zailtasunak dituela objektu kopuru zehatz bat ateratzea eskatzen duten galderekin.
Alborapena datu multzoan
Galderak beste xehetasunik ez badu, DALL-E-k pertsona eta ingurune zuriak edo mendebaldekoak irudikatzen dituela ikusi da. Irudikapen-alborapen hori datu-multzoan Mendebaldeko irudien ugaritasunagatik gertatzen da.
Ereduak genero estereotipoak jarraitzen dituela ere ikusi da. Esaterako, "hegazkin-laguntzailea" gonbita idazteak batez ere emakumezko hegazkinen irudiak sortzen ditu.
Zer da Google Imagen AI?
Google-en Irudi AI sarrerako testutik irudi fotoerrealistak sortzea helburu duen eredua da. DALL-E-ren antzera, ereduak hizkuntza transformatzaileen ereduak ere erabiltzen ditu testua ulertzeko eta difusio ereduen erabileran oinarritzen da kalitate handiko irudiak sortzeko.
Imagen-ekin batera, Googlek DrawBench izeneko testutik irudirako ereduen erreferentzia bat ere kaleratu du. DrawBench erabiliz, giza ebaluatzaileek Imagen irteera nahiago zutela ikusi ahal izan zuten DALL-E 2 barne beste modelo batzuen aldean.
Nola funtzionatzen du?
DALL-E-ren antzera, Imagen-ek lehenik erabiltzailearen gonbita testu txertatze batean bihurtzen du izoztutako testu-kodetzaile baten bidez.
Imagen-ek difusio-eredu bat erabiltzen du, zarata eredu bat irudi bihurtzen ikasten duena. Irudi hauen hasierako irteera bereizmen baxua da eta, gero, super-resoluzio difusio-eredu gisa ezagutzen den beste eredu batetik pasatzen dira, azken irudiaren bereizmena handitzeko. Lehen difusio-ereduak 64 × 64 pixeleko irudia ateratzen du eta geroago 1024 × 1024 bereizmen handiko irudi batera igotzen da.
Imagen taldearen ikerketetan oinarrituta, testu-datuetan soilik trebatutako izoztutako hizkuntza-eredu handiak testu-kodetzaile oso eraginkorrak dira oraindik testutik irudira sortzeko.
Azterketak atalase dinamikoaren kontzeptua ere sartzen du. Metodo honi esker, irudiak fotorealistago agertzea ahalbidetzen du orientazio-pisuak handituz, irudia sortzerakoan.
DALLE 2 vs Imagen-en emanaldia
Google-ren erreferentziaren aurretiazko emaitzek erakusten dute gizakiek inkestatuek Imagen-ek sortutako irudiak DALL-E 2 eta testutik irudirako beste eredu batzuen aldean, Latent Diffusion eta VQGAN+CLIP bezalakoak baino.
Imagen taldearen irteerak ere erakutsi du bere ereduak hobeto funtzionatzen duela testuaren ortografian, DALL-E 2 ereduaren ahultasun ezaguna.
Hala ere, Google-k oraindik eredua jendaurrera zabaldu ez duenez, oraindik ikusi beharko da Google-ren erreferenteak zein zehatzak diren.
Ondorioa
Testutik irudirako eredu fotorealistaren gorakada eztabaidagarria da, eredu horiek erabilera ez-etikoa izateko helduak daudelako.
Teknologiak eduki esplizituak sor ditzake edo desinformaziorako tresna gisa. Google zein OpenAIko ikertzaileak badakite horretaz, eta horregatik, neurri batean, teknologia hauek oraindik ez dira guztion eskura.
Testutik irudirako ereduek ere ondorio ekonomiko handiak dituzte. Modelo, argazkilari eta artisten lanbideei eragingo al zaie DALL-E bezalako modeloak nagusi bihurtzen badira?
Momentuz, eredu hauek mugak dituzte oraindik. AI-k sortutako edozein irudi aztertzen edukitzeak bere akatsak agerian utziko ditu. OpenAI eta Google eredu eraginkorrenen lehian daudenez, denbora kontua izan daiteke benetako irteera perfektua sortzea: benetakoarengandik bereiztezina den irudia.
Zer uste duzu gertatuko dela teknologia hain urrutira doanean?
Utzi erantzun bat