Edukien aurkibidea[Ezkutatu][Erakutsi]
AI berri eta hobetuak gaitasunak, ulermena eta bereizmen handiagoko irudiak sortzeko gaitasuna hobetu ditu. Baliteke azkenaldian interneten dabiltzan irudi arraro eta dibertigarri batzuk topatzea.
Shiba Inu txakur bat txapela eta lepo beltz batekin jantzita dago. Eta itsas igaraba bat, Vermeer margolari holandarraren "Perlazko belarritako neska batekin". Eta hor artilezko munstro baten itxura duen zopa kopa bat dago.
Irudi hauek ez ziren giza artista batek sortu.
Horren ordez, DALL-E 2, testu-deskribapenak irudi bihur ditzakeen AI sistema berri batek sortu zituen.
Idatzi besterik ez duzu ikusi nahi duzuna, eta AI-k sortuko dizu: xehetasun bizietan, kalitate bikainean eta, kasu batzuetan, benetako asmakizunean. Argitalpen honetan, OpenAIren azken azterketari, DALL.E 2, sakon aztertuko dugu, baita nola funtzionatzen duen eta askoz gehiago ere. Has gaitezen.
Beraz, zer da zehazki DALL.E 2?
DALL-E 2 "eredu generatiboa" da, sarrerako datuetan iragarpen edo sailkapen zereginak egin beharrean irteera konplikatuak sortzen dituen ikaskuntza automatikoko algoritmo mota bat.
DALL-E 2ri idatzizko deskribapena ematen diozu, eta horri dagokion irudia sortzen du. Kontzeptuak, kalitateak eta estiloak konbinatuz, OpenAI-ren DALLE 2-k grafiko eta arte berritzaile eta errealistak sor ditzake oinarrizko deskribapen linguistiko batetik.
Azken bertsioa, DALLE 2, polifazetikoagoa dela esaten da, bereizmen handiagoko azpitituluetatik argazkiak egiteko eta sormen estiloen espektro zabalago batean egiteko gai dena. Adibidez, beheko irudiak (DALL-E 2 blogeko argitalpenetik) "Astronauta bat zaldi batean ibiltzen" deskribapenarekin sortu dira.
Deskribapen batek, "arkatz zirriborro bat bezala" ondorioztatzen du, eta besteak, berriz, "modu fotorealista batean".
Lehendik dauden argazkiak ere alda ditzake zehaztasun harrigarriarekin. Beraz, elementuak gehitu edo ezaba ditzakezu koloreak, islak eta itzalak mantenduz, jatorrizko irudiaren itxura mantenduz.
Nola funtzionatzen du?
DALL-E 2k CLIP eta difusio ereduak erabiltzen ditu, bi sofistikatuak ikaskuntza sakona azken urteotan garatutako planteamenduak. Hala ere, beste sakon guztien nozio berean oinarritzen da sare neuronalak: irudikapen ikaskuntza. CLIPek bi entrenatzen ditu aldi berean neural sareak irudi eta epigrafeetan.
Sare batek irudiko irudikapen bisualak ikasten ditu, eta besteak, berriz, testuaren irudikapenak. Prestakuntzan zehar, bi sareak euren parametroak aldatzen saiatzen dira, irudi eta deskribapen konparagarriak antzeko txertaketak sor ditzaten.
"Difusioa", bere entrenamendu-laginak pixkanaka zarata eginez eta zarata kenduz irudiak egiten ikasten duen sorkuntza-eredu mota bat, DALL-E 2-n erabiltzen den beste ikaskuntza automatikoaren ikuspegia da. Difusio-ereduak autokodetzaileen antzekoak dira, sarrerako datuak bihurtzen baitituzte. kapsulatutako irudikapena eta, ondoren, kapsulatzeko informazioa erabili jatorrizko datuak birsortzeko.
OpenAI-ak erabiliz hizkuntza eredua CLIP, testu-deskribapenak argazkiekin lotu ditzakeena, lehenik eta behin idatzitako gonbita itzultzen du irudi batek gonbita horrekin bat etortzeko izan behar dituen propietate erabakigarriak barne hartzen dituena (CLIP-en arabera).
Bigarrenik, DALL-E 2-k CLIP bat datorrena sortzen du irudia difusio-eredu bat erabiliz, hau da, sare neuronal bat da.
Ausazko pixelak dituzten argazki distortsionatuetan, difusio-ereduak ikasten dira. Argazkien jatorrizko forma nola berreskuratu ikasten dute. Hedapen-ereduek kalitate handiko irudi sintetikoak sor ditzakete, batez ere aniztasunari zehaztasuna lehenesten duen ikuspegi gidari batekin batera erabiltzen direnean.
Ondorioz, difusio eredua ausazko pixelak hartzen ditu eta CLIP erabiltzen du gonbita hitzarekin bat datorren irudi berri batean bihurtzeko. Difusio kontzeptua dela eta, DALL-E 2-k bereizmen handiagoko irudiak sor ditzake DALL-Ek baino azkarrago.
DALL.E 2 erabilera kasua
Azken hogei urteotan, Ikusmen informatikoa teknologiak nozio soil izatetik aurrerapen handi batera igaro da. Aurrerapen horiek gorabehera, irudiak eta objektuak ezagutzeko ereduek oraindik oztopo handiak dituzte eguneroko bizitzan. Datu-multzorik eza irudiak ezagutzeko eta ordenagailu bidezko ikusmenaren eragozpen esanguratsuenetako bat da. Bi muturretan datu eskasia dagoenez, irudiak ezagutzeko ereduak ehuneko 100eko emaitza zehatzak emateko trebatzea zaila da.
Zorionez, OpenAI-ren ikasketa automatikoko eredu berriak teknologiaren arteko hutsunea gaindi dezake. DALLE 2 testuen deskribapenetan oinarritutako irudi harrigarriak sortzeko gai da. Irudi faltsuen ekoizpen honek irudiak ezagutzeko ereduei datuak eskain diezazkieke haien eskakizunen arabera. Daturik eza objektuak eta irudiak identifikatzeko oztopo garrantzitsua da.
Aro digitalean, datu-multzoak nonahi daude, baina oraindik AI eredua elikatzeko lasterbideen bila gabiltza, emaitza onak eman ditzan. Hala ere, ez da erraza irudiak ezagutzeko eredu bat trebatzea. Desberdintasun txikiak dituzten datu-multzo ugari behar ditu, agian ezingo genituzke besterik gabe berreskuratu.
Beraz, zein da erantzuna: Erantzuna DALLE 2 da. OpenAI irudi-sorgailuak, testuetatik irudiak sortzeko eta daudenak aldatzeko duen ahalmenarekin, hutsunea gainditzen lagun dezake. Horrek prestakuntza-datu osagarriak sortzen lagunduko du, eta, aldi berean, beharrezkoa den giza etiketa kopurua murrizten du. Onura handia izan arren, iruzurrezko irudien ekoizpenak eta inklusioa baztertzen duten irudien berri izan behar duzu. Horrek irudiak detektatzeko metodoak emaitza alboratuak sor ditzake.
Mugak
DALL.E 2-k eragin kaltegarria izan dezake esku okerretan erortzen bada, OpenAIren arabera. Gaur egungo faltsutze sakonen munduan, eredua erraz erabil liteke informazio faltsua edo irudi arrazistak zabaltzeko, horregatik OpenAI-k garatzaileek DALL.2 gonbidapen bidez soilik erabil dezakete. Ereduak eduki-murrizketa zorrotza bete behar du jasotzen dituen iradokizun guztientzat.
DALL.E 2-k edozein argazki etsai edo bortitza sortzeko ahalmena baztertzeko, datu multzoa inolako arma hilgarririk gabe sortu da. OpenAI-k etorkizunean API bihurtzeko asmoa duela adierazi badu ere, DALL.E 2-ren kasuan, kontu handiz jarraitzeko prest dago.
Ondorioa
DALL-E 2 OpenAI ikerketaren aurkikuntza interesgarri bat da, aplikazio berriei ateak irekitzen dizkiena.
Adibide bat datu multzo masiboak sortzea da ordenagailu bidezko ikusmenaren botila-lepo nagusietako bat betetzeko: datuak. DALL-E-n oinarritutako aplikazio askoren kasu ekonomikoa OpenAIk bere API erabiltzaileentzat ezartzen dituen prezioak eta politikek zehaztuko duten arren, guztiek argazki-ekoizpena aurreratuko dute, dudarik gabe.
Utzi erantzun bat