Litekeena da AI sortzailearen iraultza berri baten hasieran gaudela.
Adimen artifizial sortzailea edukiak sortzeko gai diren algoritmo eta ereduei egiten die erreferentzia. Eredu horien irteerak testua, audioa eta irudiak biltzen ditu, askotan gizakiaren benetako irteera gisa nahas daitezkeenak.
Bezalako aplikazioak Txateatu GPT AI sortzailea berritasun hutsa ez dela erakutsi dute. AI orain argibide zehatzak jarraitzeko gai da eta munduak nola funtzionatzen duen ulertzen sakona duela dirudi.
Baina nola iritsi gara puntu honetara? Gida honetan, AIaren sorkuntza-iraultza berri eta zirraragarri honetarako bidea ireki duten AIaren ikerketaren aurrerapen gako batzuk ezagutuko ditugu.
Sare neuronalen gorakada
AI modernoaren jatorria ikertu dezakezu ikaskuntza sakona eta neurona-sareak 2012.
Urte horretan, Alex Krizhevsky eta Torontoko Unibertsitateko bere taldeak objektuak sailkatu ditzakeen algoritmo oso zehatza lortu zuten.
The punta-puntako sare neuronalak, gaur egun AlexNet bezala ezagutzen dena, objektuak sailkatu ahal izan zituen ImageNet datu-base bisualean, bigarren sailkatuak baino errore-tasa askoz txikiagoarekin.
Neurona sareak entrenamendu-datu batzuetan oinarrituta portaera jakin bat ikasteko funtzio matematikoen sare bat erabiltzen duten algoritmoak dira. Adibidez, sare neuronaleko datu medikoak elikatu ditzakezu eredua minbizia bezalako gaixotasun bat diagnostikatzeko entrenatzeko.
Itxaropena da sare neuronalak poliki-poliki datuetan ereduak aurkitzea eta datu berriak ematen direnean zehatzagoa izatea.
AlexNet aplikazioaren aurrerapen bat izan zen sare neuronal konvolutiboa edo CNNak. "Konboluzionala" gako-hitzak geruza konboluzionalak gehitzeari egiten dio erreferentzia, elkarrengandik hurbilago dauden datuetan arreta gehiago jartzen dutenak.
1980ko hamarkadan CNNak ideia bat ziren arren, 2010eko hamarkadaren hasieran bakarrik hasi ziren ospea irabazten, azken GPU teknologiak teknologia maila berrietara bultzatu zuenean.
CNNen arrakasta alorrean Ikusmen informatikoa sare neuronalak ikertzeko interes handiagoa eragin zuen.
Google eta Facebook bezalako erraldoi teknologikoek beren AI esparruak jendaurrean zabaltzea erabaki zuten. Goi-mailako APIak, esaterako Keras erabiltzaileei interfaze atsegina eman zien sare neuronal sakonekin esperimentatzeko.
CNN-ak bikainak ziren irudiak ezagutzeko eta bideo-analisirako, baina arazoak zituzten hizkuntzan oinarritutako arazoak konpontzeko orduan. Lengoaia naturalaren prozesamenduaren muga hori egon liteke irudiak eta testuak funtsean arazo desberdinak direlako.
Adibidez, irudi batek semafororik duen ala ez sailkatzen duen eredu bat baduzu, kasuan kasuko semaforoa irudiko edozein lekutan ager daiteke. Hala ere, leuntasun mota honek ez du ondo funtzionatzen hizkuntzan. "Bob-ek arraina jan" eta "Arrainak jan zuen Bob" esaldiek esanahi oso desberdinak dituzte hitz berdinak erabili arren.
Argi geratu zen ikertzaileek giza hizkuntzaren inguruko arazoak konpontzeko ikuspegi berri bat aurkitu behar zutela.
Transformadoreek dena aldatzen dute
2017-en, a ikerketa paper "Attention Is All You Need" izenburupean sare mota berri bat proposatu zuen: Transformer.
CNNek irudi baten zati txikiak behin eta berriz iragazten lan egiten duten bitartean, transformatzaileek datuetako elementu guztiak beste elementu guztiekin konektatzen dituzte. Ikertzaileek prozesu horri "autoarreta" esaten diote.
Esaldiak analizatzen saiatzean, CNNek eta transformadoreek oso ezberdin funtzionatzen dute. CNN batek elkarren ondoan dauden hitzekin loturak sortzean zentratuko den bitartean, transformadore batek esaldi bateko hitz bakoitzaren eta guztien arteko konexioak sortuko ditu.
Auto-arreta prozesua giza hizkuntza ulertzeko osagaia da. Handiagotuz eta esaldi osoa nola egokitzen den ikusiz, makinek esaldiaren egitura argiago uler dezakete.
Lehen transformadore-ereduak kaleratu ondoren, ikertzaileek laster erabili zuten arkitektura berria interneten aurkitutako testu-datu kopuru izugarria aprobetxatzeko.
GPT-3 eta Internet
2020an, OpenAI-k GPT-3 ereduak transformadoreak zein eraginkorrak izan daitezkeen erakutsi zuen. GPT-3-k gizakiarengandik ia bereiztezina dirudien testua atera ahal izan zuen. GPT-3 hain indartsua izan zenaren zati bat erabilitako prestakuntza-datu kopurua izan zen. Ereduaren aurreko prestakuntzako datu-multzo gehienak 400 milioi token baino gehiago dituen Common Crawl izenez ezagutzen den datu multzo batetik datoz.
GPT-3-k giza testu errealistak sortzeko duen gaitasuna bere kabuz aitzindaria zen arren, ikertzaileek modelo berak beste zeregin batzuk nola ebatzi ditzakeen aurkitu zuten.
Adibidez, txio bat sortzeko erabil dezakezun GPT-3 eredu berak testua laburtzen, paragrafo bat berridazten eta istorio bat amaitzen ere lagun zaitzake. Hizkuntza ereduak hain indartsu bihurtu dira, non gaur egun, funtsean, erabilera orokorreko tresnak dira edozein agindu mota jarraitzen dutenak.
GPT-3-ren erabilera orokorreko izaerak horrelako aplikazioak ahalbidetu ditu GitHub Copilot, horri esker, programatzaileei lan kodea sortzeko ingeles arruntetik.
Hedapen-ereduak: Testutik Irudietara
Transformadoreekin eta NLPrekin egindako aurrerapenek AI sorkuntzarako bidea ireki dute beste esparru batzuetan.
Ordenagailu bidezko ikusmenaren alorrean, ikaskuntza sakonak makinek irudiak ulertzea ahalbidetzen duten landu dugu jada. Hala ere, oraindik AI-ak irudiak berak sortzeko modua aurkitu behar genuen, horiek sailkatzeko baino.
DALL-E 2, Stable Diffusion eta Midjourney bezalako sorkuntza-ereduak ezagunak bihurtu dira testu-sarrerak irudi bihurtzeko gai direlako.
Irudi-eredu hauek funtsezko bi alderditan oinarritzen dira: irudien eta testuaren arteko erlazioa ulertzen duen eredua eta sarrerarekin bat datorren definizio handiko irudia benetan sor dezakeen eredua.
OpenAI-ak CLIP (Kontrastive Language–Image Pre-training) lehen alderdia konpontzea helburu duen kode irekiko eredua da. Irudi bat emanda, CLIP ereduak irudi jakin horretarako testu deskribapen garrantzitsuena iragar dezake.
CLIP ereduak irudien ezaugarri garrantzitsuak ateratzen eta irudi baten irudikapen sinpleagoa sortzen ikasten du.
Erabiltzaileek DALL-E 2-ri testu-sarrera lagin bat ematen diotenean, sarrera "irudi txertaketa" bihurtzen da CLIP eredua erabiliz. Sortutako irudiaren txertaketarekin bat datorren irudi bat sortzeko modu bat aurkitzea da orain helburua.
Azken sormenezko irudi AIek a erabiltzen dute difusio eredua irudi bat benetan sortzeko zereginari aurre egiteko. Difusio-ereduak aurrez prestatuta zeuden neurona-sareetan oinarritzen dira, irudietatik zarata gehigarria kentzen jakiteko.
Prestakuntza prozesu honetan, sare neuronalak ausazko zarata-irudi batetik bereizmen handiko irudia nola sortzen ikas dezake. CLIPek emandako testu eta irudien mapeoa dagoeneko badugunez, ahal dugu difusio-eredu bat prestatzea CLIP irudien txertatzeetan edozein irudi sortzeko prozesu bat sortzeko.
Generative AI Revolution: zer dator gero?
Gaur egun, AI sortzailean aurrerapenak egun pare batean gertatzen ari diren puntu batean gaude. AI erabiliz hedabide mota desberdinak sortzea gero eta errazagoa denez, kezkatu behar al ginateke horrek gure gizartean nola eragin dezakeen?
Langileak ordezkatzen dituzten makinen kezkak lurrun-makina asmatu zenetik beti egon diren elkarrizketan, badirudi oraingoan pixka bat ezberdina dela.
Sorkuntza AI erabilera anitzeko tresna bihurtzen ari da, AIren jabetzetik segurutzat jotzen ziren industriak eten ditzakeena.
Programatzaileak beharko ditugu AI oinarrizko argibide batzuetatik kode akatsik gabe idazten has badaiteke? Jendeak sormenak kontratatuko ditu, baldin eta eredu sortzaile bat erabil badezake nahi duten irteera merkeago ekoizteko?
Zaila da AI sortzailearen iraultzaren etorkizuna aurreikustea. Baina orain Pandoraren kutxa figuratiboa irekita, teknologiak munduan eragin positiboa utz dezaketen berrikuntza zirraragarriagoak ahalbidetuko dituela espero dut.
Utzi erantzun bat