Vjerojatno smo tek na početku nove generativne AI revolucije.
Generativna umjetna inteligencija odnosi se na algoritme i modele koji su sposobni stvarati sadržaj. Izlaz takvih modela uključuje tekst, zvuk i slike koje se često mogu pogrešno smatrati stvarnim ljudskim ispisom.
Aplikacije poput ChatGPT su pokazali da generativna umjetna inteligencija nije samo novost. AI je sada sposoban slijediti detaljne upute i čini se da duboko razumije kako svijet funkcionira.
Ali kako smo došli do ove točke? U ovom vodiču proći ćemo kroz neka od ključnih otkrića u istraživanju umjetne inteligencije koja su utrla put ovoj novoj i uzbudljivoj generativnoj revoluciji umjetne inteligencije.
Uspon neuronskih mreža
Možete pratiti porijeklo moderne umjetne inteligencije do istraživanja duboko učenje i neuronske mreže u 2012.
Te su godine Alex Krizhevsky i njegov tim sa Sveučilišta u Torontu uspjeli postići vrlo precizan algoritam koji može klasificirati objekte.
Korištenje električnih romobila ističe najsuvremenija neuronska mreža, sada poznat kao AlexNet, uspio je klasificirati objekte u vizualnoj bazi podataka ImageNet s puno nižom stopom pogreške od drugoplasiranog.
Neuronske mreže su algoritmi koji koriste mrežu matematičkih funkcija za učenje određenog ponašanja na temelju nekih podataka o obuci. Na primjer, neuronskoj mreži možete unijeti medicinske podatke kako biste osposobili model za dijagnosticiranje bolesti poput raka.
Nadamo se da neuronska mreža polako pronalazi uzorke u podacima i postaje točnija kada joj se daju novi podaci.
AlexNet je bila revolucionarna aplikacija a konvolucijska neuronska mreža ili CNN-ove. Ključna riječ "konvolucijski" odnosi se na dodavanje konvolucijskih slojeva koji stavlja veći naglasak na podatke koji su bliže jedan drugome.
Dok su CNN-ovi već bili ideja u 1980-ima, počeli su dobivati popularnost tek u ranim 2010-ima kada je najnovija GPU tehnologija gurnula tehnologiju u nove visine.
Uspjeh CNN-a na polju računalni vid dovela do većeg interesa za istraživanje neuronskih mreža.
Tehnički divovi poput Googlea i Facebooka odlučili su objaviti vlastite AI okvire za javnost. API-ji visoke razine kao što su Keras dao je korisnicima jednostavno sučelje za eksperimentiranje s dubokim neuronskim mrežama.
CNN-ovi su bili izvrsni u prepoznavanju slika i analizi videa, ali su imali problema kada je u pitanju rješavanje problema temeljenih na jeziku. Ovo ograničenje u obradi prirodnog jezika moglo bi postojati jer su slike i tekst zapravo bitno različiti problemi.
Na primjer, ako imate model koji klasificira sadrži li slika semafor, dotični semafor može se pojaviti bilo gdje na slici. Međutim, ova vrsta popustljivosti ne funkcionira dobro u jeziku. Rečenica "Bob je jeo ribu" i "Riba je jela Boba" imaju uvelike različita značenja unatoč korištenju istih riječi.
Postalo je jasno da istraživači moraju pronaći novi pristup rješavanju problema koji uključuju ljudski jezik.
Transformatori mijenjaju sve
U sustavu 2017, a znanstveni rad pod nazivom “Pažnja je sve što vam treba” predložio je novu vrstu mreže: Transformer.
Dok CNN-ovi rade ponavljajući filtriranjem malih dijelova slike, transformatori povezuju svaki element u podacima sa svakim drugim elementom. Istraživači ovaj proces nazivaju "samopozornost".
Kada pokušavaju raščlaniti rečenice, CNN-ovi i transformatori rade vrlo različito. Dok će se CNN usredotočiti na stvaranje veza s riječima koje su blizu jedna drugoj, transformator će stvoriti veze između svake riječi u rečenici.
Proces obraćanja pažnje na sebe sastavni je dio razumijevanja ljudskog jezika. Smanjivanjem i gledanjem kako se cijela rečenica slaže, strojevi mogu jasnije razumjeti strukturu rečenice.
Nakon što su objavljeni prvi modeli transformatora, istraživači su ubrzo upotrijebili novu arhitekturu kako bi iskoristili nevjerojatnu količinu tekstualnih podataka pronađenih na internetu.
GPT-3 i Internet
U 2020., OpenAI-jev GPT-3 Model je pokazao koliko transformatori mogu biti učinkoviti. GPT-3 je uspio ispisati tekst koji se čini gotovo nerazlučivim od ljudskog. Dio onoga što je GPT-3 učinilo tako moćnim bila je količina korištenih podataka za obuku. Većina skupa podataka prije obuke modela dolazi iz skupa podataka poznatog kao Common Crawl koji dolazi s više od 400 milijardi tokena.
Dok je GPT-3 sposobnost generiranja realističnog ljudskog teksta bila revolucionarna sama po sebi, istraživači su otkrili kako isti model može riješiti druge zadatke.
Na primjer, isti GPT-3 model koji možete upotrijebiti za generiranje tweeta može vam također pomoći da sažmete tekst, prepišete odlomak i završite priču. Jezični modeli postali su toliko moćni da su sada u biti alati opće namjene koji slijede bilo koju vrstu naredbe.
Priroda opće namjene GPT-3 omogućila je takve aplikacije GitHub kopilot, koji programerima omogućuje generiranje radnog koda iz običnog engleskog jezika.
Difuzijski modeli: od teksta do slike
Napredak postignut s transformatorima i NLP-om također je otvorio put generativnoj umjetnoj inteligenciji u drugim područjima.
U području računalnog vida, već smo govorili o tome kako je duboko učenje omogućilo strojevima da razumiju slike. Međutim, i dalje smo morali pronaći način da umjetna inteligencija sama generira slike umjesto da ih samo klasificira.
Generativni modeli slika kao što su DALL-E 2, Stable Diffusion i Midjourney postali su popularni zbog načina na koji mogu pretvoriti unos teksta u slike.
Ovi modeli slika oslanjaju se na dva ključna aspekta: model koji razumije odnos između slika i teksta i model koji zapravo može stvoriti sliku visoke razlučivosti koja odgovara ulazu.
OpenAI-i CLIP (Contrastive Language–Image Pre-training) model je otvorenog koda koji ima za cilj riješiti prvi aspekt. S obzirom na sliku, CLIP model može predvidjeti najrelevantniji tekstualni opis za tu određenu sliku.
CLIP model radi tako što uči kako izdvojiti važne značajke slike i stvoriti jednostavniji prikaz slike.
Kada korisnici daju uzorak unosa teksta u DALL-E 2, unos se pretvara u "ugrađivanje slike" pomoću CLIP modela. Sada je cilj pronaći način za generiranje slike koja odgovara umetnutoj generiranoj slici.
Najnovija umjetna inteligencija generativne slike koristi a difuzijski model uhvatiti se u koštac sa zadatkom stvarnog stvaranja slike. Difuzijski modeli oslanjaju se na neuronske mreže koje su prethodno obučene da znaju kako ukloniti dodatni šum sa slika.
Tijekom ovog procesa obuke, neuronska mreža može na kraju naučiti kako stvoriti sliku visoke rezolucije iz slučajne slike šuma. Budući da već imamo mapiranje teksta i slika koje pruža CLIP, možemo trenirati model difuzije na ugrađivanju CLIP slika za stvaranje procesa za generiranje bilo koje slike.
Generativna AI revolucija: Što slijedi?
Sada smo na točki u kojoj se otkrića u generativnoj umjetnoj inteligenciji događaju svakih nekoliko dana. S obzirom na to da je generiranje različitih vrsta medija pomoću umjetne inteligencije sve lakše i lakše, trebamo li se brinuti kako bi to moglo utjecati na naše društvo?
Dok su brige o strojevima koji zamjenjuju radnike oduvijek u razgovoru od izuma parnog stroja, čini se da je ovaj put nešto drugačije.
Generativna umjetna inteligencija postaje višenamjenski alat koji može poremetiti industrije koje su se smatrale sigurnima od preuzimanja AI-ja.
Hoćemo li trebati programere ako umjetna inteligencija može početi pisati besprijekoran kod pomoću nekoliko osnovnih instrukcija? Hoće li ljudi angažirati kreativce ako samo mogu koristiti generativni model za jeftiniju proizvodnju rezultata koji žele?
Teško je predvidjeti budućnost generativne AI revolucije. Ali sada kada je figurativna Pandorina kutija otvorena, nadam se da će tehnologija omogućiti još uzbudljivijih inovacija koje mogu ostaviti pozitivan utjecaj na svijet.
Ostavi odgovor