Vjerovatno smo tek na početku nove generativne AI revolucije.
Generativna umjetna inteligencija odnosi se na algoritme i modele koji su u stanju kreirati sadržaj. Izlaz takvih modela uključuje tekst, zvuk i slike koje se često mogu pogrešno smatrati stvarnim ljudskim rezultatom.
Aplikacije poput Chat GPT su pokazali da generativna AI nije samo novost. AI je sada sposoban slijediti detaljna uputstva i čini se da ima duboko razumijevanje kako svijet funkcionira.
Ali kako smo došli do ove tačke? U ovom vodiču ćemo proći kroz neka od ključnih otkrića u istraživanju umjetne inteligencije koja su utrla put ovoj novoj i uzbudljivoj generativnoj AI revoluciji.
Uspon neuronskih mreža
Poreklo moderne veštačke inteligencije možete pratiti do istraživanja duboko učenje i neuronske mreže u 2012.
Te godine, Alex Krizhevsky i njegov tim sa Univerziteta u Torontu uspjeli su postići visoko precizan algoritam koji može klasificirati objekte.
The najsavremenija neuronska mreža, sada poznat kao AlexNet, bio je u stanju da klasifikuje objekte u ImageNet vizuelnoj bazi podataka sa mnogo nižom stopom grešaka od drugoplasiranog.
Neuralne mreže su algoritmi koji koriste mrežu matematičkih funkcija za učenje određenog ponašanja na osnovu nekih podataka o obuci. Na primjer, možete hraniti medicinske podatke neuronske mreže kako biste obučili model da dijagnosticira bolest poput raka.
Nadamo se da neuronska mreža polako pronalazi obrasce u podacima i postaje preciznija kada se dobiju novi podaci.
AlexNet je bio revolucionarna aplikacija a konvolucionarna neuronska mreža ili CNN-a. Ključna riječ “konvoluciona” odnosi se na dodavanje konvolucijskih slojeva koji stavlja veći naglasak na podatke koji su bliži jedan drugome.
Iako su CNN već bili ideja 1980-ih, počeli su da stiču popularnost tek početkom 2010-ih kada je najnovija GPU tehnologija podigla tehnologiju na nove visine.
Uspjeh CNN-a u oblasti računarski vid dovelo je do većeg interesovanja za istraživanje neuronskih mreža.
Tehnološki giganti poput Googlea i Facebooka odlučili su javno objaviti vlastite AI okvire. API-ji visokog nivoa kao što su Keras dao korisnicima korisničko sučelje za eksperimentiranje sa dubokim neuronskim mrežama.
CNN-i su bili odlični u prepoznavanju slika i video analizi, ali su imali problema kada je riječ o rješavanju jezičkih problema. Ovo ograničenje u obradi prirodnog jezika može postojati zato što su slike i tekst zapravo fundamentalno različiti problemi.
Na primjer, ako imate model koji klasificira da li slika sadrži semafor, dotični semafor može se pojaviti bilo gdje na slici. Međutim, ova vrsta popustljivosti ne funkcionira dobro u jeziku. Rečenice “Bob je pojeo ribu” i “Riba je pojela Boba” imaju potpuno različita značenja uprkos upotrebi istih riječi.
Postalo je jasno da istraživači moraju pronaći novi pristup rješavanju problema koji uključuju ljudski jezik.
Transformatori menjaju sve
U 2017-u, a istraživački rad pod nazivom “Pažnja je sve što vam treba” predložio je novi tip mreže: Transformer.
Dok CNN rade tako što više puta filtriraju male dijelove slike, transformatori povezuju svaki element u podacima sa svakim drugim elementom. Istraživači ovaj proces nazivaju „pažnjom na sebe“.
Kada pokušavate raščlaniti rečenice, CNN i transformatori rade vrlo različito. Dok će se CNN fokusirati na stvaranje veza s riječima koje su blizu jedna drugoj, transformator će stvoriti veze između svake riječi u rečenici.
Proces samopažnje je sastavni dio razumijevanja ljudskog jezika. Umanjujući prikaz i gledajući kako se cijela rečenica uklapa zajedno, mašine mogu jasnije razumjeti strukturu rečenice.
Nakon što su objavljeni prvi modeli transformatora, istraživači su ubrzo iskoristili novu arhitekturu kako bi iskoristili nevjerovatnu količinu tekstualnih podataka pronađenih na internetu.
GPT-3 i Internet
2020. godine OpenAI GPT-3 model je pokazao koliko transformatori mogu biti efikasni. GPT-3 je bio u stanju da izbaci tekst koji se gotovo ne razlikuje od ljudskog. Dio onoga što je GPT-3 učinilo tako moćnim bila je količina korištenih podataka za obuku. Većina skupa podataka prije obuke modela dolazi iz skupa podataka poznatog kao Common Crawl koji dolazi sa preko 400 milijardi tokena.
Dok je sposobnost GPT-3 da generiše realističan ljudski tekst bila revolucionarna sama po sebi, istraživači su otkrili kako isti model može da reši druge zadatke.
Na primjer, isti model GPT-3 koji možete koristiti za generiranje tvita također vam može pomoći da sažmete tekst, prepišete paragraf i završite priču. Jezički modeli postali su toliko moćni da su sada u suštini alati opšte namene koji prate bilo koju vrstu komande.
Priroda opšte namene GPT-3 omogućila je takve aplikacije GitHub Copilot, koji omogućava programerima da generišu radni kod sa običnog engleskog.
Modeli difuzije: od teksta do slika
Napredak postignut sa transformatorima i NLP-om je također utro put generativnoj AI u drugim poljima.
U oblasti kompjuterskog vida, već smo pokrili kako je duboko učenje omogućilo mašinama da razumeju slike. Međutim, još uvijek smo trebali pronaći način da AI sama generiše slike, a ne samo da ih klasifikuje.
Generativni modeli slika kao što su DALL-E 2, Stable Diffusion i Midjourney postali su popularni zbog načina na koji su u stanju da konvertuju unos teksta u slike.
Ovi modeli slika oslanjaju se na dva ključna aspekta: model koji razumije odnos između slika i teksta i model koji zapravo može stvoriti sliku visoke definicije koja odgovara unosu.
OpenAI CLIP (Contrastive Language–Image Pre-trening) je model otvorenog koda koji ima za cilj rješavanje prvog aspekta. S obzirom na sliku, CLIP model može predvidjeti najrelevantniji tekstualni opis za tu određenu sliku.
CLIP model radi tako što uči kako izdvojiti važne karakteristike slike i stvoriti jednostavniji prikaz slike.
Kada korisnici daju uzorak unosa teksta u DALL-E 2, unos se konvertuje u “ugrađivanje slike” koristeći CLIP model. Sada je cilj pronaći način za generiranje slike koja odgovara generiranoj ugradnji slike.
Najnovija generativna umjetna inteligencija za slike koristi a difuzioni model da se uhvati u koštac sa zadatkom stvaranja slike. Difuzijski modeli se oslanjaju na neuronske mreže koje su prethodno obučene da znaju kako ukloniti dodatni šum sa slika.
Tokom ovog procesa obuke, neuronska mreža može na kraju naučiti kako da kreira sliku visoke rezolucije od nasumične slike šuma. Budući da već imamo mapiranje teksta i slika koje pruža CLIP, možemo trenirati model difuzije na CLIP embeddingima slike da kreirate proces za generisanje bilo koje slike.
Generativna AI revolucija: Šta slijedi?
Sada smo na tački u kojoj se proboji u generativnoj AI dešavaju svakih nekoliko dana. S obzirom da postaje sve lakše i lakše generirati različite vrste medija koristeći AI, trebamo li biti zabrinuti kako bi to moglo utjecati na naše društvo?
Dok su brige oko mašina koje zamjenjuju radnike uvijek bile u razgovoru od izuma parne mašine, čini se da je ovaj put malo drugačije.
Generativna AI postaje višenamjenski alat koji može poremetiti industrije za koje se smatralo da su bezbedne od preuzimanja AI.
Hoće li nam trebati programeri ako AI može početi pisati besprijekoran kod iz nekoliko osnovnih instrukcija? Hoće li ljudi unajmiti kreativce ako mogu samo koristiti generativni model za jeftinije proizvodnju željenog rezultata?
Teško je predvidjeti budućnost generativne AI revolucije. Ali sada kada je figurativna Pandorina kutija otvorena, nadam se da će tehnologija omogućiti uzbudljivije inovacije koje mogu ostaviti pozitivan utjecaj na svijet.
Ostavite odgovor