Verjetno smo šele na začetku nove generativne revolucije umetne inteligence.
Generativna umetna inteligenca se nanaša na algoritme in modele, ki so sposobni ustvarjati vsebino. Izhod takih modelov vključuje besedilo, zvok in slike, ki jih je pogosto mogoče zamenjati s pravimi človeškimi izhodi.
Aplikacije, kot so ChatGPT so pokazali, da generativna umetna inteligenca ni zgolj novost. AI je zdaj sposoben slediti podrobnim navodilom in zdi se, da dobro razume, kako svet deluje.
Toda kako smo prišli do te točke? V tem vodniku bomo šli skozi nekaj ključnih dosežkov v raziskavah umetne inteligence, ki so tlakovali pot tej novi in razburljivi generativni revoluciji umetne inteligence.
Vzpon nevronskih mrež
Izvor sodobne umetne inteligence lahko najdete v raziskavah globoko učenje in nevronske mreže v 2012.
Tistega leta je Alexu Križhevskyju in njegovi ekipi z Univerze v Torontu uspelo doseči zelo natančen algoritem, ki lahko razvršča predmete.
O najsodobnejšo nevronsko mrežo, zdaj znan kot AlexNet, je lahko razvrstil predmete v vizualni zbirki podatkov ImageNet z veliko nižjo stopnjo napak kot drugouvrščeni.
Nevronske mreže so algoritmi, ki uporabljajo mrežo matematičnih funkcij za učenje določenega vedenja na podlagi nekaterih podatkov o usposabljanju. Nevronski mreži lahko na primer vnesete zdravstvene podatke, da usposobite model za diagnosticiranje bolezni, kot je rak.
Upanje je, da nevronska mreža počasi najde vzorce v podatkih in postane natančnejša, ko dobi nove podatke.
AlexNet je bila prelomna aplikacija a konvolucijsko nevronsko mrežo ali CNN. Ključna beseda »konvolucijski« se nanaša na dodajanje konvolucijskih plasti, ki daje večji poudarek podatkom, ki so bližje skupaj.
Medtem ko so bili CNN že ideja v 1980-ih, so začeli pridobivati na priljubljenosti šele v zgodnjih 2010-ih, ko je najnovejša tehnologija GPE tehnologijo potisnila v nove višave.
Uspeh CNN na področju računalniški vid privedla do večjega zanimanja za raziskave nevronskih mrež.
Tehnološki velikani, kot sta Google in Facebook, so se odločili, da bodo svoja lastna ogrodja AI predstavili javnosti. API-ji na visoki ravni, kot je npr Keras uporabnikom ponudil uporabniku prijazen vmesnik za eksperimentiranje z globokimi nevronskimi mrežami.
CNN-i so bili odlični pri prepoznavanju slik in videoanalizi, vendar so imeli težave pri reševanju jezikovnih težav. Ta omejitev pri obdelavi naravnega jezika lahko obstaja, ker so slike in besedilo dejansko bistveno različni problemi.
Na primer, če imate model, ki razvršča, ali slika vsebuje semafor, se lahko zadevni semafor pojavi kjer koli na sliki. Vendar pa ta vrsta prizanesljivosti ne deluje dobro v jeziku. Stavek »Bob je jedel ribo« in »Riba je jedla Boba« imata kljub uporabi istih besed zelo različen pomen.
Postalo je jasno, da morajo raziskovalci najti nov pristop k reševanju problemov, ki vključujejo človeški jezik.
Transformatorji spremenijo vse
V 2017, a raziskovalna naloga z naslovom »Pozornost je vse, kar potrebujete« predlagal novo vrsto omrežja: Transformer.
Medtem ko CNN delujejo tako, da večkrat filtrirajo majhne dele slike, transformatorji povezujejo vsak element v podatkih z vsakim drugim elementom. Raziskovalci ta proces imenujejo "samopozornost".
Ko poskušajo razčleniti stavke, CNN in transformatorji delujejo zelo različno. Medtem ko se bo CNN osredotočil na oblikovanje povezav z besedami, ki so blizu druga drugi, bo transformator ustvaril povezave med vsako besedo v stavku.
Proces samopozornosti je sestavni del razumevanja človeškega jezika. Če pomanjšate in pogledate, kako se celoten stavek ujema, lahko stroji jasneje razumejo strukturo stavka.
Ko so bili izdani prvi modeli transformatorjev, so raziskovalci kmalu uporabili novo arhitekturo, da bi izkoristili neverjetno količino besedilnih podatkov, najdenih na internetu.
GPT-3 in internet
Leta 2020 OpenAI GPT-3 model je pokazal, kako učinkoviti so lahko transformatorji. GPT-3 je lahko izpisal besedilo, ki se skoraj ne razlikuje od človeškega. Del tega, zaradi česar je GPT-3 tako močan, je bila količina uporabljenih podatkov o usposabljanju. Večina nabora podatkov modela pred usposabljanjem izvira iz nabora podatkov, znanega kot Common Crawl, ki vsebuje več kot 400 milijard žetonov.
Medtem ko je bila sposobnost GPT-3, da ustvari realistično človeško besedilo, sama po sebi prelomna, so raziskovalci odkrili, kako lahko isti model reši druge naloge.
Na primer, isti model GPT-3, ki ga lahko uporabite za ustvarjanje tvita, vam lahko pomaga tudi pri povzemanju besedila, prepisovanju odstavka in dokončanju zgodbe. Jezikovni modeli so postali tako močni, da so zdaj v bistvu orodja za splošen namen, ki sledijo kateri koli vrsti ukazov.
Splošna narava GPT-3 je omogočila takšne aplikacije GitHub kopilot, ki programerjem omogoča ustvarjanje delujoče kode iz navadne angleščine.
Difuzijski modeli: od besedila do slik
Napredek, dosežen s transformatorji in NLP, je utrl pot tudi generativni AI na drugih področjih.
Na področju računalniškega vida smo že obravnavali, kako globoko učenje omogoča strojem razumevanje slik. Vendar smo še vedno morali najti način, da bi AI sam ustvaril slike, namesto da bi jih samo razvrstil.
Generativni slikovni modeli, kot so DALL-E 2, Stable Diffusion in Midjourney, so postali priljubljeni zaradi tega, kako lahko pretvorijo vneseno besedilo v slike.
Ti slikovni modeli temeljijo na dveh ključnih vidikih: modelu, ki razume razmerje med slikami in besedilom, ter modelu, ki lahko dejansko ustvari sliko visoke ločljivosti, ki se ujema z vnosom.
OpenAI-ji CLIP (Contrastive Language–Image Pre-training) je odprtokodni model, katerega cilj je rešiti prvi vidik. Glede na sliko lahko model CLIP predvidi najustreznejši besedilni opis za to določeno sliko.
Model CLIP deluje tako, da se nauči izluščiti pomembne značilnosti slike in ustvariti enostavnejšo predstavitev slike.
Ko uporabniki posredujejo vzorec vnosa besedila v DALL-E 2, se vnos pretvori v »vdelavo slike« z uporabo modela CLIP. Zdaj je cilj najti način za ustvarjanje slike, ki se ujema z ustvarjeno vdelano sliko.
Najnovejše umetne inteligence generativne slike uporabljajo a difuzijski model da se lotite naloge dejanskega ustvarjanja slike. Difuzijski modeli se zanašajo na nevronske mreže, ki so bile predhodno usposobljene, da vedo, kako odstraniti dodaten šum s slik.
Med tem procesom usposabljanja se lahko nevronska mreža sčasoma nauči ustvariti sliko visoke ločljivosti iz naključne slike šuma. Ker že imamo preslikavo besedila in slik, ki jih ponuja CLIP, lahko usposobiti difuzijski model na vdelave slik CLIP, da ustvarite postopek za ustvarjanje katere koli slike.
Generativna revolucija umetne inteligence: kaj sledi?
Zdaj smo na točki, ko se preboji v generativni AI dogajajo vsakih nekaj dni. Ker postaja ustvarjanje različnih vrst medijev z uporabo umetne inteligence vse lažje in lažje, ali bi nas moralo skrbeti, kako bi to lahko vplivalo na našo družbo?
Medtem ko so skrbi o strojih, ki nadomeščajo delavce, vse od izuma parnega stroja vedno v ospredju, se zdi, da je tokrat nekoliko drugače.
Generativni AI postaja večnamensko orodje, ki lahko moti industrije, za katere je veljalo, da so varne pred prevzemom AI.
Ali bomo potrebovali programerje, če lahko AI začne pisati brezhibno kodo iz nekaj osnovnih navodil? Ali bodo ljudje najemali kreativce, če lahko samo uporabijo generativni model za cenejšo proizvodnjo želenega rezultata?
Težko je napovedati prihodnost generativne revolucije umetne inteligence. Toda zdaj, ko je figurativna Pandorina skrinjica odprta, upam, da bo tehnologija omogočila bolj vznemirljive inovacije, ki lahko pozitivno vplivajo na svet.
Pustite Odgovori