Kaj je povzročilo generativno revolucijo umetne inteligence?

Kazalo[Skrij][Pokaži]

Vzpon nevronskih mrež
Transformatorji spremenijo vse
GPT-3 in internet
Difuzijski modeli: od besedila do slik
Generativna revolucija umetne inteligence: kaj sledi?

Verjetno smo šele na začetku nove generativne revolucije umetne inteligence.

Generativna umetna inteligenca se nanaša na algoritme in modele, ki so sposobni ustvarjati vsebino. Izhod takih modelov vključuje besedilo, zvok in slike, ki jih je pogosto mogoče zamenjati s pravimi človeškimi izhodi.

Aplikacije, kot so ChatGPT so pokazali, da generativna umetna inteligenca ni zgolj novost. AI je zdaj sposoben slediti podrobnim navodilom in zdi se, da dobro razume, kako svet deluje.

Toda kako smo prišli do te točke? V tem vodniku bomo šli skozi nekaj ključnih dosežkov v raziskavah umetne inteligence, ki so tlakovali pot tej novi in razburljivi generativni revoluciji umetne inteligence.

Vzpon nevronskih mrež

Izvor sodobne umetne inteligence lahko najdete v raziskavah globoko učenje in nevronske mreže v 2012.

Tistega leta je Alexu Križhevskyju in njegovi ekipi z Univerze v Torontu uspelo doseči zelo natančen algoritem, ki lahko razvršča predmete.

O najsodobnejšo nevronsko mrežo, zdaj znan kot AlexNet, je lahko razvrstil predmete v vizualni zbirki podatkov ImageNet z veliko nižjo stopnjo napak kot drugouvrščeni.

alexnet diagram

Nevronske mreže so algoritmi, ki uporabljajo mrežo matematičnih funkcij za učenje določenega vedenja na podlagi nekaterih podatkov o usposabljanju. Nevronski mreži lahko na primer vnesete zdravstvene podatke, da usposobite model za diagnosticiranje bolezni, kot je rak.

Upanje je, da nevronska mreža počasi najde vzorce v podatkih in postane natančnejša, ko dobi nove podatke.

AlexNet je bila prelomna aplikacija a konvolucijsko nevronsko mrežo ali CNN. Ključna beseda »konvolucijski« se nanaša na dodajanje konvolucijskih plasti, ki daje večji poudarek podatkom, ki so bližje skupaj.

Medtem ko so bili CNN že ideja v 1980-ih, so začeli pridobivati na priljubljenosti šele v zgodnjih 2010-ih, ko je najnovejša tehnologija GPE tehnologijo potisnila v nove višave.

Uspeh CNN na področju računalniški vid privedla do večjega zanimanja za raziskave nevronskih mrež.

Tehnološki velikani, kot sta Google in Facebook, so se odločili, da bodo svoja lastna ogrodja AI predstavili javnosti. API-ji na visoki ravni, kot je npr Keras uporabnikom ponudil uporabniku prijazen vmesnik za eksperimentiranje z globokimi nevronskimi mrežami.

keras je ponudil uporabniku prijazen način za eksperimentiranje z modeli globokega učenja

CNN-i so bili odlični pri prepoznavanju slik in videoanalizi, vendar so imeli težave pri reševanju jezikovnih težav. Ta omejitev pri obdelavi naravnega jezika lahko obstaja, ker so slike in besedilo dejansko bistveno različni problemi.

Na primer, če imate model, ki razvršča, ali slika vsebuje semafor, se lahko zadevni semafor pojavi kjer koli na sliki. Vendar pa ta vrsta prizanesljivosti ne deluje dobro v jeziku. Stavek »Bob je jedel ribo« in »Riba je jedla Boba« imata kljub uporabi istih besed zelo različen pomen.

Postalo je jasno, da morajo raziskovalci najti nov pristop k reševanju problemov, ki vključujejo človeški jezik.

Transformatorji spremenijo vse

V 2017, a raziskovalna naloga z naslovom »Pozornost je vse, kar potrebujete« predlagal novo vrsto omrežja: Transformer.

Medtem ko CNN delujejo tako, da večkrat filtrirajo majhne dele slike, transformatorji povezujejo vsak element v podatkih z vsakim drugim elementom. Raziskovalci ta proces imenujejo "samopozornost".

skica arhitekture CNN

Ko poskušajo razčleniti stavke, CNN in transformatorji delujejo zelo različno. Medtem ko se bo CNN osredotočil na oblikovanje povezav z besedami, ki so blizu druga drugi, bo transformator ustvaril povezave med vsako besedo v stavku.

skica arhitekture transformatorja

Proces samopozornosti je sestavni del razumevanja človeškega jezika. Če pomanjšate in pogledate, kako se celoten stavek ujema, lahko stroji jasneje razumejo strukturo stavka.

Ko so bili izdani prvi modeli transformatorjev, so raziskovalci kmalu uporabili novo arhitekturo, da bi izkoristili neverjetno količino besedilnih podatkov, najdenih na internetu.

GPT-3 in internet

Leta 2020 OpenAI GPT-3 model je pokazal, kako učinkoviti so lahko transformatorji. GPT-3 je lahko izpisal besedilo, ki se skoraj ne razlikuje od človeškega. Del tega, zaradi česar je GPT-3 tako močan, je bila količina uporabljenih podatkov o usposabljanju. Večina nabora podatkov modela pred usposabljanjem izvira iz nabora podatkov, znanega kot Common Crawl, ki vsebuje več kot 400 milijard žetonov.

Medtem ko je bila sposobnost GPT-3, da ustvari realistično človeško besedilo, sama po sebi prelomna, so raziskovalci odkrili, kako lahko isti model reši druge naloge.

Na primer, isti model GPT-3, ki ga lahko uporabite za ustvarjanje tvita, vam lahko pomaga tudi pri povzemanju besedila, prepisovanju odstavka in dokončanju zgodbe. Jezikovni modeli so postali tako močni, da so zdaj v bistvu orodja za splošen namen, ki sledijo kateri koli vrsti ukazov.

generativno AI revolucijo so pospešili veliki jezikovni modeli, kot je gpt-3

Splošna narava GPT-3 je omogočila takšne aplikacije GitHub kopilot, ki programerjem omogoča ustvarjanje delujoče kode iz navadne angleščine.

predstavitev Googlovega kopilota. generativna AI revolucija bi lahko vplivala celo na programerje, ki so naredili AI

Difuzijski modeli: od besedila do slik

Napredek, dosežen s transformatorji in NLP, je utrl pot tudi generativni AI na drugih področjih.

Na področju računalniškega vida smo že obravnavali, kako globoko učenje omogoča strojem razumevanje slik. Vendar smo še vedno morali najti način, da bi AI sam ustvaril slike, namesto da bi jih samo razvrstil.

Generativni slikovni modeli, kot so DALL-E 2, Stable Diffusion in Midjourney, so postali priljubljeni zaradi tega, kako lahko pretvorijo vneseno besedilo v slike.

vzorčni izhod dall-e 2

Ti slikovni modeli temeljijo na dveh ključnih vidikih: modelu, ki razume razmerje med slikami in besedilom, ter modelu, ki lahko dejansko ustvari sliko visoke ločljivosti, ki se ujema z vnosom.

OpenAI-ji CLIP (Contrastive Language–Image Pre-training) je odprtokodni model, katerega cilj je rešiti prvi vidik. Glede na sliko lahko model CLIP predvidi najustreznejši besedilni opis za to določeno sliko.

Model CLIP deluje tako, da se nauči izluščiti pomembne značilnosti slike in ustvariti enostavnejšo predstavitev slike.

CLIP deluje kot most med slikami in besedilom ter je pomagal premakniti generativno AI revolucijo v vizualno sfero

Ko uporabniki posredujejo vzorec vnosa besedila v DALL-E 2, se vnos pretvori v »vdelavo slike« z uporabo modela CLIP. Zdaj je cilj najti način za ustvarjanje slike, ki se ujema z ustvarjeno vdelano sliko.

Najnovejše umetne inteligence generativne slike uporabljajo a difuzijski model da se lotite naloge dejanskega ustvarjanja slike. Difuzijski modeli se zanašajo na nevronske mreže, ki so bile predhodno usposobljene, da vedo, kako odstraniti dodaten šum s slik.

Med tem procesom usposabljanja se lahko nevronska mreža sčasoma nauči ustvariti sliko visoke ločljivosti iz naključne slike šuma. Ker že imamo preslikavo besedila in slik, ki jih ponuja CLIP, lahko usposobiti difuzijski model na vdelave slik CLIP, da ustvarite postopek za ustvarjanje katere koli slike.

Generativna revolucija umetne inteligence: kaj sledi?

Zdaj smo na točki, ko se preboji v generativni AI dogajajo vsakih nekaj dni. Ker postaja ustvarjanje različnih vrst medijev z uporabo umetne inteligence vse lažje in lažje, ali bi nas moralo skrbeti, kako bi to lahko vplivalo na našo družbo?

Medtem ko so skrbi o strojih, ki nadomeščajo delavce, vse od izuma parnega stroja vedno v ospredju, se zdi, da je tokrat nekoliko drugače.

Generativni AI postaja večnamensko orodje, ki lahko moti industrije, za katere je veljalo, da so varne pred prevzemom AI.

Ali bomo potrebovali programerje, če lahko AI začne pisati brezhibno kodo iz nekaj osnovnih navodil? Ali bodo ljudje najemali kreativce, če lahko samo uporabijo generativni model za cenejšo proizvodnjo želenega rezultata?

Težko je napovedati prihodnost generativne revolucije umetne inteligence. Toda zdaj, ko je figurativna Pandorina skrinjica odprta, upam, da bo tehnologija omogočila bolj vznemirljive inovacije, ki lahko pozitivno vplivajo na svet.

Kaj je povzročilo generativno revolucijo umetne inteligence?

Vzpon nevronskih mrež

Transformatorji spremenijo vse

GPT-3 in internet

Difuzijski modeli: od besedila do slik

Generativna revolucija umetne inteligence: kaj sledi?

O meni Deion Menor

Več člankov na HashDork:

Kako zmanjšati halucinacije v vaši AI

Colossyan proti Heygenu

To glasilo o tehnologiji prihodnosti ni zanič

Kaj je povzročilo generativno revolucijo umetne inteligence?

Vzpon nevronskih mrež

Transformatorji spremenijo vse

GPT-3 in internet

Difuzijski modeli: od besedila do slik

Generativna revolucija umetne inteligence: kaj sledi?

O meni Deion Menor

Več člankov na HashDork:

Kako zmanjšati halucinacije v vaši AI

10 najboljših orodij AI za družbena omrežja

Colossyan proti Heygenu

10 najboljših orodij za ustvarjanje animiranih videoposnetkov z umetno inteligenco

Spletna Interakcije

Pustite Odgovori preklicati odgovor

To glasilo o tehnologiji prihodnosti ni zanič