Tõenäoliselt oleme alles uue generatiivse AI revolutsiooni alguses.
Generatiivne tehisintellekt viitab algoritmidele ja mudelitele, mis on võimelised sisu looma. Selliste mudelite väljund sisaldab teksti, heli ja pilte, mida võib sageli ekslikult pidada tõeliseks inimese väljundiks.
Sellised rakendused nagu ChatGPT on näidanud, et generatiivne tehisintellekt pole pelgalt uudsus. AI on nüüd võimeline järgima üksikasjalikke juhiseid ja näib, et tal on sügav arusaam maailma toimimisest.
Aga kuidas me selle punktini jõudsime? Selles juhendis käsitleme tehisintellektiuuringute peamisi läbimurdeid, mis on sillutanud teed sellele uuele ja põnevale generatiivsele tehisintellekti revolutsioonile.
Närvivõrkude tõus
Kaasaegse tehisintellekti päritolu saate jälgida selle kohta tehtud uuringuteni süvaõpe ja närvivõrgud aastal 2012.
Sel aastal suutsid Alex Krizhevsky ja tema meeskond Toronto ülikoolist saavutada ülitäpse algoritmi, mis suudab objekte klassifitseerida.
. nüüdisaegne närvivõrk, mida praegu tuntakse AlexNeti nime all, suutis ImageNeti visuaalses andmebaasis objekte klassifitseerida palju väiksema veamääraga kui teiseks jäänud.
Neuraalsed võrgud on algoritmid, mis kasutavad teatud käitumise õppimiseks teatud treeningandmete põhjal matemaatiliste funktsioonide võrgustikku. Näiteks saate edastada närvivõrgu meditsiinilisi andmeid, et koolitada mudelit diagnoosima sellist haigust nagu vähk.
Loodetavasti leiab närvivõrk andmetest aeglaselt mustreid ja muutub uute andmete andmisel täpsemaks.
AlexNet oli läbimurdeline rakendus a konvolutsioonneuraalvõrk või CNN-id. Märksõna „konvolutsiooniline” viitab konvolutsioonikihtide lisamisele, mis paneb rohkem rõhku üksteisele lähemal asuvatele andmetele.
Kui CNN-id oli idee juba 1980. aastatel, hakkasid need populaarsust koguma alles 2010. aastate alguses, kui uusim GPU-tehnoloogia viis tehnoloogia uutesse kõrgustesse.
CNN-ide edu valdkonnas arvuti nägemine tõi kaasa suurema huvi närvivõrkude uurimise vastu.
Tehnikahiiglased, nagu Google ja Facebook, otsustasid avalikustada oma tehisintellekti raamistikud. Kõrgetasemelised API-d nagu Keras andis kasutajatele kasutajasõbraliku liidese sügavate närvivõrkudega katsetamiseks.
CNN-id olid suurepärased pildituvastuse ja videoanalüüsi alal, kuid neil oli probleeme keelepõhiste probleemide lahendamisega. See piirang loomuliku keele töötlemisel võib eksisteerida, sest see, kuidas pildid ja tekst on tegelikult põhimõtteliselt erinevad probleemid.
Näiteks kui teil on mudel, mis klassifitseerib, kas pilt sisaldab foori, võib kõnealune foor ilmuda pildil kõikjal. Selline leebus ei tööta aga keeles hästi. Lausetel "Bob sõi kala" ja "Kala sõi Bobi" on vaatamata samade sõnade kasutamisele tohutult erinev tähendus.
Oli selgeks saanud, et teadlased peavad leidma uue lähenemisviisi inimkeelega seotud probleemide lahendamiseks.
Transformerid muudavad kõike
2017is a uurimustöö pealkirjaga "Tähelepanu on kõik, mida vajate" pakkus välja uut tüüpi võrk: Transformer.
Kui CNN-id filtreerivad korduvalt pildi väikseid osi, ühendavad trafod iga andmeelemendi kõigi teiste elementidega. Teadlased nimetavad seda protsessi "enese tähelepanuks".
Kui proovite lauseid sõeluda, töötavad CNN-id ja trafod väga erinevalt. Kui CNN keskendub seoste loomisele üksteise lähedal olevate sõnadega, loob trafo ühendused lause iga sõna vahel.
Enesetähelepanu protsess on inimkeele mõistmise lahutamatu osa. Välja suumides ja vaadates, kuidas kogu lause kokku sobib, saavad masinad lause struktuurist selgemini aru.
Pärast esimeste trafomudelite avaldamist kasutasid teadlased uut arhitektuuri peagi, et kasutada ära uskumatult palju Internetist leitud tekstiandmeid.
GPT-3 ja Internet
2020. aastal OpenAI's GPT-3 mudel näitas, kui tõhusad võivad trafod olla. GPT-3 suutis väljastada teksti, mis näib inimesest peaaegu eristamatu. Osa sellest, mis tegi GPT-3 nii võimsaks, oli kasutatud treeningandmete hulk. Suurem osa mudeli koolituseelsest andmekogumist pärineb andmekogumist, mida tuntakse kui Common Crawl ja millel on üle 400 miljardi märgi.
Kui GPT-3 võime luua realistlikku inimteksti oli iseenesest murranguline, avastasid teadlased, kuidas sama mudel suudab lahendada muid ülesandeid.
Näiteks võib sama GPT-3 mudel, mida saate kasutada säutsu loomiseks, aidata teil teksti kokku võtta, lõiku ümber kirjutada ja lugu lõpetada. Keelemudelid on muutunud nii võimsaks, et need on nüüd põhiliselt üldotstarbelised tööriistad, mis järgivad mis tahes tüüpi käske.
GPT-3 üldotstarbeline olemus on võimaldanud selliseid rakendusi GitHubi kopiloot, mis võimaldab programmeerijatel genereerida töötavat koodi lihtsast inglise keelest.
Hajutusmudelid: tekstist piltideni
Trafode ja NLP-ga tehtud edusammud on sillutanud teed generatiivsele AI-le ka teistes valdkondades.
Arvutinägemise valdkonnas oleme juba käsitlenud, kuidas sügav õpe võimaldas masinatel pilte mõista. Siiski pidime ikkagi leidma viisi, kuidas AI saaks pilte ise luua, mitte neid lihtsalt klassifitseerida.
Generatiivsed pildimudelid, nagu DALL-E 2, Stable Diffusion ja Midjourney, on muutunud populaarseks tänu sellele, kuidas nad suudavad tekstisisendi kujutisteks teisendada.
Need pildimudelid põhinevad kahel põhiaspektil: mudel, mis mõistab piltide ja teksti vahelisi seoseid, ja mudel, mis suudab tegelikult luua sisendile vastava kõrglahutusega pildi.
OpenAI-d CLIP (Contrastive Language-Image Pre-training) on avatud lähtekoodiga mudel, mille eesmärk on lahendada esimene aspekt. CLIP-mudel suudab kujutise korral ennustada selle konkreetse pildi jaoks kõige asjakohasema tekstikirjelduse.
CLIP-mudel töötab, õppides eraldama olulisi pildifunktsioone ja looma pildist lihtsamat esitust.
Kui kasutajad sisestavad DALL-E 2 näidisteksti, teisendatakse sisend CLIP-mudeli abil „kujutise manustamiseks”. Nüüd on eesmärk leida viis, kuidas luua pilt, mis ühtib loodud pildi manustamisega.
Uusimad generatiivse pildi AI-d kasutavad a difusioonimudel pildi tegeliku loomise ülesandega tegelemiseks. Hajutusmudelid tuginevad närvivõrkudele, mis olid eelnevalt koolitatud, et teada saada, kuidas piltidelt lisatud müra eemaldada.
Selle koolitusprotsessi käigus saab närvivõrk lõpuks õppida, kuidas juhuslikust mürapildist suure eraldusvõimega kujutist luua. Kuna meil on juba CLIP-i pakutav teksti ja piltide kaardistamine, saame seda teha treenida difusioonimudelit CLIP-kujutise manustamisel, et luua protsess mis tahes kujutise genereerimiseks.
Generatiivne AI revolutsioon: mis saab järgmiseks?
Oleme nüüd punktis, kus generatiivse AI läbimurded toimuvad iga paari päeva tagant. Kuna AI abil eri tüüpi meediumite loomine muutub üha lihtsamaks, kas peaksime muretsema selle pärast, kuidas see meie ühiskonda mõjutada võib?
Kui aurumasina leiutamisest saati on alati kõne all olnud mured töölisi asendavate masinate pärast, siis tundub, et seekord on see pisut teisiti.
Generatiivsest AI-st on saamas mitmeotstarbeline tööriist, mis võib häirida tööstusharusid, mida peeti tehisintellekti ülevõtmise eest kaitstuks.
Kas vajame programmeerijaid, kui tehisintellekt saab hakata mõne põhijuhise järgi veatut koodi kirjutama? Kas inimesed palkavad loovisikuid, kui nad saavad lihtsalt generatiivset mudelit kasutada, et toota soovitud toodangut odavamalt?
Generatiivse tehisintellekti revolutsiooni tulevikku on raske ennustada. Aga nüüd, kus kujundlik Pandora laegas on avatud, loodan, et tehnoloogia võimaldab teha põnevamaid uuendusi, mis võivad maailmale positiivse mõju jätta.
Jäta vastus