Við erum líklega bara í byrjun nýrrar kynslóðar gervigreindarbyltingar.
Generative gervigreind vísar til reiknirita og líkana sem eru fær um að búa til efni. Framleiðsla slíkra gerða inniheldur texta, hljóð og myndir sem oft er hægt að misskilja sem raunverulegt mannlegt framlag.
Forrit eins og SpjallGPT hafa sýnt fram á að skapandi gervigreind er ekki aðeins nýjung. AI er nú fær um að fylgja ítarlegum leiðbeiningum og virðist hafa djúpan skilning á því hvernig heimurinn virkar.
En hvernig komumst við á þennan stað? Í þessari handbók munum við fara í gegnum nokkrar af helstu byltingum í gervigreindarrannsóknum sem hafa rutt brautina fyrir þessa nýju og spennandi kynslóðar gervigreindarbyltingu.
Uppgangur tauganeta
Þú getur rakið uppruna nútíma gervigreindar til rannsókna á djúpnám og taugakerfi í 2012.
Á því ári tókst Alex Krizhevsky og teymi hans frá háskólanum í Toronto að ná fram mjög nákvæmu reikniriti sem getur flokkað hluti.
The háþróaða taugakerfi, sem nú er þekkt sem AlexNet, gat flokkað hluti í ImageNet sjónræna gagnagrunninum með mun lægri villuhlutfalli en sá í öðru sæti.
Taugakerfi eru reiknirit sem nota net stærðfræðilegra aðgerða til að læra ákveðna hegðun byggða á sumum þjálfunargögnum. Til dæmis geturðu fóðrað tauganet læknisfræðileg gögn til að þjálfa líkanið til að greina sjúkdóm eins og krabbamein.
Vonin er sú að tauganetið finni hægt og rólega mynstur í gögnunum og verði nákvæmara þegar ný gögn eru gefin.
AlexNet var byltingarkennd forrit fyrir a byltingar taugakerfi eða CNN. „Convolutional“ leitarorðið vísar til að bæta við snúningslaga sem leggur meiri áherslu á gögn sem eru nær saman.
Þó að CNN hafi þegar verið hugmynd á níunda áratugnum, byrjuðu þeir aðeins að ná vinsældum snemma á tíunda áratugnum þegar nýjasta GPU tæknin ýtti tækninni í nýjar hæðir.
Árangur CNN á sviði tölva sýn leitt til meiri áhuga á rannsóknum á tauganetum.
Tæknirisar eins og Google og Facebook ákváðu að gefa út eigin gervigreindarramma til almennings. API á háu stigi eins og Keras gaf notendum notendavænt viðmót til að gera tilraunir með djúp taugakerfi.
CNN voru frábærir í myndgreiningu og myndbandsgreiningu en áttu í vandræðum þegar kemur að því að leysa tungumálatengd vandamál. Þessi takmörkun í náttúrulegri málvinnslu gæti verið til staðar vegna þess að hvernig myndir og texti eru í raun og veru ólík vandamál.
Til dæmis ef þú ert með líkan sem flokkar hvort mynd innihaldi umferðarljós getur viðkomandi umferðarljós birst hvar sem er á myndinni. Hins vegar virkar þessi tegund af mildi ekki vel í tungumálinu. Setningin „Bob át fisk“ og „Fiskur át Bob“ hafa mjög mismunandi merkingu þrátt fyrir að nota sömu orðin.
Það var orðið ljóst að vísindamenn þyrftu að finna nýja nálgun til að leysa vandamál sem snerta tungumál manna.
Transformers breyta öllu
Í 2017, a rannsóknarritgerð sem ber titilinn „Attention Is All You Need“ lagði til nýja tegund netkerfis: Transformer.
Á meðan CNN vinnur með því að sía ítrekað litla hluta myndar, tengja spennar hvern þátt í gögnunum við annan hvern þátt. Vísindamenn kalla þetta ferli „sjálfs athygli“.
Þegar reynt er að flokka setningar virka CNN og spennar mjög mismunandi. Þó að CNN muni einbeita sér að því að mynda tengingar við orð sem eru nálægt hvort öðru, mun spennir búa til tengingar á milli hvers orðs í setningu.
Sjálfsathyglisferlið er óaðskiljanlegur hluti þess að skilja mannamál. Með því að þysja út og skoða hvernig öll setningin passar saman geta vélar haft skýrari skilning á uppbyggingu setningarinnar.
Þegar fyrstu spennilíkönin voru gefin út, notuðu vísindamenn fljótlega nýja arkitektúrinn til að nýta sér hið ótrúlega magn af textagögnum sem finnast á internetinu.
GPT-3 og internetið
Árið 2020, OpenAI's GPT-3 líkanið sýndi hversu áhrifaríkar spennar geta verið. GPT-3 var fær um að gefa út texta sem virðist nánast ógreinanlegur frá manni. Hluti af því sem gerði GPT-3 svo öflugt var magn þjálfunargagna sem notað var. Megnið af forþjálfunargagnagrunni líkansins kemur frá gagnasafni sem kallast Common Crawl sem kemur með yfir 400 milljarða tákn.
Þó að geta GPT-3 til að búa til raunhæfan mannlegan texta hafi verið byltingarkennd ein og sér, uppgötvuðu vísindamenn hvernig sama líkan getur leyst önnur verkefni.
Til dæmis getur sama GPT-3 líkanið og þú getur notað til að búa til kvak einnig hjálpað þér að draga saman texta, endurskrifa málsgrein og klára sögu. Tungumálalíkön eru orðnir svo öflugir að þeir eru nú í raun almennt verkfæri sem fylgja hvers kyns skipunum.
Almennur tilgangur GPT-3 hefur gert ráð fyrir slíkum forritum GitHub Copilot, sem gerir forriturum kleift að búa til vinnukóða úr venjulegri ensku.
Dreifingarlíkön: Frá texta til mynda
Framfarirnar sem náðst hafa með spennum og NLP hafa einnig rutt brautina fyrir skapandi gervigreind á öðrum sviðum.
Á sviði tölvusjónar höfum við þegar farið yfir hvernig djúpnám gerði vélum kleift að skilja myndir. Hins vegar þurftum við enn að finna leið fyrir gervigreind til að búa til myndir sjálf frekar en bara að flokka þær.
Generative myndlíkön eins og DALL-E 2, Stable Diffusion og Midjourney hafa orðið vinsæl vegna þess hvernig þau geta umbreytt textainnslátt í myndir.
Þessi myndlíkön reiða sig á tvo lykilþætti: líkan sem skilur samband mynda og texta og líkan sem getur í raun búið til háskerpumynd sem passar við inntakið.
OpenAI KLIPPI (Contrastive Language–Image Pre-training) er opinn uppspretta líkan sem miðar að því að leysa fyrsta þáttinn. Að teknu tilliti til myndar getur CLIP líkanið spáð fyrir um viðeigandi textalýsingu fyrir þá tilteknu mynd.
CLIP líkanið virkar með því að læra hvernig á að draga út mikilvæga myndeiginleika og búa til einfaldari framsetningu myndar.
Þegar notendur gefa sýnishorn af textainnslátt í DALL-E 2 er inntakinu breytt í „myndainnfellingu“ með því að nota CLIP líkanið. Markmiðið núna er að finna leið til að búa til mynd sem passar við myndaða innfellingu myndarinnar.
Nýjustu gervigreindarmyndirnar nota a dreifingarlíkan að takast á við það verkefni að búa til í raun ímynd. Dreifingarlíkön treysta á taugakerfi sem voru fyrirfram þjálfuð til að vita hvernig á að fjarlægja aukinn hávaða úr myndum.
Meðan á þessu þjálfunarferli stendur getur tauganetið að lokum lært hvernig á að búa til mynd í hárri upplausn úr tilviljunarkenndri hávaðamynd. Þar sem við höfum þegar kortlagningu á texta og myndum frá CLIP, getum við það þjálfa dreifingarlíkan á CLIP myndinnfellingum til að búa til ferli til að búa til hvaða mynd sem er.
Generative AI Revolution: Hvað kemur næst?
Við erum núna á þeim tímapunkti þar sem bylting í kynslóða gervigreind eiga sér stað á nokkurra daga fresti. Þar sem það verður auðveldara og auðveldara að búa til mismunandi gerðir af miðlum með gervigreind, ættum við að hafa áhyggjur af því hvernig þetta gæti haft áhrif á samfélag okkar?
Þó áhyggjur af vélum sem skipta um starfsmenn hafi alltaf verið í umræðunni frá því að gufuvélin var fundin upp, þá virðist það vera svolítið öðruvísi í þetta skiptið.
Generative AI er að verða fjölnota tól sem getur truflað atvinnugreinar sem voru taldar öruggar frá yfirtöku gervigreindar.
Þurfum við forritara ef gervigreind getur byrjað að skrifa gallalausan kóða út frá nokkrum grunnleiðbeiningum? Mun fólk ráða skapandi efni ef það getur bara notað skapandi líkan til að framleiða framleiðsluna sem það vill ódýrara?
Það er erfitt að spá fyrir um framtíð kynslóðar gervigreindarbyltingarinnar. En nú þegar hið óeiginlega Pandóru-kassinn hefur verið opnaður vona ég að tæknin muni leyfa fleiri spennandi nýjungum sem geta skilið eftir jákvæð áhrif á heiminn.
Skildu eftir skilaboð