Visticamāk, mēs esam tikai jaunas ģeneratīvas AI revolūcijas sākumā.
Ģeneratīvais mākslīgais intelekts attiecas uz algoritmiem un modeļiem, kas spēj radīt saturu. Šādu modeļu izvade ietver tekstu, audio un attēlus, kurus bieži var sajaukt ar īstu cilvēka izvadi.
Lietojumprogrammas, piemēram ChatGPT ir parādījuši, ka ģeneratīvais AI nav tikai jaunums. AI tagad spēj izpildīt detalizētus norādījumus, un šķiet, ka viņam ir dziļa izpratne par to, kā pasaule darbojas.
Bet kā mēs nonācām līdz šim punktam? Šajā rokasgrāmatā mēs apskatīsim dažus galvenos sasniegumus AI izpētē, kas ir pavēruši ceļu šai jaunajai un aizraujošajai ģeneratīvajai AI revolūcijai.
Neironu tīklu pieaugums
Jūs varat izsekot mūsdienu AI pirmsākumiem līdz pētījumiem par dziļā mācīšanās un neironu tīkli jo 2012.
Tajā gadā Alekss Križevskis un viņa komanda no Toronto universitātes spēja sasniegt ļoti precīzu algoritmu, kas var klasificēt objektus.
Jūsu darbs IR Klientu apkalpošana vismodernākais neironu tīkls, kas tagad pazīstams kā AlexNet, spēja klasificēt objektus ImageNet vizuālajā datu bāzē ar daudz zemāku kļūdu līmeni nekā otrās vietas ieguvējs.
Neironu tīkli ir algoritmi, kas izmanto matemātisko funkciju tīklu, lai apgūtu noteiktu uzvedību, pamatojoties uz dažiem apmācības datiem. Piemēram, varat ievadīt neironu tīkla medicīniskos datus, lai apmācītu modeli diagnosticēt tādu slimību kā vēzis.
Cerams, ka neironu tīkls lēnām atrod datu modeļus un kļūst precīzāks, ja tiek sniegti jauni dati.
AlexNet bija revolucionārs pielietojums a konvolūcijas neironu tīkls vai CNN. Atslēgvārds “konvolucionāls” attiecas uz konvolucionālu slāņu pievienošanu, kas liek lielāku uzsvaru uz datiem, kas ir tuvāk viens otram.
Lai gan CNN bija ideja jau 1980. gados, tie sāka iegūt popularitāti tikai 2010. gadu sākumā, kad jaunākā GPU tehnoloģija izvirzīja tehnoloģiju jaunos augstumos.
CNN panākumi jomā datora vīzija izraisīja lielāku interesi par neironu tīklu izpēti.
Tādi tehnoloģiju giganti kā Google un Facebook nolēma publiskot savus AI ietvarus. Augsta līmeņa API, piemēram, Keras sniedza lietotājiem lietotājam draudzīgu saskarni, lai eksperimentētu ar dziļiem neironu tīkliem.
CNN lieliski atpazina attēlu atpazīšanu un video analīzi, taču viņiem radās problēmas, risinot ar valodu saistītas problēmas. Šis dabiskās valodas apstrādes ierobežojums varētu pastāvēt tāpēc, ka attēli un teksts patiesībā ir būtiski atšķirīgas problēmas.
Piemēram, ja jums ir modelis, kas klasificē, vai attēlā ir luksofors, attiecīgais luksofors var parādīties jebkurā attēla vietā. Tomēr šāda veida iecietība šajā valodā nedarbojas. Teikumam “Bobs ēda zivis” un “Zivis ēda Bobu” ir ļoti atšķirīga nozīme, neskatoties uz to, ka tiek lietoti vienādi vārdi.
Bija kļuvis skaidrs, ka pētniekiem ir jāatrod jauna pieeja, lai atrisinātu problēmas, kas saistītas ar cilvēka valodu.
Transformatori maina visu
In 2017, a pētniecība papīrs ar nosaukumu “Uzmanība ir viss, kas jums nepieciešams” piedāvāja jauna veida tīklu: transformatoru.
Kamēr CNN darbojas, atkārtoti filtrējot nelielas attēla daļas, transformatori savieno katru datu elementu ar katru citu elementu. Pētnieki šo procesu sauc par “pašuzmanību”.
Mēģinot parsēt teikumus, CNN un transformatori darbojas ļoti atšķirīgi. Kamēr CNN koncentrēsies uz savienojumu veidošanu ar vārdiem, kas atrodas tuvu viens otram, transformators izveidos savienojumus starp katru vārdu teikumā.
Sevis uzmanības process ir cilvēka valodas izpratnes neatņemama sastāvdaļa. Tālinot un aplūkojot, kā viss teikums sader kopā, mašīnas var skaidrāk izprast teikuma struktūru.
Kad pirmie transformatoru modeļi tika izlaisti, pētnieki drīz izmantoja jauno arhitektūru, lai izmantotu neticami daudz internetā atrodamo teksta datu.
GPT-3 un internets
2020. gadā OpenAI's GPT-3 modelis parādīja, cik efektīvi var būt transformatori. GPT-3 spēja izvadīt tekstu, kas šķiet gandrīz neatšķirams no cilvēka. Daļa no tā, kas padarīja GPT-3 tik spēcīgu, bija izmantoto apmācības datu apjoms. Lielākā daļa modeļa pirmsapmācības datu kopas nāk no datu kopas, kas pazīstama kā Common Crawl un kurā ir vairāk nekā 400 miljardi marķieru.
Lai gan GPT-3 spēja ģenerēt reālistisku cilvēka tekstu bija revolucionāra pati par sevi, pētnieki atklāja, kā tas pats modelis var atrisināt citus uzdevumus.
Piemēram, tas pats GPT-3 modelis, ko varat izmantot tvīta ģenerēšanai, var arī palīdzēt jums apkopot tekstu, pārrakstīt rindkopu un pabeigt stāstu. Valodu modeļi ir kļuvuši tik spēcīgi, ka tagad būtībā tie ir vispārējas nozīmes rīki, kas izpilda jebkura veida komandas.
GPT-3 universālais raksturs ir ļāvis izmantot šādus lietojumus GitHub Copilot, kas ļauj programmētājiem ģenerēt darba kodu no vienkāršas angļu valodas.
Difūzijas modeļi: no teksta līdz attēliem
Ar transformatoriem un NLP panāktais progress ir arī pavēris ceļu ģeneratīvai AI citās jomās.
Datorredzes jomā mēs jau esam apskatījuši, kā dziļa mācīšanās ļāva mašīnām izprast attēlus. Tomēr mums joprojām bija jāatrod veids, kā AI varētu ģenerēt attēlus, nevis tikai tos klasificēt.
Ģeneratīvie attēlu modeļi, piemēram, DALL-E 2, Stable Diffusion un Midjourney, ir kļuvuši populāri, jo tie spēj pārvērst teksta ievadi attēlos.
Šie attēlu modeļi balstās uz diviem galvenajiem aspektiem: modeli, kas izprot attiecības starp attēliem un tekstu, un modeli, kas faktiski var izveidot augstas izšķirtspējas attēlu, kas atbilst ievadei.
OpenAI CLIP (Kontrastīvās valodas un attēla iepriekšēja apmācība) ir atvērtā koda modelis, kura mērķis ir atrisināt pirmo aspektu. Ņemot vērā attēlu, CLIP modelis var paredzēt visatbilstošāko teksta aprakstu šim konkrētajam attēlam.
CLIP modelis darbojas, mācoties iegūt svarīgas attēla funkcijas un izveidot vienkāršāku attēla atveidojumu.
Kad lietotāji DALL-E 2 nodrošina teksta ievades paraugu, ievade tiek pārveidota par “attēla iegulšanu”, izmantojot CLIP modeli. Tagad mērķis ir atrast veidu, kā ģenerēt attēlu, kas atbilst ģenerētajam attēla iegulšanai.
Jaunākie ģeneratīvo attēlu AI izmanto a difūzijas modelis lai risinātu uzdevumu izveidot attēlu. Difūzijas modeļi balstās uz neironu tīkliem, kas bija iepriekš apmācīti, lai zinātu, kā no attēliem noņemt pievienoto troksni.
Šī apmācības procesa laikā neironu tīkls galu galā var iemācīties izveidot augstas izšķirtspējas attēlu no nejauša trokšņa attēla. Tā kā mums jau ir CLIP nodrošināta teksta un attēlu kartēšana, mēs to varam apmācīt difūzijas modeli uz CLIP attēla iegulšanu, lai izveidotu procesu jebkura attēla ģenerēšanai.
Ģeneratīvā mākslīgā intelekta revolūcija: kas notiks tālāk?
Tagad mēs esam situācijā, kad ģeneratīvā AI sasniegumi notiek ik pēc pāris dienām. Tā kā dažādu veidu mediju ģenerēšana, izmantojot AI, kļūst arvien vieglāk un vieglāk, vai mums būtu jāuztraucas par to, kā tas varētu ietekmēt mūsu sabiedrību?
Lai gan rūpes par mašīnām, kas aizstāj strādniekus, vienmēr ir bijušas sarunās kopš tvaika dzinēja izgudrošanas, šķiet, ka šoreiz tas ir nedaudz savādāk.
Ģeneratīvais AI kļūst par daudzfunkcionālu rīku, kas var sagraut nozares, kuras tika uzskatītas par drošām no AI pārņemšanas.
Vai mums būs nepieciešami programmētāji, ja mākslīgais intelekts var sākt rakstīt nevainojamu kodu, izmantojot dažus pamata norādījumus? Vai cilvēki pieņems darbā reklāmas, ja varēs izmantot ģeneratīvu modeli, lai lētāk ražotu vēlamo produkciju?
Ir grūti paredzēt ģeneratīvās AI revolūcijas nākotni. Bet tagad, kad figurālā Pandoras lāde ir atvērta, es ceru, ka tehnoloģija ļaus ieviest aizraujošākas inovācijas, kas var atstāt pozitīvu iespaidu uz pasauli.
Atstāj atbildi