Ni verŝajne estas ĵus ĉe la komenco de nova genera AI-revolucio.
Genera artefarita inteligenteco rilatas al algoritmoj kaj modeloj, kiuj kapablas krei enhavon. La produktaĵo de tiaj modeloj inkludas tekston, aŭdion, kaj bildojn kiuj ofte povas esti miskomprenitaj kiel reala homa produktaĵo.
Aplikoj kiel Babilado GPT montris, ke genera AI ne estas nura novaĵo. AI nun kapablas sekvi detalajn instrukciojn kaj ŝajnas havi profundan komprenon pri kiel la mondo funkcias.
Sed kiel ni alvenis al ĉi tiu punkto? En ĉi tiu gvidilo, ni trairos kelkajn el la ĉefaj sukcesoj en AI-esplorado, kiuj malfermis la vojon por ĉi tiu nova kaj ekscita generativa AI-revolucio.
La Pliiĝo de Neŭralaj Retoj
Vi povas spuri la originojn de moderna AI al la esplorado pri profunda lernado kaj neŭralaj retoj en 2012.
En tiu jaro, Alex Krizhevsky kaj lia teamo de la Universitato de Toronto povis realigi tre precizan algoritmon kiu povas klasifiki objektojn.
la pintnivela neŭrala reto, konata nun kiel AlexNet, povis klasifiki objektojn en la ImageNet vida datumbazo kun multe pli malalta erarofteco ol la dualokulo.
Neŭronaj retoj estas algoritmoj kiuj uzas reton de matematikaj funkcioj por lerni apartan konduton bazitan sur iuj trejnaj datumoj. Ekzemple, vi povas nutri neŭralan reton medicinajn datumojn por trejni la modelon por diagnozi malsanon kiel kancero.
La espero estas, ke la neŭrala reto malrapide trovas ŝablonojn en la datumoj kaj iĝas pli preciza kiam oni ricevas novajn datumojn.
AlexNet estis nova apliko de a konvolucia neŭrala reto aŭ CNN-oj. La "konvolucia" ŝlosilvorto rilatas al la aldono de konvoluciaj tavoloj, kiuj pli emfazas datumojn pli proksimajn.
Dum CNN-oj jam estis ideo en la 1980-aj jaroj, ili nur komencis akiri popularecon en la fruaj 2010-aj jaroj kiam la plej nova GPU-teknologio puŝis la teknologion al novaj altecoj.
La sukceso de CNNs en la kampo de komputila vidado kondukis al pli da intereso en la esplorado de neŭralaj retoj.
Teknikaj gigantoj kiel Google kaj Facebook decidis liberigi siajn proprajn AI-kadrojn al la publiko. Altnivelaj APIoj kiel ekzemple Keras donis al uzantoj afablan interfacon por eksperimenti kun profundaj neŭralaj retoj.
CNN-oj estis bonegaj pri bildrekono kaj videanalizo, sed havis problemojn kiam temas pri solvi lingvajn problemojn. Ĉi tiu limigo en naturlingva prilaborado povus ekzisti ĉar kiel bildoj kaj teksto estas fakte esence malsamaj problemoj.
Ekzemple, se vi havas modelon, kiu klasifikas ĉu bildo enhavas semaforon, la koncerna semaforo povas aperi ie ajn en la bildo. Tamen, ĉi tiu speco de mildeco ne funkcias bone en la lingvo. La frazo "Bob manĝis fiŝon" kaj "Fiŝo manĝis Bob" havas ege malsamajn signifojn malgraŭ uzado de la samaj vortoj.
Evidentiĝis, ke esploristoj bezonas trovi novan aliron por solvi problemojn pri homa lingvo.
Transformiloj ŝanĝas ĉion
En 2017, a esploro papero titolita "Atento Estas Ĉio, kion Vi Bezonas" proponis novan specon de reto: la Transformilo.
Dum CNNoj funkcias plurfoje filtrante malgrandajn partojn de bildo, transformiloj ligas ĉiun elementon en la datumoj kun ĉiu alia elemento. Esploristoj nomas ĉi tiun procezon "mem-atento".
Kiam oni provas analizi frazojn, CNN-oj kaj transformiloj funkcias tre malsame. Dum CNN koncentriĝos pri formado de ligoj kun vortoj kiuj estas proksime unu la alian, transformilo kreos ligojn inter ĉiu kaj ĉiu vorto en frazo.
La mematenta procezo estas integra parto de komprenado de homa lingvo. Malproksimigante kaj rigardante kiel la tuta frazo kuniĝas, maŝinoj povas havi pli klaran komprenon de la strukturo de la frazo.
Post kiam la unuaj transformilmodeloj estis liberigitaj, esploristoj baldaŭ uzis la novan arkitekturon por utiligi la nekredeblan kvanton da tekstaj datumoj trovitaj en la interreto.
GPT-3 kaj la Interreto
En 2020, OpenAI-oj GPT-3 modelo montris kiom efikaj transformiloj povas esti. GPT-3 povis eligi tekston kiu ŝajnas preskaŭ nedistingebla de homo. Parto de tio, kio faris GPT-3 tiel potenca, estis la kvanto da trejnaj datumoj uzataj. Plejparto de la antaŭtrejna datumaro de la modelo venas de datumaro konata kiel Common Crawl, kiu venas kun pli ol 400 miliardoj da ĵetonoj.
Dum la kapablo de GPT-3 generi realisman homan tekston estis pionira per si mem, esploristoj malkovris kiel la sama modelo povas solvi aliajn taskojn.
Ekzemple, la sama modelo GPT-3, kiun vi povas uzi por generi tweeton, ankaŭ povas helpi vin resumi tekston, reverki alineon kaj fini rakonton. Lingvaj modeloj fariĝis tiel potencaj, ke ili nun estas esence ĝeneraluzeblaj iloj, kiuj sekvas ajnan specon de komando.
La ĝeneraluzebla naturo de GPT-3 permesis tiajn aplikojn GitHub Kopiloto, kiu permesas al programistoj generi laborkodon el simpla angla.
Disvastigo-Modeloj: De Teksto al Bildoj
La progreso farita kun transformiloj kaj NLP ankaŭ pavimis la vojon por genera AI en aliaj kampoj.
En la sfero de komputila vizio, ni jam kovris kiom profunda lernado permesis al maŝinoj kompreni bildojn. Tamen, ni ankoraŭ bezonis trovi manieron por ke AI generi bildojn mem prefere ol simple klasifiki ilin.
Generaj bildmodeloj kiel DALL-E 2, Stable Diffusion kaj Midjourney populariĝis pro kiel ili kapablas konverti tekston en bildoj.
Ĉi tiuj bildmodeloj dependas de du ŝlosilaj aspektoj: modelo kiu komprenas la rilaton inter bildoj kaj teksto kaj modelo kiu povas fakte krei altdifinan bildon kiu kongruas kun la enigo.
OpenAI-oj CLIP (Kontrasta Lingvo–Bilda Antaŭtrejnado) estas malfermfonta modelo kiu celas solvi la unuan aspekton. Donita bildo, la CLIP-modelo povas antaŭdiri la plej gravan tekstopriskribon por tiu speciala bildo.
La CLIP-modelo funkcias lernante kiel ĉerpi gravajn bildajn funkciojn kaj krei pli simplan reprezentadon de bildo.
Kiam uzantoj provizas specimenan tekstan enigaĵon al DALL-E 2, la enigo estas konvertita en "bildan enigon" uzante la CLIP-modelon. La celo nun estas trovi manieron generi bildon, kiu kongruas kun la generita bildo-enigo.
La plej novaj generaj bildaj AI uzas a disvastiga modelo por trakti la taskon efektive krei bildon. Disvastaj modeloj dependas de neŭralaj retoj, kiuj estis antaŭtrejnitaj por scii kiel forigi aldonitan bruon de bildoj.
Dum ĉi tiu procezo de trejnado, la neŭrala reto povas eventuale lerni kiel krei alt-rezolucian bildon el hazarda brua bildo. Ĉar ni jam havas mapadon de teksto kaj bildoj provizitaj de CLIP, ni povas trejni disvastigmodelon sur CLIP-bildaj enkonstruadoj por krei procezon por generi ajnan bildon.
Generativa AI-Revolucio: Kio sekvas?
Ni nun estas ĉe punkto, kie sukcesoj en genera AI okazas ĉiun duan tagon. Dum ĝi fariĝas pli facile kaj pli facile generi malsamajn specojn de amaskomunikilaro uzante AI, ĉu ni devas zorgi pri kiel ĉi tio povus influi nian socion?
Dum la zorgoj pri maŝinoj anstataŭantaj laboristoj ĉiam estis en la konversacio ekde la invento de la vapormaŝino, ŝajnas, ke ĝi estas iom malsama ĉi-foje.
Genera AI fariĝas universala ilo, kiu povas interrompi industriojn, kiuj estis konsiderataj sekuraj kontraŭ AI-transpreno.
Ĉu ni bezonos programistojn se AI povas komenci skribi senmankan kodon el kelkaj bazaj instrukcioj? Ĉu homoj dungos kreintojn se ili nur povas uzi generan modelon por produkti la produktaĵon, kiun ili volas pli malmultekoste?
Estas malfacile antaŭdiri la estontecon de la genera AI-revolucio. Sed nun kiam la figura skatolo de Pandora estis malfermita, mi esperas, ke la teknologio ebligos pli ekscitajn novigojn, kiuj povas lasi pozitivan efikon sur la mondo.
Lasi Respondon