X'aktarx qegħdin fil-bidu ta' rivoluzzjoni ġdida tal-AI ġenerattiva.
L-intelliġenza artifiċjali ġenerattiva tirreferi għal algoritmi u mudelli li huma kapaċi joħolqu kontenut. L-output ta 'dawn il-mudelli jinkludi test, awdjo, u stampi li ħafna drabi jistgħu jiġu żbaljati bħala output uman reali.
Applikazzjonijiet bħal Chat GPT wrew li l-AI ġenerattiva mhix sempliċi novità. L-AI issa kapaċi ssegwi struzzjonijiet dettaljati u tidher li għandha fehim profond ta 'kif taħdem id-dinja.
Imma kif wasalna sa dan il-punt? F'din il-gwida, se ngħaddu minn xi wħud mill-avvanzi ewlenin fir-riċerka tal-IA li wittew it-triq għal din ir-rivoluzzjoni tal-AI ġenerattiva ġdida u eċċitanti.
Iż-Żieda tan-Netwerks Newrali
Tista 'traċċa l-oriġini tal-AI moderna għar-riċerka dwar tagħlim profond u netwerks newrali fil 2012.
F'dik is-sena, Alex Krizhevsky u t-tim tiegħu mill-Università ta 'Toronto setgħu jiksbu algoritmu preċiż ħafna li jista' jikklassifika l-oġġetti.
il netwerk newrali mill-aktar avvanzat, magħrufa issa bħala AlexNet, kienet kapaċi tikklassifika l-oġġetti fid-database viżwali ImageNet b'rata ta 'żball ħafna aktar baxxa mir-runner-up.
Netwerks newrali huma algoritmi li jużaw netwerk ta 'funzjonijiet matematiċi biex jitgħallmu mġiba partikolari bbażata fuq xi data ta' taħriġ. Pereżempju, tista' tgħaddi dejta medika ta' netwerk newrali sabiex tħarreġ il-mudell biex tiddijanjostika marda bħall-kanċer.
It-tama hija li n-netwerk newrali bil-mod isib mudelli fid-dejta u jsir aktar preċiż meta jingħata dejta ġdida.
AlexNet kienet applikazzjoni innovattiva ta 'a netwerk newrali konvolutjonali jew CNNs. Il-kelma prinċipali "konvoluzzjonali" tirreferi għaż-żieda ta 'saffi konvoluzzjonali li tpoġġi aktar enfasi fuq data li tkun eqreb flimkien.
Filwaqt li s-CNNs kienu diġà idea fis-snin tmenin, bdew jiksbu popolarità biss fil-bidu tas-snin 1980 meta l-aħħar teknoloġija tal-GPU imbuttat it-teknoloġija għal għoli ġdid.
Is-suċċess tas-CNNs fil-qasam tal viżjoni tal-kompjuter wassal għal aktar interess fir-riċerka tan-netwerks newrali.
Ġganti teknoloġiċi bħal Google u Facebook iddeċidew li jirrilaxxaw l-oqfsa tal-AI tagħhom stess lill-pubbliku. APIs ta' livell għoli bħal Keras ta lill-utenti interface faċli għall-utent biex jesperimentaw b'netwerks newrali profondi.
Is-CNNs kienu tajbin fir-rikonoxximent tal-immaġni u l-analiżi tal-vidjow iżda kienu qed ikollhom problemi meta jiġu biex isolvu problemi bbażati fuq il-lingwa. Din il-limitazzjoni fl-ipproċessar tal-lingwa naturali tista' teżisti minħabba li kif l-immaġini u t-test huma fil-fatt problemi fundamentalment differenti.
Pereżempju, jekk għandek mudell li jikklassifika jekk immaġini fihx dawl tat-traffiku, id-dawl tat-traffiku inkwistjoni jista' jidher kullimkien fl-immaġini. Madankollu, din it-tip ta’ klemenza ma taħdimx tajjeb fil-lingwa. Is-sentenza "Bob ate ħut" u "Fish ate Bob" għandhom tifsiriet differenti ħafna minkejja li jużaw l-istess kliem.
Kien deher ċar li r-riċerkaturi kellhom bżonn isibu approċċ ġdid biex isolvu problemi li jinvolvu l-lingwa umana.
It-trasformaturi jibdlu kollox
Fi 2017, ta ' karta ta 'riċerka bit-titlu "L-attenzjoni hija kulma għandek bżonn" ippropona tip ġdid ta 'netwerk: it-Transformer.
Filwaqt li CNNs jaħdmu billi ripetutament jiffiltraw porzjonijiet żgħar ta 'immaġni, transformers jgħaqqdu kull element fid-data ma' kull element ieħor. Ir-riċerkaturi jsejħu dan il-proċess "awto-attenzjoni".
Meta jippruvaw jparse sentenzi, CNNs u transformers jaħdmu b'mod differenti ħafna. Filwaqt li CNN se jiffoka fuq li jifforma konnessjonijiet ma 'kliem li huma ħdejn xulxin, transformer se joħloq konnessjonijiet bejn kull kelma f'sentenza.
Il-proċess ta 'awto-attenzjoni huwa parti integrali mill-fehim tal-lingwa umana. Billi żżom u tħares lejn kif is-sentenza kollha taqbel flimkien, il-magni jista 'jkollhom fehim aktar ċar tal-istruttura tas-sentenza.
Ladarba l-ewwel mudelli tat-transformer ġew rilaxxati, ir-riċerkaturi dalwaqt użaw l-arkitettura l-ġdida biex jieħdu vantaġġ mill-ammont inkredibbli ta 'dejta tat-test misjuba fuq l-internet.
GPT-3 u l-Internet
Fl-2020, OpenAI's GPT-3 mudell wera kemm transformers effettivi jistgħu jkunu. GPT-3 kien kapaċi joħroġ test li jidher kważi indistingwibbli minn bniedem. Parti minn dak li għamel GPT-3 tant qawwi kien l-ammont ta 'dejta tat-taħriġ użata. Ħafna mis-sett tad-dejta ta’ qabel it-taħriġ tal-mudell ġej minn sett ta’ dejta magħruf bħala Common Crawl li jiġi b’aktar minn 400 biljun token.
Filwaqt li l-kapaċità ta 'GPT-3 li tiġġenera test uman realistiku kienet innovattiva waħedha, ir-riċerkaturi skoprew kif l-istess mudell jista' jsolvi kompiti oħra.
Pereżempju, l-istess mudell GPT-3 li tista 'tuża biex tiġġenera tweet jista' wkoll jgħinek tiġbor fil-qosor it-test, tikteb mill-ġdid paragrafu, u tispiċċa storja. Mudelli tal-lingwa tant saru b'saħħithom li issa huma essenzjalment għodod għal skopijiet ġenerali li jsegwu kwalunkwe tip ta 'kmand.
In-natura ta 'skop ġenerali ta' GPT-3 ippermettiet għal applikazzjonijiet bħal dawn GitHub Copilot, li jippermetti lill-programmaturi jiġġeneraw kodiċi tax-xogħol mill-Ingliż sempliċi.
Mudelli ta' Diffużjoni: Mit-Test għal Stampi
Il-progress li sar bit-trasformaturi u l-NLP witta wkoll it-triq għal AI ġenerattiva f'oqsma oħra.
Fil-qasam tal-viżjoni bil-kompjuter, diġà koprejna kif it-tagħlim fil-fond ippermetta lill-magni jifhmu l-immaġini. Madankollu, għadna bżonn insibu mod biex l-AI tiġġenera immaġini huma stess aktar milli sempliċement tikklassifikahom.
Mudelli ta’ immaġni ġenerattivi bħal DALL-E 2, Stable Diffusion, u Midjourney saru popolari minħabba kif huma kapaċi jikkonvertu l-input tat-test għal immaġini.
Dawn il-mudelli tal-immaġni jiddependu fuq żewġ aspetti ewlenin: mudell li jifhem ir-relazzjoni bejn l-immaġini u t-test u mudell li fil-fatt jista 'joħloq immaġni ta' definizzjoni għolja li taqbel mal-input.
OpenAI's CLIP (Kontrastive Language–Image Pre-training) huwa mudell open-source li jimmira li jsolvi l-ewwel aspett. Minħabba immaġni, il-mudell CLIP jista' jbassar l-aktar deskrizzjoni tat-test rilevanti għal dik l-immaġni partikolari.
Il-mudell CLIP jaħdem billi jitgħallem kif jiġi estratt karatteristiċi importanti tal-immaġni u joħloq rappreżentazzjoni aktar sempliċi ta 'immaġni.
Meta l-utenti jipprovdu input ta 'test ta' kampjun għal DALL-E 2, l-input jiġi kkonvertit f'"inkorporazzjoni ta 'immaġni" bl-użu tal-mudell CLIP. L-għan issa huwa li jinstab mod kif tiġġenera immaġini li taqbel mal-inkorporazzjoni tal-immaġni ġġenerata.
L-aħħar immaġini ġenerattivi AI jużaw a mudell tad-diffużjoni biex tindirizza l-kompitu li fil-fatt toħloq immaġini. Mudelli ta 'diffużjoni jiddependu fuq netwerks newrali li kienu mħarrġa minn qabel biex ikunu jafu kif ineħħu l-istorbju miżjud mill-immaġini.
Matul dan il-proċess ta 'taħriġ, in-netwerk newrali jista' eventwalment jitgħallem kif joħloq immaġni ta 'riżoluzzjoni għolja minn immaġni ta' storbju każwali. Peress li diġà għandna mapping ta 'test u stampi pprovduti minn CLIP, nistgħu ħarreġ mudell ta' diffużjoni fuq inkorporazzjonijiet ta 'immaġni CLIP biex jinħoloq proċess biex jiġġenera kwalunkwe immaġini.
Rivoluzzjoni tal-AI Ġenerattiva: X'jiġi wara?
Issa qegħdin f'punt fejn skoperti fl-AI ġenerattiva qed iseħħu kull ftit jiem. Billi jsir aktar faċli u aktar faċli li jiġu ġġenerati tipi differenti ta' midja bl-użu tal-AI, għandna nkunu inkwetati dwar kif dan jista' jaffettwa s-soċjetà tagħna?
Filwaqt li l-inkwiet tal-magni li jissostitwixxu l-ħaddiema dejjem kienu fil-konversazzjoni mill-invenzjoni tal-magna tal-fwar, jidher li din id-darba hija daqsxejn differenti.
L-AI ġenerattiva qed issir għodda b'ħafna użi li tista' tfixkel industriji li kienu meqjusa sikuri minn akkwist tal-AI.
Se jkollna bżonn programmaturi jekk l-AI tista 'tibda tikteb kodiċi bla difetti minn ftit istruzzjonijiet bażiċi? In-nies se jimpjegaw kreattivi jekk jistgħu biss jużaw mudell ġenerattiv biex jipproduċu l-output li jridu għal irħas?
Huwa diffiċli li wieħed ibassar il-futur tar-rivoluzzjoni ġenerattiva tal-AI. Imma issa li nfetħet il-kaxxa ta' Pandora figurattiva, nittama li t-teknoloġija tippermetti aktar innovazzjonijiet eċċitanti li jistgħu jħallu impatt pożittiv fuq id-dinja.
Ħalli Irrispondi