Wy binne wierskynlik krekt oan it begjin fan in nije generative AI-revolúsje.
Generative keunstmjittige yntelliginsje ferwiist nei algoritmen en modellen dy't yn steat binne ynhâld te meitsjen. De útfier fan sokke modellen omfettet tekst, audio en ôfbyldings dy't faaks kinne wurde fersin as echte minsklike útfier.
Applikaasjes lykas Chat GPT hawwe sjen litten dat generative AI gjin inkeld nijichheid is. AI is no yn steat om detaillearre ynstruksjes te folgjen en liket in djip begryp te hawwen fan hoe't de wrâld wurket.
Mar hoe kamen wy op dit punt? Yn dizze hantlieding sille wy troch guon fan 'e wichtige trochbraken yn AI-ûndersyk gean dy't it paad hawwe pleatst foar dizze nije en spannende generative AI-revolúsje.
De opkomst fan neurale netwurken
Jo kinne de oarsprong fan moderne AI trace nei it ûndersyk nei djippe learen en neurale netwurken yn 2012.
Yn dat jier koene Alex Krizhevsky en syn team fan 'e Universiteit fan Toronto in heul akkuraat algoritme realisearje dat objekten klassifisearje kin.
De state-of-the-art neural netwurk, no bekend as AlexNet, koe objekten yn 'e ImageNet-fisuele databank klassifisearje mei in folle legere flaterrate as de runner-up.
neurale netwurken binne algoritmen dy't in netwurk fan wiskundige funksjes brûke om in bepaald gedrach te learen basearre op guon treningsgegevens. Jo kinne bygelyks medyske gegevens in neuraal netwurk fiede om it model te trenen om in sykte lykas kanker te diagnostizen.
De hoop is dat it neurale netwurk stadichoan patroanen fynt yn 'e gegevens en krekter wurdt as nije gegevens wurde jûn.
AlexNet wie in trochbraak applikaasje fan in konvolúsjoneel neuraal netwurk of CNN's. It "konvolúsjonele" kaaiwurd ferwiist nei de tafoeging fan konvolúsjonele lagen dy't mear klam leit op gegevens dy't tichter byinoar binne.
Wylst CNN's al in idee wiene yn 'e 1980's, begon se pas yn 'e iere 2010's populariteit te winnen doe't de lêste GPU-technology de technology nei nije hichten triuwde.
It súkses fan CNNs op it mêd fan kompjûterfisy late ta mear belangstelling foar it ûndersyk fan neurale netwurken.
Tech-giganten lykas Google en Facebook besletten har eigen AI-kaders frij te litten oan it publyk. API's op hege nivo lykas Keras joech brûkers in brûkerfreonlike ynterface om te eksperimintearjen mei djippe neurale netwurken.
CNN's wiene geweldich yn byldherkenning en fideo-analyse, mar hienen problemen as it giet om it oplossen fan taalbasearre problemen. Dizze beheining yn natuerlike taalferwurking kin bestean om't hoe't bylden en tekst eins prinsipieel ferskillende problemen binne.
As jo bygelyks in model hawwe dat klassifisearret oft in ôfbylding in ferkearsljocht befettet, kin it oanbelangjende ferkearsljocht oeral yn de ôfbylding ferskine. Dizze soarte fan mildigens wurket lykwols net goed yn 'e taal. De sin "Bob iet fisk" en "Fisk iet Bob" hawwe hiel ferskillende betsjuttings nettsjinsteande it brûken fan deselde wurden.
It wie dúdlik wurden dat ûndersikers in nije oanpak fine moasten om problemen mei minsklike taal op te lossen.
Transformers feroarje alles
Yn 2017, a ûndersyksrapport mei de titel "Attention Is All You Need" stelde in nij soarte netwurk foar: de Transformer.
Wylst CNN's wurkje troch ferskate kearen lytse dielen fan in ôfbylding te filterjen, ferbine transformators elk elemint yn 'e gegevens mei elk oar elemint. Undersikers neame dit proses "selsoantinken".
As jo besykje sinnen te parsearjen, wurkje CNN's en transformators heul oars. Wylst in CNN sil rjochtsje op it foarmjen fan ferbinings mei wurden dy't tichtby inoar, in transformator sil meitsje ferbinings tusken elk wurd yn in sin.
It proses fan selsopmerking is in yntegraal ûnderdiel fan it begripen fan minsklike taal. Troch út te zoomjen en te sjen hoe't de hiele sin byinoar past, kinne masines in dúdliker begryp hawwe fan de struktuer fan 'e sin.
Sadree't de earste transformatormodellen waarden frijlitten, brûkten ûndersikers al gau de nije arsjitektuer om te profitearjen fan 'e ongelooflijke hoemannichte tekstgegevens fûn op it ynternet.
GPT-3 en it ynternet
Yn 2020, OpenAI's GPT-3 model liet sjen hoe effektyf transformators kinne wêze. GPT-3 koe tekst útfiere dy't hast net te ûnderskieden liket fan in minske. In part fan wat GPT-3 sa machtich makke wie de hoemannichte trainingsgegevens brûkt. It grutste part fan 'e foar-trainingsdataset fan it model komt út in dataset bekend as Common Crawl dy't komt mei mear dan 400 miljard tokens.
Wylst it fermogen fan GPT-3 om realistyske minsklike tekst te generearjen op himsels baanbrekkend wie, ûntdutsen ûndersikers hoe't itselde model oare taken kin oplosse.
Bygelyks, itselde GPT-3-model dat jo kinne brûke om in tweet te generearjen, kin jo ek helpe om tekst gearfetsje, in alinea oerskriuwe en in ferhaal ôfmeitsje. Taalmodellen binne sa machtich wurden dat se no yn essinsje algemiene ynstruminten binne dy't elk type kommando folgje.
GPT-3 syn algemiene-doel natuer hat tastien foar applikaasjes sokke GitHub Copilot, wêrtroch programmeurs wurkje koade kinne generearje út gewoan Ingelsk.
Diffúsjemodellen: fan tekst nei ôfbyldings
De foarútgong makke mei transformators en NLP hat ek it paad pleatst foar generative AI op oare fjilden.
Yn it ryk fan komputerfisy hawwe wy al behannele hoe djip learen masines mooglik makke om bylden te ferstean. Wy moasten lykwols noch in manier fine foar AI om ôfbyldings sels te generearjen ynstee fan se gewoan te klassifisearjen.
Generative ôfbyldingsmodellen lykas DALL-E 2, Stable Diffusion en Midjourney binne populêr wurden fanwegen hoe't se tekstynfier kinne konvertearje nei ôfbyldings.
Dizze byldmodellen fertrouwe op twa wichtige aspekten: in model dat de relaasje tusken bylden en tekst begrypt en in model dat eins in hege-definysje-ôfbylding kin meitsje dy't oerienkomt mei de ynfier.
OpenAI's CLIP (Contrastive Language–Image Pre-training) is in iepen-boarne-model dat as doel hat it earste aspekt op te lossen. Mei in ôfbylding kin it CLIP-model de meast relevante tekstbeskriuwing foar dy bepaalde ôfbylding foarsizze.
It CLIP-model wurket troch te learen hoe't jo wichtige ôfbyldingsfunksjes ekstrahearje en in ienfâldiger foarstelling meitsje fan in ôfbylding.
Wannear't brûkers jouwe in foarbyld tekst ynfier nei DALL-E 2, de ynfier wurdt omsetten yn in "image ynbêde" mei help fan de CLIP model. It doel is no om in manier te finen om in ôfbylding te generearjen dy't oerienkomt mei de generearre ôfbylding ynbêde.
De lêste generative ôfbylding AI's brûke in diffusion model om de taak oan te pakken om eins in byld te meitsjen. Diffusjonsmodellen fertrouwe op neurale netwurken dy't foarôf traind wiene om te witten hoe't jo tafoege lûd fan ôfbyldings ferwiderje.
Tidens dit proses fan training kin it neurale netwurk úteinlik leare hoe't jo in ôfbylding mei hege resolúsje meitsje kinne fan in willekeurige lûdôfbylding. Om't wy al in mapping fan tekst en bylden hawwe levere troch CLIP, kinne wy traine in diffusion model op CLIP-ôfbylding-ynbêdingen om in proses te meitsjen om elke ôfbylding te generearjen.
Generative AI-revolúsje: wat komt folgjende?
Wy binne no op in punt wêr't trochbraken yn generative AI elke pear dagen plakfine. Mei't it makliker en makliker wurdt om ferskate soarten media te generearjen mei AI, moatte wy ús soargen meitsje oer hoe't dit ús maatskippij kin beynfloedzje?
Wylst de soargen fan masines dy't arbeiders ferfange, altyd yn 'e konversaasje west hawwe sûnt de útfining fan' e stoommasine, liket it derop dat it dizze kear in bytsje oars is.
Generative AI wurdt in multyfunksjoneel ark dat yndustry kin fersteure dy't feilich waarden achte fan in AI-oername.
Sille wy programmeurs nedich wêze as AI kin begjinne te skriuwen flaterfrije koade út in pear basisynstruksjes? Sille minsken kreativen hiere as se gewoan in generatyf model kinne brûke om de útfier te produsearjen dy't se goedkeaper wolle?
It is lestich om de takomst fan 'e generative AI-revolúsje te foarsizzen. Mar no't de figurative Pandora's doaze is iepene, hoopje ik dat de technology mear spannende ynnovaasjes sil tastean dy't in positive ynfloed kinne litte op 'e wrâld.
Leave a Reply