Nou gen anpil chans jis nan kòmansman yon nouvo revolisyon AI jeneratif.
Jeneratif entèlijans atifisyèl refere a algoritm ak modèl ki kapab kreye kontni. Pwodiksyon nan modèl sa yo gen ladan tèks, odyo, ak imaj ki souvan ka fè erè kòm pwodiksyon imen reyèl.
Aplikasyon tankou Chat GPT yo te montre ke jeneratif AI se pa sèlman kado. AI se kounye a kapab swiv enstriksyon detaye epi li sanble gen yon konpreyansyon pwofon sou ki jan mond lan ap travay.
Men, ki jan nou te rive nan pwen sa a? Nan gid sa a, nou pral ale nan kèk nan dekouvèt kle nan rechèch AI ki te pave wout la pou nouvo ak enteresan revolisyon AI jeneratif sa a.
Ogmantasyon rezo neral yo
Ou ka trase orijin yo nan AI modèn nan rechèch la sou aprantisaj pwofon ak rezo neral nan 2012.
Nan ane sa a, Alex Krizhevsky ak ekip li a nan University of Toronto te kapab reyalize yon algorithm trè egzat ki ka klasifye objè yo.
Jounal rezo neral eta-of-atizay la, ke yo rekonèt kounye a kòm AlexNet, te kapab klasifye objè nan baz done a vizyèl ImageNet ak yon pousantaj erè pi ba anpil pase kourè-up la.
Rezo neral se algoritm ki sèvi ak yon rezo fonksyon matematik pou aprann yon konpòtman patikilye ki baze sou kèk done fòmasyon. Pou egzanp, ou ka bay yon rezo neral done medikal yo nan lòd yo fòme modèl la pou fè dyagnostik yon maladi tankou kansè.
Espwa a se ke rezo neral la tou dousman jwenn modèl nan done yo epi li vin pi egzak lè yo bay done nouvo.
AlexNet se te yon aplikasyon zouti nan yon konvolisyonèl rezo neral oswa CNNs. Mo kle "konvolusyonèl" la refere a adisyon kouch konvolusyonèl ki mete plis anfaz sou done ki pi pre ansanm.
Pandan ke CNN yo te deja yon lide nan ane 1980 yo, yo sèlman te kòmanse pran popilarite nan kòmansman ane 2010 yo lè dènye teknoloji GPU la te pouse teknoloji a nan nouvo wotè.
Siksè CNN nan jaden an nan vizyon òdinatè te mennen nan plis enterè nan rechèch la nan rezo neral.
Gran teknoloji tankou Google ak Facebook deside lage pwòp kad AI yo bay piblik la. API wo nivo tankou Keras te bay itilizatè yo yon koòdone zanmitay pou fè eksperyans ak rezo neral pwofon.
CNN yo te gwo nan rekonesans imaj ak analiz videyo men yo te gen pwoblèm lè li rive rezoud pwoblèm ki baze sou lang. Limit sa a nan pwosesis lang natirèl ta ka egziste paske ki jan imaj ak tèks yo aktyèlman fondamantalman pwoblèm diferan.
Pa egzanp, si ou gen yon modèl ki klase si yon imaj gen yon limyè trafik, limyè trafik nan kesyon an ka parèt nenpòt kote nan imaj la. Sepandan, sòt de tolerans sa a pa travay byen nan lang lan. Fraz "Bob te manje pwason" ak "Pwason te manje Bob" gen siyifikasyon anpil diferan malgre yo itilize menm mo yo.
Li te vin klè ke chèchè yo te bezwen jwenn yon nouvo apwòch pou rezoud pwoblèm ki enplike lang moun.
Transformateur chanje tout bagay
Nan 2017, a papye rechèch ki gen tit "Atansyon se tout sa ou bezwen" pwopoze yon nouvo kalite rezo: transfòmatè a.
Pandan ke CNN yo travay pa repete filtre ti pòsyon nan yon imaj, transfòmatè konekte chak eleman nan done yo ak tout lòt eleman. Chèchè yo rele pwosesis sa a "oto-atansyon".
Lè w ap eseye analize fraz, CNN ak transfòmatè travay yon fason diferan. Pandan ke yon CNN pral konsantre sou fòme koneksyon ak mo ki toupre youn ak lòt, yon transfòmatè pral kreye koneksyon ant chak ak chak mo nan yon fraz.
Pwosesis atansyon pwòp tèt ou a se yon pati entegral nan konpreyansyon lang moun. Lè yo rale epi gade ki jan tout fraz la anfòm ansanm, machin yo ka gen yon konpreyansyon pi klè sou estrikti fraz la.
Yon fwa premye modèl transfòmatè yo te lage, chèchè yo te byento itilize nouvo achitekti pou pran avantaj de kantite enkwayab done tèks yo te jwenn sou entènèt la.
GPT-3 ak entènèt la
Nan 2020, OpenAI a GPT-3 modèl te montre jis ki jan efikas transformateur kapab. GPT-3 te kapab pwodiksyon tèks ki sanble prèske endistenabl ak yon moun. Yon pati nan sa ki te fè GPT-3 tèlman pwisan se kantite done fòmasyon yo te itilize. Pifò nan seri done pre-fòmasyon modèl la soti nan yon seri done ke yo rele Common Crawl ki vini ak plis pase 400 milya dola marqueur.
Pandan ke kapasite GPT-3 a pou jenere tèks imen reyalis te inogirasyon poukont li, chèchè yo te dekouvri ki jan menm modèl la ka rezoud lòt travay.
Pa egzanp, menm modèl GPT-3 ou ka itilize pou jenere yon tweet ka ede w rezime tèks, reekri yon paragraf epi fini yon istwa. Modèl langaj yo te vin tèlman pwisan ke yo kounye a se esansyèlman zouti jeneral ki swiv nenpòt kalite lòd.
Nati jeneral GPT-3 te pèmèt pou aplikasyon sa yo GitHub Copilot, ki pèmèt pwogramè yo jenere kòd k ap travay nan lang angle.
Modèl difizyon: Soti nan tèks ak imaj
Pwogrè yo te fè ak transfòmatè ak NLP te tou pave wout la pou jeneratif AI nan lòt domèn.
Nan domèn vizyon òdinatè, nou deja kouvri kijan aprantisaj pwofon pèmèt machin yo konprann imaj yo. Sepandan, nou toujou bezwen jwenn yon fason pou AI jenere imaj tèt yo olye ke jis klasifye yo.
Modèl imaj jeneratif tankou DALL-E 2, Stable Diffusion, ak Midjourney te vin popilè akòz fason yo kapab konvèti opinyon tèks nan imaj.
Modèl imaj sa yo konte sou de aspè kle: yon modèl ki konprann relasyon ki genyen ant imaj ak tèks ak yon modèl ki ka aktyèlman kreye yon imaj wo definisyon ki matche ak opinyon an.
OpenAI a CLIP (Kontrastive Language–Image Pre-training) se yon modèl sous louvri ki vize rezoud premye aspè a. Bay yon imaj, modèl CLIP la ka predi deskripsyon tèks ki pi enpòtan pou imaj patikilye sa a.
Modèl CLIP la ap travay lè w aprann kijan pou ekstrè karakteristik imaj enpòtan yo epi kreye yon reprezantasyon pi senp nan yon imaj.
Lè itilizatè yo bay DALL-E 2 yon echantiyon tèks, opinyon an konvèti nan yon "anplasman imaj" lè l sèvi avèk modèl CLIP la. Objektif la kounye a se jwenn yon fason yo jenere yon imaj ki matche ak embedding nan imaj pwodwi.
Dènye imaj jeneratif AI yo itilize a modèl difizyon pou atake travay la aktyèlman kreye yon imaj. Modèl difizyon konte sou rezo neral ki te antrene davans pou konnen ki jan yo retire bri ki te ajoute nan imaj yo.
Pandan pwosesis sa a nan fòmasyon, rezo neral la ka evantyèlman aprann ki jan yo kreye yon imaj-wo rezolisyon soti nan yon imaj bri o aza. Depi nou deja gen yon kat tèks ak imaj ki bay CLIP, nou kapab fòme yon modèl difizyon sou CLIP embeddings imaj yo kreye yon pwosesis pou jenere nenpòt imaj.
Revolisyon AI jeneratif: Kisa k ap vini apre?
Nou kounye a nan yon pwen kote dekouvèt nan jeneratif AI ap pase chak de jou. Ak li vin pi fasil ak pi fasil jenere diferan kalite medya lè l sèvi avèk AI, èske nou ta dwe enkyete sou ki jan sa a ta ka afekte sosyete nou an?
Pandan ke enkyetid yo nan machin ranplase travayè yo te toujou nan konvèsasyon an depi envansyon nan motè a vapè, li sanble ke li nan yon ti jan diferan fwa sa a alantou.
Jeneratif AI ap vin tounen yon zouti miltibi ki ka deranje endistri yo ki te konsidere kòm an sekirite kont yon kontwòl AI.
Èske n ap bezwen pwogramasyon si AI ka kòmanse ekri kòd san defo nan kèk enstriksyon debaz? Èske moun ap anboche kreyativ si yo ka jis itilize yon modèl jeneratif pou pwodwi pwodiksyon yo vle pi bon mache?
Li difisil pou predi lavni revolisyon AI jeneratif la. Men, kounye a ke bwat Pandora figuratif la te louvri, mwen espere ke teknoloji a pral pèmèt inovasyon plis enteresan ki ka kite yon enpak pozitif sou mond lan.
Kite yon Reply