Me gjasë jemi vetëm në fillimin e një revolucioni të ri gjenerues të AI.
Inteligjenca artificiale gjeneruese i referohet algoritmeve dhe modeleve që janë të afta të krijojnë përmbajtje. Prodhimi i modeleve të tilla përfshin tekst, audio dhe imazhe që shpesh mund të gabohen si rezultate reale njerëzore.
Aplikime të tilla si Biseda GPT kanë treguar se AI gjeneruese nuk është thjesht risi. AI tani është në gjendje të ndjekë udhëzime të hollësishme dhe duket se ka një kuptim të thellë se si funksionon bota.
Por si arritëm në këtë pikë? Në këtë udhëzues, ne do të kalojmë nëpër disa nga përparimet kryesore në kërkimin e AI që kanë hapur rrugën për këtë revolucion të ri dhe emocionues gjenerues të AI.
Ngritja e rrjeteve nervore
Ju mund të gjurmoni origjinën e AI moderne në kërkimin mbi mësimi i thellë dhe rrjetet nervore në 2012.
Në atë vit, Alex Krizhevsky dhe ekipi i tij nga Universiteti i Torontos ishin në gjendje të arrinin një algoritëm shumë të saktë që mund të klasifikojë objektet.
La rrjet nervor më të fundit, i njohur tani si AlexNet, ishte në gjendje të klasifikonte objektet në bazën e të dhënave vizuale ImageNet me një shkallë gabimi shumë më të ulët se sa i dyti.
Rrjetet nervore janë algoritme që përdorin një rrjet funksionesh matematikore për të mësuar një sjellje të caktuar bazuar në disa të dhëna trajnimi. Për shembull, ju mund të ushqeni të dhëna mjekësore të një rrjeti nervor për të trajnuar modelin për të diagnostikuar një sëmundje si kanceri.
Shpresa është që rrjeti nervor të gjejë ngadalë modele në të dhëna dhe të bëhet më i saktë kur jepen të dhëna të reja.
AlexNet ishte një aplikim zbulues i një rrjeti nervor konvolucionar ose CNN. Fjala kyçe "konvolucionale" i referohet shtimit të shtresave konvolucionale që vendos më shumë theks në të dhënat që janë më afër njëra-tjetrës.
Ndërsa CNN-të ishin tashmë një ide në vitet 1980, ato filluan të fitojnë popullaritet vetëm në fillim të viteve 2010 kur teknologjia më e fundit GPU e shtyu teknologjinë në lartësi të reja.
Suksesi i CNN-ve në fushën e vizion kompjuteri çoi në më shumë interes në kërkimin e rrjeteve nervore.
Gjigantët e teknologjisë si Google dhe Facebook vendosën të lëshojnë kornizat e tyre të AI për publikun. API të nivelit të lartë si p.sh Keras u dha përdoruesve një ndërfaqe miqësore për përdoruesit për të eksperimentuar me rrjete të thella nervore.
CNN-të ishin të shkëlqyera në njohjen e imazheve dhe analizën e videos, por kishin probleme kur bëhet fjalë për zgjidhjen e problemeve të bazuara në gjuhë. Ky kufizim në përpunimin e gjuhës natyrore mund të ekzistojë sepse mënyra se si imazhet dhe teksti janë në fakt probleme thelbësisht të ndryshme.
Për shembull, nëse keni një model që klasifikon nëse një imazh përmban një semafor, semafori në fjalë mund të shfaqet kudo në imazh. Megjithatë, kjo lloj butësie nuk funksionon mirë në gjuhë. Fjalia "Bob hëngri peshk" dhe "Peshku hëngri Bob" kanë kuptime shumë të ndryshme pavarësisht se përdorin të njëjtat fjalë.
Ishte bërë e qartë se studiuesit duhej të gjenin një qasje të re për të zgjidhur problemet që përfshinin gjuhën njerëzore.
Transformatorët ndryshojnë gjithçka
Në 2017, a studim i titulluar "Vëmendja është gjithçka që ju nevojitet" propozoi një lloj të ri rrjeti: Transformer.
Ndërsa CNN-të funksionojnë duke filtruar në mënyrë të përsëritur pjesë të vogla të një imazhi, transformatorët lidhin çdo element në të dhëna me çdo element tjetër. Studiuesit e quajnë këtë proces "vetë-vëmendje".
Kur përpiqeni të analizoni fjalitë, CNN dhe transformatorët funksionojnë shumë ndryshe. Ndërsa një CNN do të fokusohet në formimin e lidhjeve me fjalë që janë afër njëra-tjetrës, një transformator do të krijojë lidhje midis çdo fjale në një fjali.
Procesi i vetë-vëmendjes është një pjesë integrale e të kuptuarit të gjuhës njerëzore. Duke zmadhuar dhe duke parë se si e gjithë fjalia përshtatet së bashku, makinat mund të kenë një kuptim më të qartë të strukturës së fjalisë.
Pasi u lëshuan modelet e para të transformatorëve, studiuesit shumë shpejt përdorën arkitekturën e re për të përfituar nga sasia e jashtëzakonshme e të dhënave të tekstit që gjenden në internet.
GPT-3 dhe interneti
Në vitin 2020, OpenAI's GPT-3 modeli tregoi se sa efektiv mund të jenë transformatorët. GPT-3 ishte në gjendje të nxirrte tekst që duket pothuajse i padallueshëm nga njeriu. Një pjesë e asaj që e bëri GPT-3 kaq të fuqishëm ishte sasia e të dhënave të trajnimit të përdorura. Pjesa më e madhe e grupit të të dhënave para-stërvitore të modelit vjen nga një grup të dhënash i njohur si Common Crawl i cili vjen me mbi 400 miliardë argumente.
Ndërsa aftësia e GPT-3 për të gjeneruar tekst njerëzor realist ishte novator në vetvete, studiuesit zbuluan se si i njëjti model mund të zgjidhë detyra të tjera.
Për shembull, i njëjti model GPT-3 që mund të përdorni për të gjeneruar një cicërimë mund t'ju ndihmojë gjithashtu të përmblidhni tekstin, të rishkruani një paragraf dhe të përfundoni një histori. Modele gjuhësore janë bërë aq të fuqishme sa që tani janë në thelb mjete për qëllime të përgjithshme që ndjekin çdo lloj komande.
Natyra me qëllim të përgjithshëm të GPT-3 ka lejuar aplikime të tilla GitHub Copilot, i cili i lejon programuesit të gjenerojnë kod pune nga anglishtja e thjeshtë.
Modelet e Difuzionit: Nga Teksti te Imazhet
Progresi i bërë me transformatorët dhe NLP ka hapur gjithashtu rrugën për AI gjeneruese në fusha të tjera.
Në fushën e vizionit kompjuterik, ne kemi mbuluar tashmë se si mësimi i thellë i lejoi makinat të kuptonin imazhet. Sidoqoftë, ne ende na duhej të gjenim një mënyrë që AI të gjeneronte imazhe vetë në vend që thjesht t'i klasifikonim ato.
Modelet gjeneruese të imazheve si DALL-E 2, Stable Diffusion dhe Midjourney janë bërë të njohura për shkak të mënyrës se si ata janë në gjendje të konvertojnë hyrjen e tekstit në imazhe.
Këto modele imazhi mbështeten në dy aspekte kryesore: një model që kupton marrëdhënien midis imazheve dhe tekstit dhe një model që në fakt mund të krijojë një imazh me definicion të lartë që përputhet me hyrjen.
OpenAI's KLIP (Contrastive Language–Image Pre-training) është një model me burim të hapur që synon të zgjidhë aspektin e parë. Duke pasur parasysh një imazh, modeli CLIP mund të parashikojë përshkrimin më të përshtatshëm të tekstit për atë imazh të veçantë.
Modeli CLIP funksionon duke mësuar se si të nxjerrni veçori të rëndësishme të imazhit dhe të krijoni një paraqitje më të thjeshtë të një imazhi.
Kur përdoruesit ofrojnë një hyrje teksti mostër në DALL-E 2, hyrja konvertohet në një "ngulitje imazhi" duke përdorur modelin CLIP. Qëllimi tani është të gjesh një mënyrë për të gjeneruar një imazh që përputhet me futjen e imazhit të krijuar.
AI-të më të fundit gjeneruese të imazhit përdorin a modeli i difuzionit për të trajtuar detyrën e krijimit të vërtetë të një imazhi. Modelet e difuzionit mbështeten në rrjetet nervore që ishin të trajnuar paraprakisht për të ditur se si të hiqnin zhurmën e shtuar nga imazhet.
Gjatë këtij procesi trajnimi, rrjeti nervor përfundimisht mund të mësojë se si të krijojë një imazh me rezolucion të lartë nga një imazh i zhurmës së rastësishme. Meqenëse ne tashmë kemi një hartë të tekstit dhe imazheve të ofruara nga CLIP, ne mundemi trajnoni një model difuzioni në ngulitje të imazhit CLIP për të krijuar një proces për të gjeneruar ndonjë imazh.
Revolucioni gjenerues i AI: Çfarë vjen më pas?
Tani jemi në një pikë ku përparimet në AI gjeneruese po ndodhin çdo dy ditë. Duke u bërë më e lehtë dhe më e lehtë për të gjeneruar lloje të ndryshme mediash duke përdorur AI, a duhet të shqetësohemi se si kjo mund të ndikojë në shoqërinë tonë?
Ndërsa shqetësimet e makinerive që zëvendësojnë punëtorët kanë qenë gjithmonë në bisedë që nga shpikja e motorit me avull, duket se këtë herë është pak më ndryshe.
Inteligjenca artificiale gjeneruese po bëhet një mjet me shumë qëllime që mund të prishë industritë që konsideroheshin të sigurta nga një marrje e AI.
A do të na duhen programues nëse AI mund të fillojë të shkruajë kode të përsosura nga disa udhëzime bazë? A do të punësojnë njerëzit krijues nëse mund të përdorin thjesht një model gjenerues për të prodhuar produktin që duan më lirë?
Është e vështirë të parashikohet e ardhmja e revolucionit gjenerues të AI. Por tani që kutia figurative e Pandorës është hapur, shpresoj se teknologjia do të lejojë risi më emocionuese që mund të lënë një ndikim pozitiv në botë.
Lini një Përgjigju