Semu prubabilmente à u principiu di una nova rivoluzione AI generativa.
L'intelligenza artificiale generativa si riferisce à algoritmi è mudelli chì sò capaci di creà cuntenutu. L'output di tali mudelli include testu, audio è imaghjini chì spessu ponu esse sbagliati cum'è output umanu reale.
Applicazioni cume Chat GPT anu dimustratu chì l'IA generativa ùn hè micca una mera novità. L'IA hè avà capace di seguità struzzioni dettagliate è pare avè una cunniscenza prufonda di cumu funziona u mondu.
Ma cumu avemu ghjuntu à questu puntu? In questa guida, passeremu per alcuni di i sviluppi chjave in a ricerca di l'IA chì anu alluntanatu a strada per questa nova è eccitante rivoluzione generativa di AI.
L'ascesa di e rete neurali
Pudete traccia l'urighjini di l'AI muderna à a ricerca nantu apprendimentu prufondu è rete neurali in 2012.
In quellu annu, Alex Krizhevsky è a so squadra di l'Università di Toronto anu pussutu ottene un algoritmu assai precisu chì pò classificà l'uggetti.
lu rete neurale di punta, cunnisciutu avà AlexNet, hà sappiutu classificà l'uggetti in a basa di dati visuale ImageNet cù una rata d'errore assai più bassa chì u runner-up.
Rete neurale sò algoritmi chì utilizanu una reta di funzioni matematiche per amparà un cumpurtamentu particulare basatu annantu à qualchi dati di furmazione. Per esempiu, pudete alimentà una rete neurale di dati medichi per furmà u mudellu per diagnosticà una malatia cum'è u cancer.
A speranza hè chì a rete neurale lentamente trova mudelli in i dati è diventa più precisa quandu dà dati novi.
AlexNet era una applicazione rivoluzionaria di a rete neurale cunvolutionale o CNN. A keyword "convolutional" si riferisce à l'aghjunzione di strati cunvoluzionali chì ponenu più enfasi nantu à e dati chì sò più vicinu.
Mentre i CNN eranu digià una idea in l'anni 1980, anu cuminciatu à guadagnà pupularità solu à l'iniziu di l'anni 2010, quandu l'ultima tecnulugia GPU spinta a tecnulugia à novi alture.
U successu di CNN in u campu di visione per computer hà purtatu à più interessu in a ricerca di e rete neurali.
I giganti tecnulugichi cum'è Google è Facebook anu decisu di liberà u so propiu framework AI à u publicu. API d'altu livellu cum'è Keras hà datu l'utilizatori una interfaccia amichevule per sperimentà e rete neurali profonde.
I CNN eranu eccellenti in u ricunniscenza di l'imaghjini è l'analisi video, ma avianu prublemi quandu si tratta di risolve i prublemi basati in lingua. Questa limitazione in u processu di a lingua naturale puderia esse perchè cumu l'imaghjini è u testu sò in realtà prublemi fundamentale differenti.
Per esempiu, sè vo avete un mudellu chì classificheghja se una maghjina cuntene un semaforu, u semaforu in quistione pò appare in ogni locu in l'imaghjini. Tuttavia, stu tipu di clemenza ùn funziona micca bè in a lingua. A frase "Bob ate fish" è "Fish ate Bob" anu significati assai diffirenti malgradu l'usu di e stesse parolle.
Era diventatu chjaru chì i circadori avianu bisognu di truvà un novu approcciu per risolve i prublemi chì implicanu a lingua umana.
I trasformatori cambianu tuttu
In 2017, a carta, a ricerca intitulatu "Attention Is All You Need" prupone un novu tipu di rete: u Transformer.
Mentre i CNN travaglianu filtrà ripetutamente porzioni chjuche di una maghjina, i trasformatori cunnetta ogni elementu in a dati cù ogni altru elementu. I ricercatori chjamanu stu prucessu "auto-attenzione".
Quandu pruvate d'analizà e frasi, i CNN è i trasformatori funzionanu assai diffirenti. Mentre chì una CNN fucalizza nantu à a furmazione di cunnessione cù e parolle chì sò vicinu l'una à l'altru, un transformatore creà cunnessione trà ogni parolla in una frase.
U prucessu d'auto-attenzione hè una parte integrante di capiscenu a lingua umana. Facendu un zoom out è fighjendu cumu a sentenza sana si mette inseme, i machini ponu avè una cunniscenza più chjara di a struttura di a frase.
Una volta chì i primi mudelli di trasformatori sò stati liberati, i circadori prestu prestu aduprà a nova architettura per prufittà di l'incredibile quantità di dati di testu truvati in Internet.
GPT-3 è Internet
In 2020, OpenAI GPT-3 U mudellu hà dimustratu quantu i trasformatori efficaci ponu esse. GPT-3 hà sappiutu pruduce testu chì pare quasi indistinguibile da un umanu. Parte di ciò chì hà fattu GPT-3 cusì putente era a quantità di dati di furmazione utilizati. A maiò parte di u dataset di pre-furmazione di u mudellu vene da un dataset cunnisciutu cum'è Common Crawl chì vene cun più di 400 miliardi di tokens.
Mentre a capacità di GPT-3 di generà un testu umanu realistu era rivoluzionariu per sè stessu, i circadori anu scupertu cumu u listessu mudellu pò risolve altre attività.
Per esempiu, u listessu mudellu GPT-3 chì pudete aduprà per generà un tweet pò ancu aiutà à riassume u testu, riscrive un paràgrafu è finisce una storia. Modelli di lingua sò diventati cusì putenti chì sò avà essenzialmente arnesi generale chì seguitanu ogni tipu di cumandamentu.
A natura generale di u GPT-3 hà permessu per tali applicazioni GitHub Copilot, chì permette à i programatori di generà codice di travagliu da l'inglese chjaru.
Modelli di diffusione: da u testu à l'imaghjini
U prugressu fattu cù i trasformatori è a NLP hà ancu alluntanatu a strada per l'AI generativa in altri campi.
In u regnu di a visione di l'informatica, avemu digià cupertu cumu l'apprendimentu prufondu permette à e macchine di capiscenu l'imaghjini. Tuttavia, avemu sempre bisognu di truvà un modu per l'AI per generà l'imaghjini stessi piuttostu chè solu classificà.
I mudelli d'imaghjini generativi cum'è DALL-E 2, Stable Diffusion è Midjourney sò diventati populari per via di cumu sò capaci di cunvertisce l'input di testu in imagine.
Questi mudelli di l'imaghjini si basanu in dui aspetti chjave: un mudellu chì capisce a relazione trà l'imaghjini è u testu è un mudellu chì pò veramente creà una maghjina d'alta definizione chì currisponde à l'input.
OpenAI CLIP (Contrastive Language–Image Pre-training) hè un mudellu open-source chì hà u scopu di risolve u primu aspettu. Data una maghjina, u mudellu CLIP pò predice a descrizzione di testu più pertinente per quella maghjina particulare.
U mudellu CLIP funziona imparendu à estrattà funzioni di l'imaghjini impurtanti è creanu una rapprisintazioni più simplice di una maghjina.
Quandu l'utilizatori furniscenu un input di testu di mostra à DALL-E 2, l'input hè cunvertitu in una "incrustazione di l'imaghjini" cù u mudellu CLIP. L'obiettivu hè avà di truvà una manera di generà una maghjina chì currisponde à l'incrustazione di l'imagine generata.
L'ultimi AI di l'imaghjini generativi utilizanu a mudellu di diffusione per affruntà u compitu di veramente creà una maghjina. I mudelli di diffusione s'appoghjanu nantu à e rete neurali chì sò stati pre-furmati per sapè cumu sguassà u rumore aghjuntu da l'imaghjini.
Duranti stu prucessu di furmazione, a rete neurale pò eventualmente amparà cumu creà una maghjina d'alta risoluzione da una maghjina di rumore aleatoriu. Siccomu avemu digià una mappatura di testu è imagine furnite da CLIP, pudemu furmà un mudellu diffusion nantu à embeddings d'imaghjini CLIP per creà un prucessu per generà qualsiasi imagine.
Rivuluzione AI generativa: chì vene dopu?
Semu avà in un puntu induve i scontri in l'IA generativa si sò accaduti ogni dui ghjorni. Diventendu più faciule è più faciule per generà diversi tipi di media cù l'AI, duvemu esse preoccupatu di cumu questu puderia affettà a nostra sucità?
Mentre chì e preoccupazioni di i machini chì rimpiazzanu i travagliadori sò sempre stati in a cunversazione dapoi l'invenzione di u mutore di vapore, pare chì sta volta hè un pocu sfarente.
L'IA generativa hè diventata un strumentu multifunzione chì pò disturbà l'industrii chì sò stati cunsiderati salvi da una presa di AI.
Avemu bisognu di programatori se l'AI pò principià à scrive codice impeccabile da uni pochi di struzzioni basi? A ghjente ingaghjarà creativi s'ellu ponu solu aduprà un mudellu generativu per pruduce l'output chì volenu più prezzu?
Hè difficiuli di predichendu u futuru di a rivoluzione generativa AI. Ma avà chì a scatula figurativa di Pandora hè stata aperta, spergu chì a tecnulugia permetterà innovazioni più eccitanti chì ponu lascià un impattu pusitivu in u mondu.
Lascia un Audiolibro