Probabilmente siamo solo all'inizio di una nuova rivoluzione dell'IA generativa.
L'intelligenza artificiale generativa si riferisce ad algoritmi e modelli in grado di creare contenuti. L'output di tali modelli include testo, audio e immagini che spesso possono essere scambiati per output umani reali.
Applicazioni come ChatGPT hanno dimostrato che l'IA generativa non è una semplice novità. L'intelligenza artificiale è ora in grado di seguire istruzioni dettagliate e sembra avere una profonda comprensione di come funziona il mondo.
Ma come siamo arrivati a questo punto? In questa guida, esamineremo alcune delle scoperte chiave nella ricerca sull'IA che hanno aperto la strada a questa nuova ed entusiasmante rivoluzione dell'IA generativa.
L'ascesa delle reti neurali
Puoi far risalire le origini dell'IA moderna alla ricerca su deep learning e reti neurali in 2012.
In quell'anno, Alex Krizhevsky e il suo team dell'Università di Toronto sono stati in grado di ottenere un algoritmo estremamente accurato in grado di classificare gli oggetti.
I rete neurale all'avanguardia, noto ora come AlexNet, è stato in grado di classificare gli oggetti nel database visivo di ImageNet con un tasso di errore molto inferiore rispetto al secondo classificato.
Reti neurali sono algoritmi che utilizzano una rete di funzioni matematiche per apprendere un particolare comportamento sulla base di alcuni dati di addestramento. Ad esempio, puoi alimentare dati medici di una rete neurale per addestrare il modello a diagnosticare una malattia come il cancro.
La speranza è che la rete neurale trovi lentamente schemi nei dati e diventi più precisa quando riceve nuovi dati.
AlexNet è stata un'applicazione rivoluzionaria di a rete neurale convoluzionale o CNN. La parola chiave "convoluzionale" si riferisce all'aggiunta di livelli convoluzionali che pone maggiore enfasi sui dati più vicini tra loro.
Sebbene le CNN fossero già un'idea negli anni '1980, hanno iniziato a guadagnare popolarità solo all'inizio degli anni 2010, quando l'ultima tecnologia GPU ha spinto la tecnologia a nuovi livelli.
Il successo delle CNN nel campo della visione computerizzata ha portato a un maggiore interesse per la ricerca delle reti neurali.
Giganti della tecnologia come Google e Facebook hanno deciso di rilasciare al pubblico i propri framework AI. API di alto livello come Keras ha fornito agli utenti un'interfaccia user-friendly per sperimentare reti neurali profonde.
Le CNN erano bravissime nel riconoscimento delle immagini e nell'analisi dei video, ma avevano problemi quando si trattava di risolvere problemi basati sul linguaggio. Questa limitazione nell'elaborazione del linguaggio naturale potrebbe esistere perché il modo in cui immagini e testo sono in realtà problemi fondamentalmente diversi.
Ad esempio, se disponi di un modello che classifica se un'immagine contiene un semaforo, il semaforo in questione può apparire ovunque nell'immagine. Tuttavia, questo tipo di clemenza non funziona bene nella lingua. Le frasi "Bob ha mangiato pesce" e "Fish ha mangiato Bob" hanno significati molto diversi nonostante usino le stesse parole.
Era diventato chiaro che i ricercatori avevano bisogno di trovare un nuovo approccio per risolvere i problemi che coinvolgono il linguaggio umano.
I trasformatori cambiano tutto
In 2017, un documento di ricerca intitolato “Attention Is All You Need” proponeva un nuovo tipo di rete: il Transformer.
Mentre le CNN funzionano filtrando ripetutamente piccole porzioni di un'immagine, i trasformatori collegano ogni elemento nei dati con ogni altro elemento. I ricercatori chiamano questo processo "auto-attenzione".
Quando si tenta di analizzare le frasi, CNN e trasformatori funzionano in modo molto diverso. Mentre una CNN si concentrerà sulla formazione di connessioni con parole vicine l'una all'altra, un trasformatore creerà connessioni tra ogni singola parola in una frase.
Il processo di auto-attenzione è parte integrante della comprensione del linguaggio umano. Ingrandendo e osservando come l'intera frase si adatta, le macchine possono avere una comprensione più chiara della struttura della frase.
Una volta rilasciati i primi modelli di trasformatore, i ricercatori hanno presto utilizzato la nuova architettura per sfruttare l'incredibile quantità di dati di testo trovati su Internet.
GPT-3 e Internet
Nel 2020, OpenAI's GPT-3 il modello ha mostrato quanto possano essere efficaci i trasformatori. GPT-3 è stato in grado di produrre un testo che sembra quasi indistinguibile da un essere umano. Parte di ciò che ha reso GPT-3 così potente è stata la quantità di dati di addestramento utilizzati. La maggior parte del set di dati di pre-addestramento del modello proviene da un set di dati noto come Common Crawl che include oltre 400 miliardi di token.
Sebbene la capacità di GPT-3 di generare testi umani realistici fosse di per sé rivoluzionaria, i ricercatori hanno scoperto come lo stesso modello può risolvere altri compiti.
Ad esempio, lo stesso modello GPT-3 che puoi utilizzare per generare un tweet può anche aiutarti a riassumere il testo, riscrivere un paragrafo e finire una storia. Modelli linguistici sono diventati così potenti che ora sono essenzialmente strumenti generici che seguono qualsiasi tipo di comando.
La natura generica di GPT-3 ha consentito applicazioni come Copilota GitHub, che consente ai programmatori di generare codice funzionante da un inglese semplice.
Modelli di diffusione: dal testo alle immagini
I progressi compiuti con i trasformatori e la PNL hanno anche aperto la strada all'IA generativa in altri campi.
Nel regno della visione artificiale, abbiamo già spiegato come il deep learning ha permesso alle macchine di comprendere le immagini. Tuttavia, dovevamo ancora trovare un modo per l'intelligenza artificiale di generare immagini da sole piuttosto che limitarsi a classificarle.
I modelli di immagini generative come DALL-E 2, Stable Diffusion e Midjourney sono diventati popolari grazie alla loro capacità di convertire l'input di testo in immagini.
Questi modelli di immagini si basano su due aspetti chiave: un modello che comprende la relazione tra immagini e testo e un modello che può effettivamente creare un'immagine ad alta definizione che corrisponda all'input.
OpenAI di CLIP (Contrastive Language–Image Pre-training) è un modello open-source che mira a risolvere il primo aspetto. Data un'immagine, il modello CLIP può prevedere la descrizione testuale più rilevante per quella particolare immagine.
Il modello CLIP funziona imparando come estrarre importanti caratteristiche dell'immagine e creare una rappresentazione più semplice di un'immagine.
Quando gli utenti forniscono un input di testo di esempio a DALL-E 2, l'input viene convertito in un "incorporamento di immagini" utilizzando il modello CLIP. L'obiettivo ora è trovare un modo per generare un'immagine che corrisponda all'incorporamento dell'immagine generata.
Le più recenti IA di immagini generative utilizzano a modello di diffusione per affrontare il compito di creare effettivamente un'immagine. I modelli di diffusione si basano su reti neurali che sono state preaddestrate per sapere come rimuovere il rumore aggiunto dalle immagini.
Durante questo processo di addestramento, la rete neurale può infine imparare a creare un'immagine ad alta risoluzione da un'immagine di rumore casuale. Poiché disponiamo già di una mappatura di testo e immagini fornita da CLIP, possiamo addestrare un modello di diffusione sugli incorporamenti di immagini CLIP per creare un processo per generare qualsiasi immagine.
Rivoluzione dell'IA generativa: cosa viene dopo?
Ora siamo a un punto in cui le scoperte nell'IA generativa avvengono ogni due giorni. Dato che diventa sempre più facile generare diversi tipi di media utilizzando l'intelligenza artificiale, dovremmo preoccuparci di come ciò potrebbe influenzare la nostra società?
Mentre le preoccupazioni per le macchine che sostituiscono i lavoratori sono sempre state nella conversazione sin dall'invenzione del motore a vapore, sembra che questa volta sia un po' diverso.
L'IA generativa sta diventando uno strumento polivalente che potrebbe sconvolgere i settori ritenuti al sicuro da un'acquisizione dell'IA.
Avremo bisogno di programmatori se l'intelligenza artificiale può iniziare a scrivere codice impeccabile da poche istruzioni di base? Le persone assumeranno creativi se possono semplicemente utilizzare un modello generativo per produrre l'output che desiderano a un prezzo inferiore?
È difficile prevedere il futuro della rivoluzione dell'IA generativa. Ma ora che il vaso di Pandora figurativo è stato aperto, spero che la tecnologia consenta innovazioni più entusiasmanti che possano lasciare un impatto positivo sul mondo.
Lascia un Commento