Sommario[Nascondere][Spettacolo]
GPT-3, la grande rete neurale del momento, è stata pubblicata a maggio 2020 da OpenAI, la startup AI co-fondata da Elon Musk e Sam Altman. GPT-3 è un modello linguistico all'avanguardia con 175 miliardi di parametri rispetto agli 1,5 miliardi di parametri del suo predecessore GPT-2.
GPT-3 ha superato il modello NLG Turing di Microsoft (Turing Natural Language Generation), che in precedenza aveva detenuto il record per la più grande rete neurale con 17 miliardi di parametri.
Il modello linguistico è stato elogiato, criticato e persino esaminato; ha anche generato usi nuovi e intriganti. E ora ci sono rapporti che GPT-4, la prossima edizione di OpenAI modello linguistico, arriverà davvero presto.
Sei arrivato al sito giusto se vuoi saperne di più sul GPT-4. Esamineremo il GPT-4 in modo approfondito in questo articolo, coprendone i parametri, come si confronta con altri modelli e altro ancora.
Allora, cos'è GPT-4?
Per comprendere lo scopo di GPT-4, dobbiamo prima capire GPT-3, il suo precursore. GPT-3 (Generative Pre-trained Transformer, terza generazione) è uno strumento autonomo per la generazione di contenuti.
Gli utenti inseriscono i dati in a machine learning modello, che può successivamente produrre enormi quantità di scritti rilevanti in risposta, secondo OpenAI. GPT-4 sarà significativamente migliore nel multitasking in condizioni di pochi colpi, un tipo di machine learning – portando i risultati ancora più vicini a quelli degli esseri umani.
La costruzione di GPT-3 costa centinaia di milioni di sterline, ma si prevede che GPT-4 costerà molto di più perché avrà una scala cinquecento volte maggiore. Per mettere questo in prospettiva,
GPT-4 può avere tante caratteristiche quante le sinapsi nel cervello. GPT-4 utilizzerà principalmente gli stessi metodi di GPT-3, quindi, anziché essere un salto di paradigma, GPT-4 si espanderà su ciò che GPT-3 realizza attualmente, ma con una capacità di inferenza significativamente maggiore.
GPT-3 consentiva agli utenti di inserire il linguaggio naturale per scopi pratici, ma era comunque necessaria una certa esperienza per progettare un prompt che producesse buoni risultati. GPT-4 sarà significativamente migliore nel prevedere le intenzioni degli utenti.
Quali saranno i parametri GPT-4?
Nonostante sia uno dei progressi dell'IA più attesi, non si sa nulla di GPT-4: che aspetto avrà, quali caratteristiche avrà e quali poteri avrà.
L'anno scorso, Altman ha fatto una sessione di domande e risposte e ha rivelato alcuni dettagli sulle ambizioni di OpenAI per GPT-4. Non sarebbe più grande di GPT-3, secondo Altman. È improbabile che GPT-4 sia il più utilizzato modello linguistico. Anche se il modello sarà enorme rispetto alle generazioni precedenti di reti neurali, la sua dimensione non sarà la sua caratteristica distintiva. GPT-3 e Gopher sono i candidati più plausibili (175B-280B).
Nvidia e Megatron-Turing NLG di Microsoft hanno detenuto il record per il rete neurale più densa parametri a 530B – tre volte quello di GPT-3 – fino a poco tempo fa quando il PaLM di Google lo ha portato a 540B. Sorprendentemente, una sfilza di modelli minori ha sovraperformato l'MT-NLG.
Secondo una connessione con la legge sul potere, Jared Kaplan di OpenAI e colleghi hanno stabilito nel 2020 che quando gli aumenti del budget di elaborazione vengono spesi principalmente per aumentare il numero di parametri, le prestazioni migliorano maggiormente. Google, Nvidia, Microsoft, OpenAI, DeepMind e altre società di modellazione linguistica hanno seguito obbedientemente le normative.
Altman ha indicato che non si stavano più concentrando sulla costruzione di modelli massicci, ma piuttosto sull'ottimizzazione delle prestazioni di modelli più piccoli.
I ricercatori di OpenAI sono stati i primi sostenitori dell'ipotesi del ridimensionamento, ma potrebbero aver scoperto che percorsi aggiuntivi, precedentemente sconosciuti, potrebbero portare a modelli superiori. GPT-4 non sarà significativamente più grande di GPT-3 per questi motivi.
OpenAI porrà maggiore attenzione ad altri aspetti, come dati, algoritmi, parametrizzazione e allineamento, che hanno il potenziale per produrre vantaggi significativi più rapidamente. Dovremo aspettare e vedere cosa può fare un modello con parametri 100T.
Punti chiave:
- Dimensioni del modello: Il GPT-4 sarà più grande del GPT-3, ma non di molto (MT-NLG 530B e PaLM 540B). La taglia del modello sarà insignificante.
- Ottimalità: GPT-4 utilizzerà più risorse di GPT-3. Implementerà nuove informazioni sull'ottimalità nella parametrizzazione (iperparametri ottimali) e nei metodi di ridimensionamento (il numero di token di addestramento è importante quanto la dimensione del modello).
- Multimodalità: Il GPT-4 sarà in grado di inviare e ricevere solo messaggi di testo (non multimodali). OpenAI cerca di spingere i modelli linguistici al limite prima di passare a modelli multimodali come LASTRA 2, che secondo loro alla fine supererà i sistemi unimodali.
- Scarsità: GPT-4, come i suoi predecessori GPT-2 e GPT-3, sarà un modello denso (tutti i parametri verranno utilizzati per elaborare qualsiasi dato input). In futuro, la scarsità diventerà più importante.
- allineamento: GPT-4 si avvicinerà a noi più da vicino di GPT-3. Metterà ciò che ha imparato da InstructGPT, che è stato sviluppato con l'input umano. Tuttavia, la convergenza dell'IA è molto lontana e gli sforzi dovrebbero essere valutati attentamente piuttosto che esagerati.
Conclusione
Intelligenza generale artificiale. È un grande obiettivo, ma gli sviluppatori OpenAI stanno lavorando per raggiungerlo. L'obiettivo di AGI è quello di creare un modello o “agente” in grado di comprendere e svolgere qualsiasi attività che una persona possa fare.
GPT-4 potrebbe essere il prossimo passo per raggiungere questo obiettivo e sembra uscito da un film di fantascienza. Ci si potrebbe chiedere quanto sia realistico ottenere l'AGI.
Raggiungeremo questo traguardo entro il 2029, secondo Ray Kurzweil, direttore dell'ingegneria di Google. Con questo in mente, diamo uno sguardo più approfondito a GPT-4 e alle ramificazioni di questo modello man mano che ci avviciniamo all'AGI (Artificial General Intelligence).
Lascia un Commento