Table des matières[Cacher][Montrer]
GPT-3, le grand réseau de neurones du moment, a été publié en mai 2020 par OpenAI, la startup IA co-fondée par Elon Musk et Sam Altman. GPT-3 est un modèle de langage de pointe avec 175 milliards de paramètres contre 1,5 milliard de paramètres dans son prédécesseur GPT-2.
GPT-3 a surpassé le modèle NLG Turing (Turing Natural Language Generation) de Microsoft, qui détenait auparavant le record du plus grand réseau de neurones avec 17 milliards de paramètres.
Le modèle linguistique a été loué, critiqué et même passé au crible ; il a également engendré de nouvelles utilisations intrigantes. Et maintenant, il y a des rapports que GPT-4, la prochaine édition de l'OpenAI modèle de langage, sera en effet bientôt disponible.
Vous êtes arrivé sur le bon site si vous souhaitez en savoir plus sur le GPT-4. Nous examinerons le GPT-4 en profondeur dans cet article, couvrant ses paramètres, comment il se compare à d'autres modèles, et plus encore.
Alors, qu'est-ce que le GPT-4 ?
Pour comprendre la portée de GPT-4, nous devons d'abord comprendre GPT-3, son précurseur. GPT-3 (Generative Pre-trained Transformer, troisième génération) est un outil de génération de contenu autonome.
Les utilisateurs entrent des données dans un machine learning modèle, qui peut ensuite produire d'énormes quantités d'écritures pertinentes en réponse, selon OpenAI. GPT-4 sera nettement meilleur en multitâche dans des conditions de quelques prises de vue - un type de machine learning – rapprochant encore plus les résultats de ceux des humains.
GPT-3 coûte des centaines de millions de livres à construire, mais GPT-4 devrait coûter beaucoup plus cher car il sera cinq cents fois plus grand. Pour mettre cela en perspective,
GPT-4 peut avoir autant de caractéristiques que de synapses dans le cerveau. GPT-4 utilisera principalement les mêmes méthodes que GPT-3, donc plutôt que d'être un saut de paradigme, GPT-4 développera ce que GPT-3 accomplit actuellement - mais avec une capacité d'inférence nettement supérieure.
GPT-3 permettait aux utilisateurs de saisir le langage naturel à des fins pratiques, mais il fallait encore une certaine expertise pour concevoir une invite qui donnerait de bons résultats. GPT-4 sera nettement plus efficace pour prédire les intentions des utilisateurs.
Quels seront les paramètres GPT-4 ?
Bien qu'il s'agisse de l'une des avancées les plus attendues de l'IA, on ne sait rien sur GPT-4 : à quoi il ressemblera, quelles caractéristiques il aura et quels pouvoirs il aura.
L'année dernière, Altman a fait une séance de questions-réponses et a révélé quelques détails sur les ambitions d'OpenAI pour GPT-4. Il ne serait pas plus grand que GPT-3, selon Altman. Il est peu probable que GPT-4 soit le plus utilisé modèle de langage. Bien que le modèle soit énorme par rapport aux générations précédentes de les réseaux de neurones, sa taille ne sera pas sa caractéristique distinctive. GPT-3 et Gopher sont les candidats les plus plausibles (175B-280B).
Nvidia et Megatron-Turing NLG de Microsoft détenaient le record du réseau de neurones le plus dense paramètres à 530B – trois fois celui du GPT-3 – jusqu'à récemment, lorsque le PaLM de Google l'a pris à 540B. Étonnamment, un grand nombre de modèles moins performants ont surpassé le MT-NLG.
Selon une connexion de loi de puissance, Jared Kaplan et ses collègues d'OpenAI ont déterminé en 2020 que lorsque les augmentations de budget de traitement sont principalement consacrées à l'augmentation du nombre de paramètres, les performances s'améliorent le plus. Google, Nvidia, Microsoft, OpenAI, DeepMind et d'autres sociétés de modélisation du langage ont docilement suivi les réglementations.
Altman a indiqué qu'ils ne se concentraient plus sur la construction de modèles massifs, mais plutôt sur la maximisation des performances de modèles plus petits.
Les chercheurs d'OpenAI ont été les premiers partisans de l'hypothèse de mise à l'échelle, mais ils ont peut-être découvert que des voies supplémentaires, jusque-là inconnues, pourraient conduire à des modèles supérieurs. GPT-4 ne sera pas significativement plus grand que GPT-3 pour ces raisons.
OpenAI mettra davantage l'accent sur d'autres aspects, tels que les données, les algorithmes, le paramétrage et l'alignement, qui ont le potentiel de générer des avantages significatifs plus rapidement. Nous devrons attendre et voir ce qu'un modèle avec des paramètres 100T peut faire.
Points clés:
- Taille du modèle: Le GPT-4 sera plus grand que le GPT-3, mais pas de beaucoup (MT-NLG 530B et PaLM 540B). La taille du modèle sera banale.
- Optimalité: GPT-4 utilisera plus de ressources que GPT-3. Il mettra en œuvre de nouvelles perspectives d'optimalité dans le paramétrage (hyperparamètres optimaux) et les méthodes de mise à l'échelle (le nombre de jetons d'entraînement est aussi important que la taille du modèle).
- Multimodalité: Le GPT-4 ne pourra envoyer et recevoir que des SMS (non multimodaux). OpenAI cherche à pousser les modèles de langage à leurs limites avant de passer à des modèles multimodaux comme A PARTIR DE 2, qui, selon eux, finiront par surpasser les systèmes unimodaux.
- parcimonie: GPT-4, comme ses prédécesseurs GPT-2 et GPT-3, sera un modèle dense (tous les paramètres seront utilisés pour traiter une entrée donnée). À l'avenir, la parcimonie deviendra plus importante.
- Alignement: GPT-4 nous approchera plus étroitement que GPT-3. Il mettra ce qu'il a appris d'InstructGPT, qui a été développé avec une contribution humaine. Pourtant, la convergence de l'IA est encore loin et les efforts doivent être soigneusement évalués plutôt qu'exagérés.
Conclusion
Intelligence générale artificielle. C'est un objectif important, mais les développeurs d'OpenAI travaillent pour l'atteindre. L'objectif d'AGI est de créer un modèle ou un "agent" capable de comprendre et de faire n'importe quelle activité qu'une personne peut.
GPT-4 peut être la prochaine étape dans la réalisation de cet objectif, et cela ressemble à quelque chose d'un film de science-fiction. Vous vous demandez peut-être à quel point il est réaliste d'atteindre l'AGI.
Nous atteindrons cette étape d'ici 2029, selon Ray Kurzweil, directeur de l'ingénierie de Google. Dans cet esprit, examinons plus en profondeur le GPT-4 et les ramifications de ce modèle à mesure que nous nous rapprochons de l'AGI (intelligence générale artificielle).
Soyez sympa! Laissez un commentaire