Índice analítico[Ocultar][Mostrar]
GPT-3, a gran rede neuronal do momento, foi publicada en maio de 2020 por OpenAI, a startup de intelixencia artificial cofundada por Elon Musk e Sam Altman. GPT-3 é un modelo de linguaxe de vangarda con 175 millóns de parámetros fronte aos 1,5 millóns de parámetros do seu predecesor GPT-2.
GPT-3 superou ao modelo NLG Turing de Microsoft (Turing Natural Language Generation), que anteriormente tiña o récord da rede neuronal máis grande con 17 millóns de parámetros.
O modelo lingüístico foi eloxiado, criticado e mesmo escrutado; tamén xerou novos e intrigantes usos. E agora hai informes de que GPT-4, a próxima edición do OpenAI modelo lingüístico, de feito chegará pronto.
Chegaches ao sitio correcto se queres obter máis información sobre o GPT-4. Veremos o GPT-4 en profundidade neste artigo, cubrindo os seus parámetros, como se compara con outros modelos e moito máis.
Entón, que é GPT-4?
Para comprender o alcance de GPT-4, primeiro debemos entender GPT-3, o seu precursor. GPT-3 (Generative Pre-trained Transformer, terceira xeración) é unha ferramenta de xeración de contidos autónoma.
Os usuarios introducen datos en a aprendizaxe de máquina modelo, que posteriormente pode producir cantidades masivas de escritos relevantes en resposta, segundo OpenAI. GPT-4 será significativamente mellor na multitarefa en condicións de poucas fotos, un tipo de aprendizaxe de máquina - achegando aínda máis os resultados aos dos humanos.
GPT-3 custa centos de millóns de libras para construír, pero prevese que GPT-4 custará moito máis porque será cincocentas veces maior en escala. Para poñer isto en perspectiva,
GPT-4 pode ter tantas características como sinapses no cerebro. GPT-4 empregará principalmente os mesmos métodos que GPT-3, polo que en lugar de ser un salto paradigmático, GPT-4 ampliará o que GPT-3 consegue actualmente, pero cunha capacidade de inferencia significativamente maior.
GPT-3 permitía aos usuarios introducir a linguaxe natural con fins prácticos, pero aínda necesitaba algunha experiencia para deseñar un aviso que dea bos resultados. GPT-4 será significativamente mellor para predicir as intencións dos usuarios.
Cales serán os parámetros do GPT-4?
A pesar de ser un dos avances da IA máis esperados, nada se sabe do GPT-4: como será, que características terá e que poderes terá.
O ano pasado, Altman fixo unhas preguntas e respostas e revelou algúns detalles sobre as ambicións de OpenAI para GPT-4. Non sería máis grande que GPT-3, segundo Altman. É improbable que GPT-4 sexa o máis utilizado modelo lingüístico. Aínda que o modelo será enorme en comparación coas xeracións anteriores de redes neuronales, o seu tamaño non será a súa característica distintiva. GPT-3 e Gopher son os candidatos máis plausibles (175B-280B).
Nvidia e Megatron-Turing NLG de Microsoft mantiveron o récord do rede neuronal máis densa parámetros en 530B, tres veces o de GPT-3, ata hai pouco cando o PaLM de Google levouno a 540B. Sorprendentemente, unha serie de modelos inferiores superaron ao MT-NLG.
Segundo unha conexión de lei de enerxía, Jared Kaplan de OpenAI e os seus compañeiros determinaron en 2020 que cando os aumentos de orzamento de procesamento se gastan principalmente en aumentar o número de parámetros, o rendemento mellora o máximo. Google, Nvidia, Microsoft, OpenAI, DeepMind e outras empresas de modelado lingüístico seguiron obedientemente as normativas.
Altman indicou que xa non se concentraban en construír modelos masivos, senón en maximizar o rendemento de modelos máis pequenos.
Os investigadores de OpenAI foron os primeiros defensores da hipótese de escalado, pero quizais descubriron que camiños adicionais sen descubrir previamente poderían levar a modelos superiores. GPT-4 non será significativamente maior que GPT-3 por estes motivos.
OpenAI centrarase máis en outros aspectos, como os datos, os algoritmos, a parametrización e o aliñamento, que teñen o potencial de producir beneficios significativos máis rapidamente. Haberá que esperar a ver o que pode facer un modelo con parámetros 100T.
Puntos clave:
- Tamaño do modelo: O GPT-4 será máis grande que o GPT-3, pero non moito (MT-NLG 530B e PaLM 540B). O tamaño do modelo non será destacable.
- Optimidade: GPT-4 usará máis recursos que GPT-3. Implementará novos coñecementos de optimización sobre a parametrización (hiperparámetros óptimos) e os métodos de escalado (o número de tokens de adestramento é tan importante como o tamaño do modelo).
- Multimodalidade: O GPT-4 só poderá enviar e recibir mensaxes de texto (non multimodal). OpenAI busca impulsar os modelos lingüísticos ata os seus límites antes de pasar a modelos multimodais como DA 2, que prevén que acabará por superar os sistemas unimodais.
- Escasez: GPT-4, como os seus predecesores GPT-2 e GPT-3, será un modelo denso (todos os parámetros estarán en uso para procesar calquera entrada). No futuro, a escaseza será máis importante.
- Aliñación: GPT-4 achegarase máis a nós que GPT-3. Poñerá o que aprendeu de InstructGPT, que foi desenvolvido con entrada humana. Aínda así, a converxencia da IA está moi lonxe e os esforzos deben ser avaliados coidadosamente en lugar de esaxerados.
Conclusión
Intelixencia Xeral Artificial. É un gran obxectivo, pero os desenvolvedores de OpenAI están a traballar para conseguilo. O obxectivo de AGI é crear un modelo ou "axente" capaz de comprender e facer calquera actividade que poida unha persoa.
GPT-4 pode ser o seguinte paso para conseguir este obxectivo, e parece saído dunha película de ciencia ficción. Poderías estar preguntando como de realista é acadar AGI.
Acadaremos este fito en 2029, segundo Ray Kurzweil, director de Enxeñaría de Google. Con isto en mente, imos dar unha ollada máis profunda ao GPT-4 e ás ramificacións deste modelo a medida que nos achegamos á AGI (Intelixencia Xeral Artificial).
Deixe unha resposta