Índice del contenido[Esconder][Espectáculo]
GPT-3, la gran red neuronal del momento, fue publicada en mayo de 2020 por OpenAI, la startup de inteligencia artificial cofundada por Elon Musk y Sam Altman. GPT-3 es un modelo de lenguaje de vanguardia con 175 mil millones de parámetros en comparación con los 1,5 mil millones de parámetros de su predecesor GPT-2.
GPT-3 superó al modelo NLG Turing de Microsoft (Generación de lenguaje natural de Turing), que anteriormente ostentaba el récord de la red neuronal más grande con 17 XNUMX millones de parámetros.
El modelo de lenguaje ha sido elogiado, criticado e incluso analizado; también ha generado nuevos e intrigantes usos. Y ahora hay informes de que GPT-4, la próxima edición de OpenAI modelo de lenguaje, de hecho llegará pronto.
Ha llegado al sitio correcto si desea obtener más información sobre el GPT-4. Veremos el GPT-4 en profundidad en este artículo, cubriendo sus parámetros, cómo se compara con otros modelos y más.
Entonces, ¿qué es GPT-4?
Para entender el alcance de GPT-4, primero debemos entender GPT-3, su precursor. GPT-3 (Transformador preentrenado generativo, tercera generación) es una herramienta autónoma de generación de contenido.
Los usuarios introducen datos en un máquina de aprendizaje modelo, que posteriormente puede producir cantidades masivas de escritura relevante en respuesta, según OpenAI. GPT-4 será significativamente mejor en multitarea en condiciones de pocos disparos, un tipo de máquina de aprendizaje – acercando los resultados aún más a los de los humanos.
La construcción de GPT-3 cuesta cientos de millones de libras, pero se predice que GPT-4 costará mucho más porque tendrá una escala quinientas veces mayor. Para poner esto en perspectiva,
GPT-4 puede tener tantas características como sinapsis en el cerebro. GPT-4 empleará principalmente los mismos métodos que GPT-3, por lo tanto, en lugar de ser un salto de paradigma, GPT-4 ampliará lo que GPT-3 logra actualmente, pero con una capacidad de inferencia significativamente mayor.
GPT-3 permitía a los usuarios ingresar lenguaje natural con fines prácticos, pero aún necesitaba algo de experiencia para diseñar un aviso que diera buenos resultados. GPT-4 será significativamente mejor para predecir las intenciones de los usuarios.
¿Cuáles serán los parámetros de GPT-4?
A pesar de ser uno de los avances de IA más esperados, no se sabe nada sobre GPT-4: qué aspecto tendrá, qué características tendrá y qué poderes tendrá.
El año pasado, Altman hizo una sesión de preguntas y respuestas y reveló algunos detalles sobre las ambiciones de OpenAI para GPT-4. No sería más grande que GPT-3, según Altman. Es poco probable que GPT-4 sea el más utilizado modelo de lenguaje. Aunque el modelo será enorme en comparación con las generaciones anteriores de redes neuronales, su tamaño no será su característica distintiva. GPT-3 y Gopher son los candidatos más plausibles (175B-280B).
Nvidia y Megatron-Turing NLG de Microsoft mantuvieron el récord de red neuronal más densa parámetros en 530B, tres veces más que GPT-3, hasta hace poco, cuando PaLM de Google lo tomó en 540B. Sorprendentemente, una gran cantidad de modelos menores superaron al MT-NLG.
De acuerdo con una conexión de ley de potencia, Jared Kaplan y sus colegas de OpenAI determinaron en 2020 que cuando los aumentos del presupuesto de procesamiento se gastan principalmente en aumentar la cantidad de parámetros, el rendimiento mejora más. Google, Nvidia, Microsoft, OpenAI, DeepMind y otras empresas de modelado de idiomas siguieron obedientemente las normas.
Altman indicó que ya no se concentraban en construir modelos masivos, sino en maximizar el rendimiento de modelos más pequeños.
Los investigadores de OpenAI fueron los primeros en proponer la hipótesis de la escala, pero es posible que hayan descubierto que caminos adicionales no descubiertos anteriormente podrían conducir a modelos superiores. GPT-4 no será significativamente más grande que GPT-3 por estas razones.
OpenAI se centrará más en otros aspectos, como datos, algoritmos, parametrización y alineación, que tienen el potencial de generar beneficios significativos más rápidamente. Tendremos que esperar y ver qué puede hacer un modelo con parámetros de 100T.
Puntos claves:
- Tamaño del modelo: El GPT-4 será más grande que el GPT-3, pero no mucho (MT-NLG 530B y PaLM 540B). El tamaño del modelo será normal.
- Optimalidad: GPT-4 utilizará más recursos que GPT-3. Implementará nuevos conocimientos de optimización en la parametrización (hiperparámetros óptimos) y métodos de escalado (el número de tokens de entrenamiento es tan importante como el tamaño del modelo).
- Multimodalidad: El GPT-4 solo podrá enviar y recibir mensajes de texto (no multimodal). OpenAI busca llevar los modelos de lenguaje a sus límites antes de hacer la transición a modelos multimodales como DALE 2, que predicen eventualmente superará a los sistemas unimodales.
- escasez: GPT-4, al igual que sus predecesores GPT-2 y GPT-3, será un modelo denso (todos los parámetros se utilizarán para procesar cualquier entrada dada). En el futuro, la escasez será más importante.
- Alineación: GPT-4 se acercará más a nosotros que GPT-3. Pondrá lo que ha aprendido de InstructGPT, que se desarrolló con aportes humanos. Aún así, la convergencia de la IA está muy lejos y los esfuerzos deben evaluarse cuidadosamente en lugar de exagerarse.
Conclusión
Inteligencia Artificial General. Es un gran objetivo, pero los desarrolladores de OpenAI están trabajando para lograrlo. El objetivo de AGI es crear un modelo o “agente” capaz de comprender y realizar cualquier actividad que una persona pueda realizar.
GPT-4 puede ser el próximo paso para lograr este objetivo, y suena como algo sacado de una película de ciencia ficción. Podría preguntarse qué tan realista es alcanzar el AGI.
Alcanzaremos este hito en 2029, según Ray Kurzweil, director de ingeniería de Google. Con esto en mente, echemos un vistazo más profundo a GPT-4 y las ramificaciones de este modelo a medida que nos acercamos a AGI (Inteligencia General Artificial).
Deje un comentario