Conteúdo[Esconder][Mostrar]
GPT-3, a grande rede neural do momento, foi publicada em maio de 2020 pela OpenAI, a startup de IA cofundada por Elon Musk e Sam Altman. O GPT-3 é um modelo de linguagem de ponta com 175 bilhões de parâmetros em comparação com 1,5 bilhão de parâmetros em seu antecessor GPT-2.
O GPT-3 superou o modelo NLG Turing da Microsoft (Turing Natural Language Generation), que anteriormente detinha o recorde da maior rede neural com 17 bilhões de parâmetros.
O modelo de linguagem foi elogiado, criticado e até escrutinado; também gerou usos novos e intrigantes. E agora há relatos de que o GPT-4, a próxima edição do OpenAI modelo de linguagem, certamente chegará em breve.
Você chegou ao site certo se quiser saber mais sobre o GPT-4. Veremos o GPT-4 em profundidade neste artigo, cobrindo seus parâmetros, como ele se compara a outros modelos e muito mais.
Então, o que é GPT-4?
Para entender o escopo do GPT-4, devemos primeiro entender o GPT-3, seu precursor. GPT-3 (transformador pré-treinado generativo, terceira geração) é uma ferramenta autônoma de geração de conteúdo.
Os usuários inserem dados em um aprendizado de máquina model, que pode posteriormente produzir grandes quantidades de escrita relevante em resposta, de acordo com a OpenAI. O GPT-4 será significativamente melhor em multitarefa em condições de poucos disparos - um tipo de aprendizado de máquina – aproximando ainda mais os resultados dos humanos.
O GPT-3 custa centenas de milhões de libras para ser construído, mas prevê-se que o GPT-4 custe significativamente mais porque será quinhentas vezes maior em escala. Para colocar isso em perspectiva,
O GPT-4 pode ter tantas características quanto as sinapses no cérebro. O GPT-4 empregará principalmente os mesmos métodos do GPT-3, portanto, em vez de ser um salto de paradigma, o GPT-4 expandirá o que o GPT-3 atualmente realiza - mas com capacidade de inferência significativamente maior.
O GPT-3 permitia que os usuários entrassem em linguagem natural para fins práticos, mas ainda precisava de algum conhecimento para projetar um prompt que produzisse bons resultados. O GPT-4 será significativamente melhor em prever as intenções dos usuários.
Quais serão os parâmetros do GPT-4?
Apesar de ser um dos avanços de IA mais aguardados, nada se sabe sobre o GPT-4: como será, quais características terá e quais poderes terá.
No ano passado, Altman fez uma sessão de perguntas e respostas e revelou alguns detalhes sobre as ambições da OpenAI para o GPT-4. Não seria maior que o GPT-3, de acordo com Altman. É improvável que o GPT-4 seja o mais amplamente utilizado modelo de linguagem. Embora o modelo seja enorme em comparação com as gerações anteriores de redes neurais, seu tamanho não será sua característica distintiva. GPT-3 e Gopher são os candidatos mais plausíveis (175B-280B).
Nvidia e Megatron-Turing NLG da Microsoft detinham o recorde de rede neural mais densa parâmetros em 530B – três vezes maior que o GPT-3 – até recentemente, quando o PaLM do Google o levou a 540B. Surpreendentemente, uma série de modelos menores superaram o MT-NLG.
De acordo com uma conexão de lei de energia, Jared Kaplan e colegas da OpenAI determinaram em 2020 que, quando os aumentos no orçamento de processamento são gastos principalmente no aumento do número de parâmetros, o desempenho melhora ainda mais. Google, Nvidia, Microsoft, OpenAI, DeepMind e outras empresas de modelagem de linguagem seguiram obedientemente os regulamentos.
Altman indicou que eles não estavam mais se concentrando na construção de modelos massivos, mas sim em maximizar o desempenho de modelos menores.
Os pesquisadores da OpenAI foram os primeiros proponentes da hipótese de dimensionamento, mas podem ter descoberto que caminhos adicionais, anteriormente não descobertos, podem levar a modelos superiores. O GPT-4 não será significativamente maior que o GPT-3 por esses motivos.
O OpenAI dará um foco maior em outros aspectos, como dados, algoritmos, parametrização e alinhamento, que têm o potencial de gerar benefícios significativos mais rapidamente. Teremos que esperar e ver o que um modelo com parâmetros 100T pode fazer.
Pontos chave:
- Tamanho do modelo: O GPT-4 será maior que o GPT-3, mas não muito (MT-NLG 530B e PaLM 540B). O tamanho do modelo será normal.
- Otimização: GPT-4 usará mais recursos que GPT-3. Ele implementará novos insights de otimização na parametrização (hiperparâmetros ideais) e métodos de dimensionamento (o número de tokens de treinamento é tão importante quanto o tamanho do modelo).
- Multimodalidade: O GPT-4 só poderá enviar e receber mensagens de texto (não multimodal). O OpenAI procura levar os modelos de linguagem aos seus limites antes de fazer a transição para modelos multimodais como DALE 2, que eles preveem que acabará por ultrapassar os sistemas unimodais.
- Espasidade: GPT-4, como seus predecessores GPT-2 e GPT-3, será um modelo denso (todos os parâmetros serão usados para processar qualquer entrada). No futuro, a dispersão se tornará mais importante.
- Alinhamento: O GPT-4 se aproximará de nós mais de perto do que o GPT-3. Ele colocará o que aprendeu com o InstructGPT, que foi desenvolvido com entrada humana. Ainda assim, a convergência da IA está muito distante, e os esforços devem ser cuidadosamente avaliados em vez de exagerados.
Conclusão
Inteligência Geral Artificial. É um grande objetivo, mas os desenvolvedores do OpenAI estão trabalhando para alcançá-lo. O objetivo da AGI é criar um modelo ou “agente” capaz de entender e fazer qualquer atividade que uma pessoa possa.
O GPT-4 pode ser o próximo passo para atingir esse objetivo, e parece algo saído de um filme de ficção científica. Você pode estar se perguntando o quão realista é atingir AGI.
Atingiremos esse marco até 2029, de acordo com Ray Kurzweil, diretor de engenharia do Google. Com isso em mente, vamos dar uma olhada mais profunda no GPT-4 e nas ramificações deste modelo à medida que nos aproximamos da AGI (Inteligência Geral Artificial).
Deixe um comentário