MultiModal-GPT: uma nova fronteira na integração de linguagem e visão

Você já desejou poder conversar com uma IA que compreende dados falados e visuais? O paradigma MultiModal-GPT combina processamento de linguagem com compreensão visual.

Oferece a possibilidade de interação humano-computador precisa e diversificada. MultiModal-GPT pode fornecer legendas descritivas, contar itens individuais e responder a perguntas gerais do usuário.

Mas, como ele faz isso? E o que você pode fazer com o MultiModal-GPT?

Vamos levar a história até o começo e entender as possibilidades que temos pela frente.

Com o surgimento de modelos de linguagem como o GPT-4, as tecnologias de processamento de linguagem natural estão testemunhando uma revolução. Inovações como o ChatGPT já foram incorporadas às nossas vidas.

E, eles parecem continuar chegando!

GPT-4 e suas limitações

O GPT-4 demonstrou proficiência incrível em conversas multimodais com pessoas. Estudos têm feito um esforço para duplicar esse desempenho, mas devido ao número potencialmente alto de tokens de imagem, incluir modelos com informações visuais precisas pode ser computacionalmente caro.

Os modelos existentes também não incluem o ajuste de instrução de idioma em seu estudo, o que restringe sua capacidade de participar de conversas de imagem e texto multivoltas zero-shot.

Construindo sobre o Flamingo Framework

Um novo modelo chamado MultiModal-GPT foi desenvolvido para permitir a comunicação com pessoas usando pistas linguísticas e visuais.

Os desenvolvedores empregaram um programa chamado Estrutura Flamingo, que foi previamente treinado para compreender texto e imagens, para tornar isso viável.

Quadro Flamingo

O Flamingo precisava de algumas mudanças, já que não podia ter diálogos estendidos que incluíssem texto e recursos visuais.

O modelo MultiModal-GPT atualizado pode coletar dados de imagens e misturá-los com a linguagem para compreender e executar comandos humanos.

MultiModal-GPT

O MultiModal-GPT é um tipo de modelo de IA que pode seguir várias consultas humanas, como descrever visuais, contar itens e responder a perguntas. Ele entende e segue ordens usando uma mistura de dados visuais e verbais.

Os pesquisadores treinaram o modelo usando dados visuais e somente de linguagem para aumentar a capacidade do MultiModal-GPT de conversar com as pessoas. Além disso, causou uma melhora perceptível na forma como seu discurso foi realizado. Também resultou em uma melhoria notável em seu desempenho de conversação.

Eles descobriram que ter dados de treinamento de alta qualidade é fundamental para um bom desempenho de conversação, porque um pequeno conjunto de dados com respostas curtas pode permitir que o modelo crie respostas mais curtas para qualquer comando.

O que você pode fazer com o MultiModal-GPT?

Envolvendo-se em Conversas

Como os modelos de linguagem que vieram antes, uma das principais características do MultiModal-GPT é sua capacidade de se envolver em discussões de linguagem natural. Isso implica que os consumidores podem se envolver com o modelo da mesma forma que fariam com uma pessoa real.

Por exemplo, o MultiModal-GPT pode fornecer aos clientes uma receita detalhada para fazer macarrão ou recomendar possíveis restaurantes para jantar fora. O modelo também é capaz de responder a perguntas genéricas sobre as intenções de viagem dos usuários.

Macarrão

Reconhecimento de Objetos

MultiModal-GPT pode reconhecer coisas em fotos e responder a perguntas sobre elas. Por exemplo, o modelo pode reconhecer Freddie Mercury em uma imagem e responder a perguntas sobre ele.

Também pode contar o número de indivíduos e explicar o que eles estão fazendo em uma foto. Essa capacidade de identificação de objetos tem aplicações em diversos campos, incluindo comércio eletrônico, saúde e segurança.

Exemplo

MultiModal-GPT também pode reconhecer texto dentro de imagens digitais. Isso significa que o modelo pode ler o texto nas fotos e extrair dados úteis. Pode, por exemplo, detectar os personagens de uma imagem e identificar o autor de um livro.

É uma ferramenta extremamente útil para gerenciamento de documentos, entrada de dados e análise de conteúdo.

Gandalf

Raciocínio e Geração de Conhecimento

Multimodal-GPT pode raciocinar e produzir conhecimento sobre o mundo. Isso significa que ele pode fornecer explicações completas sobre as fotografias e até dizer em que estação a imagem foi tirada.

Esta habilidade é útil em uma variedade de disciplinas, incluindo monitoramento ambiental, agricultura e meteorologia. O modelo também pode gerar coisas criativas como poesia, contos e canções, tornando-se uma excelente ferramenta para tarefas criativas.

Funcionamento Interno do MultiModal-GPT

Modelo para Instruções Unificadas

A equipe apresenta um modelo único para a integração de dados linguísticos unimodais e dados multimodais de visão e idioma para treinar adequadamente o modelo MultiModal-GPT de maneira sinérgica.

Essa estratégia combinada tenta melhorar o desempenho do modelo em uma variedade de tarefas, explorando os recursos complementares de ambas as modalidades de dados e incentivando uma compreensão mais profunda das ideias subjacentes.

Os conjuntos de dados Dolly 15k e Alpaca GPT4 são usados pela equipe para medir as habilidades de seguir instruções somente de linguagem. Esses conjuntos de dados atuam como um modelo de prompt para estruturar a entrada do conjunto de dados para garantir um formato consistente de sequência de instruções.

Visão geral do conjunto de dados Dolly 15k

Imagem: visão geral do conjunto de dados Doly 15k

Como funciona o modelo?

Três componentes principais compõem o modelo MultiModal-GPT: um decodificador de linguagem, um reamostrador de percepção e um codificador de visão. A imagem é captada pelo codificador de visão, que então gera uma coleção de características que a caracterizam.

O decodificador de linguagem usa as informações do codificador de visão para criar um texto que descreva a imagem com a ajuda do reamostrador de percepção.

O componente do modelo que compreende a linguagem e produz o texto é o decodificador da linguagem. Para prever a palavra a seguir em uma frase, o modelo é treinado usando dados de instrução de linguagem somente de linguagem e de visão mais.

Isso ensina o modelo a reagir a comandos de humanos e fornece o texto aceitável para descrições de imagens.

Modelo

Equipe Atrás

O MultiModal-GPT foi criado por uma equipe de pesquisadores e engenheiros da Microsoft Research Asia liderados por Tao Gong, Chengqi Lyu e Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo e Kai Chen contribuíram para o estudo e desenvolvimento do modelo.

Processamento de linguagem natural, visão computacional, e aprendizado de máquina são áreas de competência da equipe. Eles têm vários artigos publicados em conferências e publicações de primeira linha, bem como várias homenagens e reconhecimentos por seus esforços científicos.

A pesquisa da equipe se concentra no desenvolvimento de modelos e abordagens de ponta para permitir interações mais naturais e inteligentes entre humanos e tecnologia.

O desenvolvimento de GPT multimodal é uma conquista notável no campo, pois é um dos primeiros modelos a combinar visão e linguagem em uma única estrutura para discussão em várias rodadas.

As contribuições da equipe para a pesquisa e desenvolvimento do MultiModal-GPT têm o potencial de ter uma influência substancial no futuro do processamento de linguagem natural e das interações homem-máquina.

Como usar MultiModal-GPT

Para iniciantes, usar a ferramenta MultiModal-GPT é simples. Simplesmente vá para https://mmgpt.openmmlab.org.cn/ e pressione o botão "Carregar imagem".

Escolha o arquivo de imagem para carregar e digite o prompt de texto no campo de texto. Para criar uma resposta a partir do modelo, clique no botão “Enviar”, que aparecerá abaixo do campo de texto.

Você pode experimentar diferentes fotos e instruções para saber mais sobre os recursos do modelo.

Interface de 1

Instalando

Para instalar o pacote MultiModal-GPT, use o comando do terminal “git clone https://github.com/open-mmlab/Multimodal-GPT.git” para clonar o repositório do GitHub. Você pode simplesmente seguir estas etapas:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternativamente, use conda env create -f environment.yml para estabelecer um novo ambiente conda. Você pode executar o demo localmente após instalá-lo baixando os pesos pré-treinados e armazenando-os na pasta checkpoints.

A demonstração do Gradio pode então ser iniciada executando o comando “python app.py”.

Possíveis desvantagens

O modelo MultiModal-GPT ainda possui falhas e espaço para desenvolvimento apesar de seu excelente desempenho.

Por exemplo, ao lidar com entradas visuais complicadas ou ambíguas, o modelo nem sempre consegue reconhecer e compreender o contexto da entrada. Isso pode resultar em previsões ou reações imprecisas do modelo.

Além disso, especialmente quando a entrada é complicada ou aberta, o modelo pode nem sempre produzir a melhor reação ou resultado. A resposta do modelo, por exemplo, pode ter sido influenciada pela semelhança entre as capas dos dois livros no caso da identificação incorreta de uma capa de livro.

Conclusão

No geral, o modelo MultiModal-GPT representa um grande avanço no processamento de linguagem natural e aprendizado de máquina. E é muito emocionante usá-lo e experimentá-lo. Então, você também deveria tentar!

No entanto, ele tem limites, assim como todos os modelos, e requer refinamento e aprimoramento adicionais para obter desempenho máximo em uma variedade de aplicativos e domínios.