MultiModal-GPT: unha nova fronteira na integración da linguaxe e a visión

Algunha vez quixeches poder conversar cunha IA que comprenda tanto datos falados como visuais? O paradigma MultiModal-GPT combina o procesamento da linguaxe coa comprensión visual.

Ofrece a posibilidade dunha interacción humana-ordenador precisa e diversificada. MultiModal-GPT pode proporcionar subtítulos descritivos, contar elementos individuais e responder a preguntas xerais dos usuarios.

Pero, como fai iso? E, que podes facer con MultiModal-GPT?

Levemos a historia ata o principio e comprendamos as posibilidades que temos por diante.

Co xurdimento de modelos lingüísticos como GPT-4, as tecnoloxías de procesamento da linguaxe natural están asistindo a unha revolución. Innovacións como ChatGPT xa se incorporaron ás nosas vidas.

E, parece que seguen chegando!

GPT-4 e as súas limitacións

GPT-4 demostrou unha habilidade incrible nas conversas multimodais coas persoas. Os estudos fixeron un esforzo para duplicar este rendemento, pero debido ao número potencialmente elevado de fichas de imaxes, incluír modelos con información visual precisa pode ser computacionalmente caro.

Os modelos existentes tampouco inclúen o axuste de instrucións de idiomas no seu estudo, o que restrinxe a súa capacidade para participar en conversas de imaxe e texto multixiro de disparo cero.

Construíndo sobre o marco Flamingo

Desenvolveuse un novo modelo chamado MultiModal-GPT para posibilitar a comunicación coas persoas utilizando indicios tanto lingüísticos como visuais.

Os desenvolvedores empregaron un programa chamado marco Flamingo, que previamente foi adestrado para comprender tanto texto como visuais, para facelo viable.

Marco Flamingo

Flamingo necesitaba algúns cambios, porén, xa que non podía ter diálogos estendidos que incluían texto e imaxes.

O modelo actualizado MultiModal-GPT pode recoller datos de imaxes e mesturalos coa linguaxe para comprender e executar comandos humanos.

MultiModal-GPT

MultiModal-GPT é un tipo de modelo de IA que pode seguir varias consultas humanas, como describir elementos visuais, contar elementos e responder preguntas. Comprende e segue ordes utilizando unha mestura de datos visuais e verbais.

Os investigadores adestraron o modelo utilizando datos visuais e só lingüísticos para aumentar a capacidade de MultiModal-GPT para conversar coas persoas. Ademais, provocou unha notable mellora na forma en que se realizaba o seu discurso. Tamén deu lugar a unha notable mellora no seu rendemento de conversa.

Descubriron que ter datos de adestramento de alta calidade é fundamental para un bo rendemento da conversa, porque un pequeno conxunto de datos con respostas curtas pode permitir que o modelo cree respostas máis curtas a calquera comando.

Que podes facer con MultiModal-GPT?

Participar en conversas

Do mesmo xeito que os modelos lingüísticos anteriores, unha das características principais de MultiModal-GPT é a súa capacidade para participar en discusións na linguaxe natural. Isto implica que os consumidores poden interactuar co modelo do mesmo xeito que o farían cunha persoa real.

Por exemplo, MultiModal-GPT pode ofrecer aos clientes unha receita detallada para facer fideos ou recomendar posibles restaurantes para cear fóra. O modelo tamén é capaz de responder a preguntas xenéricas sobre as intencións de viaxe dos usuarios.

talharim

Recoñecemento de Obxectos

MultiModal-GPT pode recoñecer cousas nas fotos e responder ás preguntas sobre elas. Por exemplo, o modelo pode recoñecer a Freddie Mercury nunha imaxe e responder ás preguntas sobre el.

Tamén pode contar o número de individuos e explicar o que están facendo nunha imaxe. Esta capacidade de identificación de obxectos ten aplicacións en diversos campos, incluído o comercio electrónico, a saúde e a seguridade.

Exemplo

MultiModal-GPT tamén pode recoñecer texto dentro de imaxes dixitais. Isto implica que o modelo pode ler o texto das fotos e extraer datos útiles. Pode, por exemplo, detectar os personaxes dunha imaxe e identificar o autor dun libro.

É unha ferramenta moi útil para xestión de documentos, entrada de datos e análise de contido.

Gandalf

Razoamento e Xeración de Coñecemento

O GPT multimodal pode razoar e producir coñecemento sobre o mundo. Isto significa que pode proporcionar explicacións completas das fotografías e mesmo dicirlles en que época foi tomada a imaxe.

Esta habilidade é útil en diversas disciplinas, incluíndo vixilancia ambiental, agricultura e meteoroloxía. O modelo tamén pode xerar material creativo como poesía, contos e cancións, polo que é unha excelente ferramenta para tarefas creativas.

Funcionamento interno de MultiModal-GPT

Modelo de instrucións unificadas

O equipo presenta un modelo único para a integración de datos lingüísticos unimodais e datos multimodais de visión e linguaxe para adestrar correctamente o modelo MultiModal-GPT de forma sinérxica.

Esta estratexia combinada tenta mellorar o rendemento do modelo nunha variedade de tarefas explotando as capacidades complementarias de ambas as modalidades de datos e fomentando unha comprensión máis profunda das ideas subxacentes.

O equipo utiliza os conxuntos de datos Dolly 15k e Alpaca GPT4 para medir as habilidades de seguimento de instrucións só na lingua. Estes conxuntos de datos actúan como un modelo de solicitude para estruturar a entrada do conxunto de datos para garantir un formato coherente de seguimento de instrucións.

Visión xeral do conxunto de datos Dolly 15k

Imaxe: Visión xeral do conxunto de datos Doly 15k

Como funciona o modelo?

Tres compoñentes clave compoñen o modelo MultiModal-GPT: un descodificador de linguaxe, un remuestreador de perceptores e un codificador de visión. A imaxe é captada polo codificador de visión, que despois xera unha colección de características que a caracterizan.

O decodificador de linguaxe utiliza a información do codificador de visión para crear texto que describe a imaxe coa axuda do remuestreador do perceptor.

O compoñente do modelo que comprende a linguaxe e produce o texto é o decodificador da linguaxe. Para predicir a seguinte palabra nunha frase, o modelo adestrase utilizando datos de seguimento de instrucións de idiomas de só idioma e visión máis.

Isto ensínalle ao modelo como reaccionar ás ordes dos humanos e proporciona o texto aceptable para as descricións de imaxes.

modelo

Equipo Detrás

O MultiModal-GPT foi creado por un equipo de investigadores e enxeñeiros de Microsoft Research Asia dirixidos por Tao Gong, Chengqi Lyu e Shilong Zhang. Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo e Kai Chen contribuíron ao estudo e desenvolvemento do modelo.

procesamento da linguaxe natural, visión por computador, e a aprendizaxe automática son todas as áreas de competencia do equipo. Teñen varios artigos publicados en congresos e publicacións de primeiro nivel, así como varias honras e recoñecementos polos seus esforzos científicos.

A investigación do equipo céntrase no desenvolvemento de modelos e enfoques de vangarda para permitir interaccións máis naturais e intelixentes entre os humanos e a tecnoloxía.

O desenvolvemento multimodal GPT é un logro destacable no campo xa que é un dos primeiros modelos en combinar visión e linguaxe nun único marco para a discusión en varias roldas.

As contribucións do equipo á investigación e desenvolvemento MultiModal-GPT teñen o potencial de ter unha influencia substancial no futuro do procesamento da linguaxe natural e das interaccións humano-máquina.

Como usar MultiModal-GPT

Para os principiantes, usar a ferramenta MultiModal-GPT é sinxelo. Simplemente vai a https://mmgpt.openmmlab.org.cn/ e prema o botón "Cargar imaxe".

Escolla o ficheiro de imaxe para cargar e, a continuación, escriba a solicitude de texto no campo de texto. Para crear unha resposta do modelo, fai clic no botón "Enviar", que aparecerá debaixo do campo de texto.

Podes probar con diferentes fotos e instrucións para obter máis información sobre as capacidades do modelo.

Interface 1

Instalar

Para instalar o paquete MultiModal-GPT, use o comando do terminal "git clone https://github.com/open-mmlab/Multimodal-GPT.git" para clonar o repositorio de GitHub. Podes simplemente seguir estes pasos:

git clone https://github.com/open-mmlab/Multimodal-GPT.git

cd Multimodal-GPT

pip install -r requirements.txt

pip install -v -e .

Alternativamente, use conda env create -f environment.yml para establecer un novo ambiente conda. Podes executar a demostración localmente despois de instalala descargando os pesos adestrados previamente e gardándoos no cartafol de puntos de control.

A demo de Gradio pódese iniciar executando o comando "python app.py".

Posibles inconvenientes

O modelo MultiModal-GPT aínda ten fallos e espazo para o desenvolvemento a pesar do seu excelente rendemento.

Por exemplo, cando se trata de entradas visuais complicadas ou ambiguas, é posible que o modelo non sempre sexa capaz de recoñecer e comprender o contexto da entrada. Isto pode producir predicións ou reaccións imprecisas do modelo.

Ademais, especialmente cando a entrada é complicada ou aberta, é posible que o modelo non sempre produza a mellor reacción ou resultado. A resposta do modelo, por exemplo, puido verse afectada polo parecido que tiñan as portadas dos dous libros no caso da identificación incorrecta dunha portada.

Conclusión

En xeral, o modelo MultiModal-GPT representa un gran paso adiante no procesamento da linguaxe natural e na aprendizaxe automática. E é moi emocionante usalo e experimentar con el. Entón, tamén deberías probalo!

Non obstante, ten límites, como todos os modelos, e require un perfeccionamento e melloras adicionais para obter o máximo rendemento nunha variedade de aplicacións e dominios.