Índice analítico[Ocultar][Mostrar]
o 23º Google I/O foi bastante emocionante! No ámbito da intelixencia artificial, presentaron varios avances importantes.
A competencia entre o GPT-4 de OpenAI e o Gemini de Google foi unha das revelacións máis significativas. Despois da súa existencia PALM 2 sistema, Gemini é o gran modelo de linguaxe (LLM) da seguinte xeración.
O modelo de aprendizaxe automática foi mellorado por Google, facéndoo aínda máis sofisticado. Para competir coas melloras de Bing de Microsoft, tamén están engadindo capacidades xerativas de intelixencia artificial a Android e impulsando a Busca de Google con intelixencia artificial.
Para facer que Google Bard sexa máis competitivo con outros chatbots como ChatGPT, anunciaron unha importante mellora para el durante o evento. Finalmente, Bard admitirá 40 idiomas máis, incluíndo coreano e xaponés. Con esta extensión, Bard poderá soportar desenvolvedores en calquera lugar.
Ademais, para mellorar as súas respostas ás solicitudes dos usuarios, Bard agora ofrecerá imaxes, mapas e outros gráficos. Para todos os desenvolvedores que hai, será de gran axuda. Aquí, examinaremos as características específicas do LLM Gemini.
Que é Xemelgos?
Dacordo con Google, Gemini estaba pensado desde o principio para ser multimodal, moi eficiente en termos de conexión de ferramentas e API, e preparado para futuros avances como a memoria e a planificación. Google afirmou na súa publicación de blog que Gemini xa ten capacidades multimodais destacadas que os modelos anteriores non tiñan.
"Unha vez que axustemos e probemos a seguridade de Gemini, ofrecerémolo en varios tamaños e capacidades, similares ao PaLM 2", dixo Google.
Como resultado, pódese implementar en varios produtos, aplicacións e dispositivos para beneficiar a todos".
Na conferencia presentaron PaLM 2, un modelo lingüístico de vangarda con capacidades multilingües, de razoamento e de codificación ampliadas. Formouse amplamente con material multilingüe de máis de 100 idiomas.
PaLM 2 pode producir e traducir contido sutil como modismos, poesía e enigmas nunha variedade de idiomas.
É probable que Gemini impulse os esforzos de IA de Google e desafie ao pioneiro, o ChatGPT de OpenAI. Aínda que ChatGPT úsase principalmente para conversas baseadas en texto, Gemini é multimodal, o que significa que pode responder tanto a texto como a imaxes. Unha vez integrado coa Busca de Google, ten o potencial de transformar a forma en que os consumidores interactúan co popular buscador.
Aínda que aínda non están dispoñibles máis detalles sobre Gemini, pode superar a ChatGPT e Bing AI, impulsando a Google ao xefe do campo da IA.
Sundar Pichai, CEO de Google, comentou durante a conferencia: "Despois de sete anos de ser unha empresa en primeiro lugar na IA, atopámonos nun punto de inflexión emocionante".
Xemelgos agora está en formación, segundo Pichai, e estase a crear cun enfoque multimodal co obxectivo de ser extremadamente efectivo e abrir a porta a futuros avances como a memoria e a planificación. Gemini xa está mostrando capacidades multimodais destacadas que estaban ausentes nas versións anteriores, segundo Pichai, aínda que aínda está nas súas primeiras fases.
Google instrúe Gemini a través do seu TPU (chips). Pichai afirmou que despois de que Gemini fose optimizado e superou as inspeccións de seguridade, estaría accesible nunha variedade de tamaños e capacidades, aínda que non se mencionou unha data de lanzamento específica.
Pichai deixou claro que todos os modelos de intelixencia artificial de Google incorporarán marcas de auga e metadatos nas saídas, como imaxes, para evitar a difusión de información incorrecta.
O que fai superior a Gemini Chat GPT e BingAI?
Gemini ten varias características "multimodais" intrigantes. Gemini, en contraste con ChatGPT, que só pode ler e producir texto, baséase nun paradigma multimodal e pode comprender e producir texto, código e imaxes.
Esta variedade máis ampla de habilidades posibilita numerosas oportunidades. Gemini, por exemplo, pódese usar para crear unha nova clase de chatbots de intelixencia artificial que poden comprender e reaccionar tanto ao texto como ás imaxes.
Non obstante, tanto ChatGPT como Bing só proporcionan comunicación baseada en texto, e Bing ofrece unha ligazón separada para crear imaxes pero carece de soporte para imaxes no chat.
Gemini pode xestionar unha variedade máis ampla de produtos e aplicacións en contraste con ChatGPT. Pódese usar, por exemplo, para actualizar a Busca de Google ou crear un asistente virtual de vangarda que use IA. Faltan estas funcións en BingAI e ChatGPT. ChatGPT, con todo, ofrece complementos que melloran os resultados.
Gemini tamén posúe características como a memoria e a planificación, o que permite o desenvolvemento de aplicacións con IA que van máis aló do que ChatGPT é capaz.
As posibilidades interesantes xorden cando consideras ter un asistente persoal impulsado por Gemini que faga un seguimento das túas preferencias e axude na planificación diaria. Non obstante, para ver todo o potencial de Gemini e investigar as oportunidades que abre, primeiro debemos esperar impacientes polo seu lanzamento público.
Conclusión
Gemini, o modelo de linguaxe de próxima xeración de Google, mostrou características multimodais destacadas, polo que é máis adaptable que ChatGPT, o seu rival só de texto.
Gemini crea novas oportunidades para chatbots e aplicacións de intelixencia artificial permitíndolles ler e producir texto, código e gráficos. Estas aplicacións agora poden xestionar unha gama máis ampla de actividades. A diferenza de Gemini, que admite tanto imaxes como interaccións multimodais, ChatGPT e BingAI só son capaces de interaccións baseadas en texto.
Aínda que aínda non se fixo pública información máis específica sobre Gemini, está claro que Google aposta por avanzar na tecnoloxía da intelixencia artificial e manter o seu liderado no campo.
Esperamos ver todo o potencial de Gemini e as posibilidades creativas que abre mentres agardamos con entusiasmo o seu lanzamento formal.
Deixe unha resposta