Taula de continguts[Amaga][Espectacle]
El 23è Google I/O va ser bastant emocionant! En l'àmbit de la intel·ligència artificial, van presentar diversos avenços importants.
La competència entre el GPT-4 d'OpenAI i el Gemini de Google va ser una de les revelacions més significatives. Després de la seva existència PALM 2 sistema, Gemini és el gran model de llenguatge (LLM) de la generació següent.
El model d'aprenentatge automàtic ha estat millorat per Google, fent-lo encara més sofisticat. Per competir amb les millores de Bing de Microsoft, també afegeixen capacitats d'IA generativa a Android i milloren la Cerca de Google amb IA.
Per fer Google Bard més competitiu amb altres chatbots com ChatGPT, van anunciar-hi una millora important durant l'acte. Bard finalment admetrà 40 idiomes més, inclosos el coreà i el japonès. Amb aquesta extensió, Bard podrà donar suport als desenvolupadors a qualsevol lloc.
A més, per tal de millorar les respostes a les sol·licituds dels usuaris, Bard ara oferirà imatges, mapes i altres gràfics. Per a tots els desenvolupadors que hi ha, serà d'una gran ajuda. Aquí, examinarem les especificitats del LLM Gemini.
Què és Bessons?
D'acord amb Google, Gemini estava pensat des del principi per ser multimodal, molt eficient pel que fa a la connexió d'eines i API, i preparat per a futurs avenços com la memòria i la planificació. Google va declarar a la seva publicació al bloc que Gemini ja té capacitats multimodals excepcionals que els models anteriors no tenien.
"Una vegada que afinem i provem a fons Gemini per a la seguretat, l'oferirem en diverses mides i capacitats, similars a PaLM 2", va dir Google.
Com a resultat, es pot implementar en diversos productes, aplicacions i dispositius per beneficiar a tothom".
Van presentar PaLM 2, un model de llenguatge d'avantguarda amb capacitats multilingües, de raonament i de codificació ampliades, a la conferència. Es va formar àmpliament amb material multilingüe de més de 100 idiomes.
PaLM 2 pot produir i traduir contingut subtil, com ara modismes, poesia i endevinalles en una varietat d'idiomes.
És probable que Gemini impulsi els esforços d'IA de Google i desafii al pioner, el ChatGPT d'OpenAI. Tot i que ChatGPT s'utilitza principalment per a converses basades en text, Gemini és multimodal, el que significa que pot respondre tant al text com a les imatges. Un cop integrat amb la Cerca de Google, té el potencial de transformar la manera com els consumidors interactuen amb el popular motor de cerca.
Tot i que encara no estan disponibles més detalls sobre Gemini, pot superar ChatGPT i Bing AI, impulsant Google al capdavant del camp de l'IA.
Sundar Pichai, director general de Google, va comentar durant la conferència: "Després de set anys de ser una empresa primerenca en IA, ens trobem en un punt d'inflexió emocionant".
Bessons ara s'està formant, segons Pichai, i s'està creant amb un enfocament multimodal amb l'objectiu de ser extremadament efectiu i obrir la porta a futurs avenços com la memòria i la planificació. Gemini ja està mostrant capacitats multimodals destacades que estaven absents de les versions anteriors, segons Pichai, encara que encara es troba en les seves primeres fases.
Google instrueix Gemini mitjançant el seu TPU (xips). Pichai va afirmar que després que Gemini s'hagi optimitzat i hagi superat les inspeccions de seguretat, seria accessible en diverses mides i capacitats, tot i que no es va esmentar cap data de llançament específica.
Pichai va deixar clar que tots els models d'IA de Google incorporaran marques d'aigua i metadades a les sortides, com ara imatges, per evitar la propagació d'informació incorrecta.
Què fa superior a Bessons Xat GPT i BingAI?
Bessons té diverses característiques "multimodals" intrigants. Gemini, a diferència de ChatGPT, que només pot llegir i produir text, es basa en un paradigma multimodal i pot comprendre i produir text, codi i imatges.
Aquesta varietat més àmplia d'habilitats fa possibles nombroses oportunitats. Gemini, per exemple, es pot utilitzar per crear una nova classe de chatbots d'IA que puguin entendre i reaccionar tant al text com a les imatges.
Tanmateix, tant ChatGPT com Bing només proporcionen comunicació basada en text, amb Bing que proporciona un enllaç separat per crear imatges, però no té suport per a imatges al xat.
Gemini pot gestionar una varietat més àmplia de productes i aplicacions en contrast amb ChatGPT. Es pot utilitzar, per exemple, per actualitzar la Cerca de Google o crear un assistent virtual d'avantguarda que utilitzi IA. Aquestes funcions manquen a BingAI i ChatGPT. ChatGPT, però, ofereix complements que milloren els resultats.
Gemini també té característiques com la memòria i la planificació, que permeten el desenvolupament d'aplicacions basades en IA que van més enllà del que ChatGPT és capaç.
S'ofereixen possibilitats interessants quan penseu en tenir un assistent personal impulsat per Gemini que faci un seguiment de les vostres preferències i us ajudi en la planificació diària. Tanmateix, per veure tot el potencial de Gemini i investigar les oportunitats que obre, primer hem d'esperar amb impaciència el seu llançament públic.
Conclusió
Gemini, el model d'idioma de nova generació de Google, ha mostrat característiques multimodals destacades, cosa que el fa més adaptable que ChatGPT, el seu rival només de text.
Gemini crea noves oportunitats per als robots de xat i les aplicacions d'IA permetent-los llegir i produir text, codi i gràfics. Aquestes aplicacions ara poden gestionar una gamma més àmplia d'activitats. A diferència de Gemini, que admet tant imatges com interaccions multimodals, ChatGPT i BingAI només són capaços d'interaccions basades en text.
Tot i que encara no s'ha fet pública informació més específica sobre Gemini, és evident que Google està compromès a avançar en la tecnologia d'IA i mantenir el lideratge en aquest camp.
Esperem veure tot el potencial de Gemini i les possibilitats creatives que obre mentre esperem amb il·lusió el seu llançament formal.
Deixa un comentari