Innholdsfortegnelse[Gjemme seg][Forestilling]
De 23. Google I/O var ganske spennende! På området kunstig intelligens presenterte de flere viktige fremskritt.
Konkurransen mellom OpenAIs GPT-4 og Googles Gemini var en av de mest betydningsfulle avsløringene. Etter deres eksisterende PALM 2 system, er Gemini den store språkmodellen (LLM) til den påfølgende generasjonen.
Maskinlæringsmodellen er forbedret av Google, noe som gjør den enda mer sofistikert. For å konkurrere med Microsofts Bing-forbedringer, legger de også til generative AI-funksjoner i Android og øker Google Søk med AI.
For å gjøre Google Bard mer konkurransedyktig med andre chatbots som ChatGPT, annonserte de en betydelig forbedring for det under arrangementet. Bard vil etter hvert støtte 40 flere språk, inkludert koreansk og japansk. Med denne utvidelsen vil Bard kunne støtte utviklere hvor som helst.
I tillegg, for å forbedre svarene på brukerforespørsler, vil Bard nå tilby bilder, kart og annen grafikk. For alle utviklerne der ute, vil det være til enorm hjelp. Her vil vi undersøke LLM Geminis spesifikasjoner.
Hva er Gemini?
Ifølge Google, Gemini var fra grunnen av ment å være multimodal, veldig effektiv når det gjelder tilkobling av verktøy og APIer, og klar for fremtidige fremskritt som minne og planlegging. Google uttalte i blogginnlegget deres at Gemini allerede har enestående multimodale muligheter som tidligere modeller ikke hadde.
"Når vi har finjustert og grundig testet Gemini for sikkerhet, vil vi tilby den i forskjellige størrelser og funksjoner, lik PaLM 2," sa Google.
Som et resultat kan det implementeres på tvers av flere produkter, apper og enheter til fordel for alle."
De presenterte PaLM 2, en banebrytende språkmodell med utvidede flerspråklige, resonnerings- og kodingsmuligheter, på konferansen. Den ble omfattende trent med flerspråklig materiale fra over 100 språk.
PaLM 2 kan produsere og oversette subtilt innhold som idiomer, poesi og gåter på en rekke språk.
Gemini vil sannsynligvis øke Googles AI-innsats og utfordre pioneren, OpenAIs ChatGPT. Mens ChatGPT mest brukes til tekstbaserte samtaler, er Gemini multimodal, noe som betyr at den kan svare på både tekst og bilder. Når den er integrert med Google Søk, har den potensialet til å transformere hvordan forbrukere samhandler med den populære søkemotoren.
Selv om ytterligere detaljer om Gemini ennå ikke er tilgjengelige, kan den utkonkurrere ChatGPT og Bing AI, og drive Google til sjefen for AI-feltet.
Sundar Pichai, administrerende direktør i Google, sa under konferansen: "Etter syv år med å være et AI-first-selskap, befinner vi oss ved et spennende vendepunkt."
Tvillingene gjennomgår nå trening, ifølge Pichai, og den blir skapt med en multimodal tilnærming med mål om å være ekstremt effektiv og åpne døren for fremtidige fremskritt som hukommelse og planlegging. Gemini viser allerede frem enestående multimodale evner som var fraværende fra tidligere versjoner, ifølge Pichai, selv om den fortsatt er i sine tidlige faser.
Google instruerer Gemini via sin TPU (chips). Pichai uttalte at etter at Gemini har blitt optimalisert og har bestått sikkerhetsinspeksjoner, vil den være tilgjengelig i en rekke størrelser og kapasiteter, selv om ingen spesifikk utgivelsesdato ble nevnt.
Pichai gjorde det klart at alle Googles AI-modeller vil inkludere vannmerking og metadata i utdata, for eksempel bilder, for å forhindre spredning av feil informasjon.
Hva gjør Gemini overlegen ChatGPT og BingAI?
Gemini har flere spennende "multimodale" egenskaper. Gemini, i motsetning til ChatGPT, som kun kan lese og produsere tekst, er basert på et multimodalt paradigme og kan forstå og produsere tekst, kode og bilder.
Tallrike muligheter er muliggjort av dette bredere utvalget av ferdigheter. Gemini, for eksempel, kan brukes til å lage en ny klasse med AI-chatboter som kan forstå og reagere på både tekst og bilder.
Imidlertid gir både ChatGPT og Bing kun tekstbasert kommunikasjon, med Bing som gir en egen lenke for å lage bilder, men mangler bildestøtte i chat.
Gemini kan håndtere et bredere utvalg av produkter og applikasjoner i motsetning til ChatGPT. Den kan for eksempel brukes til å oppgradere Google Søk eller lage en banebrytende virtuell assistent som bruker AI. Disse funksjonene mangler i BingAI og ChatGPT. ChatGPT tilbyr imidlertid plugins som forbedrer resultatene.
Gemini har også egenskaper som minne og planlegging, noe som tillater utvikling av AI-drevne apper som går utover det ChatGPT er i stand til.
Spennende muligheter dukker opp når du vurderer å ha en personlig assistent drevet av Gemini som holder styr på dine preferanser og hjelper deg med daglig planlegging. For å se Geminis fulle potensial og undersøke mulighetene det åpner for, må vi imidlertid først vente utålmodig på den offentlige utgivelsen.
konklusjonen
Gemini, Googles neste generasjons språkmodell, har vist enestående multimodale funksjoner, noe som gjør den mer tilpasningsdyktig enn ChatGPT, konkurrenten med kun tekst.
Gemini skaper nye muligheter for chatbots og AI-apper ved å la dem lese og produsere tekst, kode og grafikk. Disse applikasjonene kan nå administrere et større spekter av aktiviteter. I motsetning til Gemini, som støtter både bilder og multimodale interaksjoner, er ChatGPT og BingAI kun i stand til tekstbaserte interaksjoner.
Selv om mer spesifikk informasjon om Gemini ennå ikke har blitt offentliggjort, er det klart at Google er forpliktet til å fremme AI-teknologi og opprettholde ledelsen på feltet.
Vi forventer å se Geminis fulle potensial og de kreative mulighetene det åpner opp mens vi i spenning venter på den formelle lanseringen.
Legg igjen en kommentar