Indholdsfortegnelse[Skjule][At vise]
23. Google I/O var ret spændende! Inden for kunstig intelligens præsenterede de flere vigtige fremskridt.
Konkurrencen mellem OpenAIs GPT-4 og Googles Gemini var en af de mest betydningsfulde afsløringer. Efter deres eksisterende PALM 2 system, Gemini er den store sprogmodel (LLM) af den følgende generation.
Maskinlæringsmodellen er blevet forbedret af Google, hvilket gør den endnu mere sofistikeret. For at kunne konkurrere med Microsofts Bing-forbedringer tilføjer de også generative AI-funktioner til Android og booster Google Søgning med AI.
At gøre Google Bard mere konkurrencedygtig med andre chatbots som ChatGPT, annoncerede de en væsentlig forbedring for det under arrangementet. Bard vil med tiden understøtte 40 flere sprog, herunder koreansk og japansk. Med denne udvidelse vil Bard være i stand til at understøtte udviklere overalt.
Derudover vil Bard nu tilbyde billeder, kort og anden grafik for at forbedre sine svar på brugeranmodninger. For alle udviklerne derude vil det være til stor hjælp. Her vil vi undersøge LLM Geminis detaljer.
Hvad er Gemini?
Ifølge Google, Gemini var fra bunden tiltænkt at være multimodal, meget effektiv med hensyn til at forbinde værktøjer og API'er og klar til fremtidige fremskridt såsom hukommelse og planlægning. Google udtalte i deres blogindlæg, at Gemini allerede har fremragende multimodale kapaciteter, som tidligere modeller ikke havde.
"Når vi har finjusteret og grundigt testet Gemini for sikkerhed, vil vi tilbyde den i forskellige størrelser og muligheder, svarende til PaLM 2," sagde Google.
Som et resultat kan det implementeres på tværs af flere produkter, apps og enheder til gavn for alle."
De præsenterede PaLM 2, en banebrydende sprogmodel med udvidede flersprogede, ræsonnement og kodningsmuligheder, på konferencen. Det blev grundigt trænet med flersproget materiale fra over 100 sprog.
PaLM 2 kan producere og oversætte subtilt indhold såsom idiomer, poesi og gåder på en række forskellige sprog.
Gemini vil sandsynligvis booste Googles AI-indsats og udfordre pioneren, OpenAI's ChatGPT. Mens ChatGPT mest bruges til tekstbaserede samtaler, er Gemini multimodal, hvilket betyder, at den kan reagere på både tekst og billeder. Når den er integreret med Google Søgning, har den potentialet til at transformere, hvordan forbrugere interagerer med den populære søgemaskine.
Selvom yderligere detaljer om Gemini endnu ikke er tilgængelige, kan den udkonkurrere ChatGPT og Bing AI, hvilket driver Google til spidsen for AI-feltet.
Sundar Pichai, administrerende direktør for Google, bemærkede under konferencen: "Efter syv år med at være en AI-første virksomhed, befinder vi os ved et spændende vendepunkt."
Tvillingerne er nu under træning, ifølge Pichai, og den bliver skabt med en multimodal tilgang med det mål at være ekstremt effektiv og åbne døren for fremtidige fremskridt som hukommelse og planlægning. Gemini viser allerede fremragende multimodale egenskaber, der var fraværende i tidligere versioner, ifølge Pichai, selvom det stadig er i sine tidlige faser.
Google instruerer Gemini via sin TPU (chips). Pichai udtalte, at efter at Gemini er blevet optimeret og har bestået sikkerhedsinspektioner, ville den være tilgængelig i en række størrelser og kapaciteter, selvom der ikke blev nævnt nogen specifik udgivelsesdato.
Pichai gjorde det klart, at alle Googles AI-modeller vil inkorporere vandmærke og metadata i output, såsom billeder, for at forhindre spredning af forkert information.
Hvad gør Gemini overlegen i forhold til ChatGPT og BingAI?
Gemini har flere spændende "multimodale" egenskaber. Gemini er i modsætning til ChatGPT, som kun kan læse og producere tekst, baseret på et multimodalt paradigme og kan forstå og producere tekst, kode og billeder.
Talrige muligheder er muliggjort af denne bredere vifte af færdigheder. Gemini, for eksempel, kan bruges til at skabe en ny klasse af AI-chatbots, der kan forstå og reagere på både tekst og billeder.
Både ChatGPT og Bing leverer dog kun tekstbaseret kommunikation, hvor Bing leverer et separat link til at skabe billeder, men mangler billedstøtte i chat.
Gemini kan håndtere et bredere udvalg af produkter og applikationer i modsætning til ChatGPT. Den kan for eksempel bruges til at opgradere Google Søgning eller oprette en banebrydende virtuel assistent, der bruger AI. Disse funktioner mangler i BingAI og ChatGPT. ChatGPT tilbyder dog plugins, der forbedrer resultaterne.
Gemini besidder også egenskaber som hukommelse og planlægning, hvilket tillader udvikling af AI-drevne apps, der går ud over, hvad ChatGPT er i stand til.
Spændende muligheder opstår, når du overvejer at have en personlig assistent drevet af Gemini, der holder styr på dine præferencer og hjælper med den daglige planlægning. For at se Geminis fulde potentiale og undersøge mulighederne, det åbner op, må vi dog først vente utålmodigt på dens offentlige udgivelse.
Konklusion
Gemini, Googles næste generations sprogmodel, har vist fremragende multimodale funktioner, hvilket gør den mere tilpasningsdygtig end ChatGPT, dens rival med kun tekst.
Gemini skaber nye muligheder for chatbots og AI-apps ved at gøre det muligt for dem at læse og producere tekst, kode og grafik. Disse applikationer kan nu håndtere et større udvalg af aktiviteter. I modsætning til Gemini, som understøtter både billeder og multimodale interaktioner, er ChatGPT og BingAI kun i stand til tekstbaserede interaktioner.
Selvom mere specifik information om Gemini endnu ikke er blevet offentliggjort, er det klart, at Google er forpligtet til at fremme AI-teknologi og fastholde sit forspring på området.
Vi forventer at se Geminis fulde potentiale og de kreative muligheder, det åbner op for, mens vi spændt venter på dens formelle lancering.
Giv en kommentar