Innehållsförteckning[Dölj][Visa]
Smakämnen 23:e Google I/O var ganska spännande! På området artificiell intelligens presenterade de flera viktiga framsteg.
Konkurrensen mellan OpenAI:s GPT-4 och Googles Gemini var en av de mest betydande avslöjandena. Efter deras existerande PALM 2 system, Gemini är den stora språkmodellen (LLM) av följande generation.
Maskininlärningsmodellen har förbättrats av Google, vilket gör den ännu mer sofistikerad. För att kunna konkurrera med Microsofts Bing-förbättringar lägger de också till generativa AI-funktioner i Android och ökar Google Sök med AI.
För att göra Google Bard mer konkurrenskraftig med andra chatbots som ChatGPT, meddelade de en betydande förbättring för det under evenemanget. Bard kommer så småningom att stödja ytterligare 40 språk, inklusive koreanska och japanska. Med detta tillägg kommer Bard att kunna stödja utvecklare var som helst.
Dessutom, för att förbättra sina svar på användarförfrågningar, kommer Bard nu att erbjuda bilder, kartor och annan grafik. För alla utvecklare där ute kommer det att vara till enorm hjälp. Här kommer vi att undersöka LLM Geminis detaljer.
Vad är Gemini?
Enligt Google, Gemini var från grunden tänkt att vara multimodal, mycket effektiv när det gäller att ansluta verktyg och API:er, och redo för framtida framsteg som minne och planering. Google uppgav i sitt blogginlägg att Gemini redan har enastående multimodala möjligheter som tidigare modeller inte hade.
"När vi har finjusterat och noggrant testat Gemini för säkerhet, kommer vi att erbjuda den i olika storlekar och funktioner, liknande PaLM 2," sa Google.
Som ett resultat kan det implementeras i flera produkter, appar och enheter till nytta för alla."
De presenterade PaLM 2, en banbrytande språkmodell med utökade flerspråkighets-, resonemangs- och kodningsmöjligheter, på konferensen. Den utbildades omfattande med flerspråkigt material från över 100 språk.
PaLM 2 kan producera och översätta subtilt innehåll som idiom, poesi och gåtor på en mängd olika språk.
Gemini kommer sannolikt att öka Googles AI-ansträngningar och utmana pionjären, OpenAI:s ChatGPT. Medan ChatGPT mestadels används för textbaserade konversationer, är Gemini multimodal, vilket innebär att den kan svara på både text och bilder. När den väl har integrerats med Google Sök har den potential att förändra hur konsumenter interagerar med den populära sökmotorn.
Även om ytterligare detaljer om Tvillingarna ännu inte är tillgängliga, kan den överträffa ChatGPT och Bing AI, vilket driver Google till chefen för AI-fältet.
Sundar Pichai, VD för Google, sa under konferensen: "Efter sju år av att vara ett AI-först företag befinner vi oss vid en spännande vändpunkt."
Tvillingarna genomgår nu utbildning, enligt Pichai, och den skapas med ett multimodalt tillvägagångssätt med målet att vara extremt effektiv och öppna dörren för framtida framsteg som minne och planering. Gemini visar redan upp enastående multimodala möjligheter som saknades från tidigare versioner, enligt Pichai, även om det fortfarande är i sina tidiga faser.
Google instruerar Gemini via sin TPU (chips). Pichai sa att efter att Gemini har optimerats och klarat säkerhetsinspektioner, skulle den vara tillgänglig i en mängd olika storlekar och kapaciteter, även om inget specifikt releasedatum nämndes.
Pichai gjorde det klart att alla Googles AI-modeller kommer att införliva vattenmärkning och metadata i utdata, som bilder, för att förhindra spridning av felaktig information.
Vad gör Gemini överlägsen ChatGPT och BingAI?
Tvillingarna har flera spännande "multimodala" egenskaper. Tvillingarna, till skillnad från ChatGPT, som bara kan läsa och producera text, bygger på ett multimodalt paradigm och kan förstå och producera text, kod och bilder.
Många möjligheter möjliggörs av denna bredare variation av kompetens. Tvillingarna, till exempel, kan användas för att skapa en ny klass av AI-chatbotar som kan förstå och reagera på både text och bilder.
Men både ChatGPT och Bing tillhandahåller bara textbaserad kommunikation, med Bing som tillhandahåller en separat länk för att skapa bilder men saknar bildstöd i chatten.
Gemini kan hantera ett bredare utbud av produkter och applikationer i motsats till ChatGPT. Den kan till exempel användas för att uppgradera Google Sök eller skapa en avancerad virtuell assistent som använder AI. Dessa funktioner saknas i BingAI och ChatGPT. ChatGPT tillhandahåller dock plugins som förbättrar resultaten.
Gemini har också egenskaper som minne och planering, vilket möjliggör utveckling av AI-drivna appar som går utöver vad ChatGPT kan.
Spännande möjligheter uppstår när du överväger att ha en personlig assistent som drivs av Gemini som håller reda på dina preferenser och hjälper till i den dagliga planeringen. För att se Geminis fulla potential och undersöka möjligheterna det öppnar upp måste vi dock först vänta otåligt på dess offentliga publicering.
Slutsats
Gemini, Googles nästa generations språkmodell, har visat enastående multimodala funktioner, vilket gör den mer anpassningsbar än ChatGPT, dess konkurrent för enbart text.
Gemini skapar nya möjligheter för chatbots och AI-appar genom att de kan läsa och producera text, kod och grafik. Dessa applikationer kan nu hantera ett större utbud av aktiviteter. Till skillnad från Gemini, som stöder både bilder och multimodala interaktioner, är ChatGPT och BingAI endast kapabla till textbaserade interaktioner.
Även om mer specifik information om Gemini ännu inte har offentliggjorts, är det tydligt att Google är engagerad i att utveckla AI-teknik och behålla sin ledning på området.
Vi förväntar oss att se Geminis fulla potential och de kreativa möjligheter den öppnar upp när vi med spänning väntar på dess formella lansering.
Kommentera uppropet