Mục lục[Ẩn giấu][Chỉ]
Sản phẩm Google I/O lần thứ 23 đã khá ly kỳ! Trong lĩnh vực trí tuệ nhân tạo, họ đã trình bày một số tiến bộ quan trọng.
Sự cạnh tranh giữa GPT-4 của OpenAI và Gemini của Google là một trong những tiết lộ quan trọng nhất. Sau khi họ hiện có PALM 2 hệ thống, Gemini là mô hình ngôn ngữ lớn (LLM) của thế hệ sau.
Mô hình học máy đã được Google cải tiến, khiến nó trở nên tinh vi hơn. Để cạnh tranh với các cải tiến Bing của Microsoft, họ cũng đang bổ sung các khả năng AI tổng quát vào Android và tăng cường Tìm kiếm của Google bằng AI.
Để làm cho Google Bard cạnh tranh hơn với các dịch vụ khác chatbot như ChatGPT, họ đã công bố một cải tiến đáng kể cho nó trong sự kiện này. Bard cuối cùng sẽ hỗ trợ thêm 40 ngôn ngữ, bao gồm cả tiếng Hàn và tiếng Nhật. Với phần mở rộng này, Bard sẽ có thể hỗ trợ các nhà phát triển ở bất cứ đâu.
Ngoài ra, để cải thiện các câu trả lời cho các yêu cầu của người dùng, giờ đây Bard sẽ cung cấp hình ảnh, bản đồ và đồ họa khác. Đối với tất cả các nhà phát triển ngoài kia, nó sẽ hỗ trợ rất nhiều. Ở đây, chúng ta sẽ xem xét các chi tiết cụ thể của LLM Gemini.
Song Tử là gì?
Theo Google, Gemini được dự định ngay từ đầu là đa phương thức, rất hiệu quả về mặt kết nối các công cụ và API, đồng thời sẵn sàng cho những tiến bộ trong tương lai như bộ nhớ và lập kế hoạch. Google đã tuyên bố trong bài đăng trên blog của họ rằng Gemini đã có các khả năng đa phương thức vượt trội mà các mẫu trước đó không có.
Google cho biết: “Sau khi tinh chỉnh và kiểm tra kỹ lưỡng Gemini về độ an toàn, chúng tôi sẽ cung cấp nó với nhiều kích cỡ và khả năng khác nhau, tương tự như PaLM 2”.
Do đó, nó có thể được triển khai trên nhiều sản phẩm, ứng dụng và thiết bị để mang lại lợi ích cho mọi người.”
Họ đã trình bày PaLM 2, một mô hình ngôn ngữ tiên tiến với khả năng đa ngôn ngữ, lý luận và mã hóa mở rộng, tại hội nghị. Nó được đào tạo rộng rãi với tài liệu đa ngôn ngữ từ hơn 100 ngôn ngữ.
PaLM 2 có thể sản xuất và dịch các nội dung tinh tế như thành ngữ, thơ ca và câu đố bằng nhiều ngôn ngữ khác nhau.
Gemini có khả năng thúc đẩy các nỗ lực AI của Google và thách thức người tiên phong, ChatGPT của OpenAI. Mặc dù ChatGPT chủ yếu được sử dụng cho các cuộc hội thoại dựa trên văn bản, nhưng Gemini là đa phương thức, nghĩa là nó có thể phản hồi cả văn bản và hình ảnh. Sau khi được tích hợp với Google Tìm kiếm, nó có khả năng biến đổi cách người tiêu dùng tương tác với công cụ tìm kiếm phổ biến.
Mặc dù vẫn chưa có thêm thông tin chi tiết về Gemini, nhưng nó có thể vượt trội so với ChatGPT và Bing AI, đưa Google lên vị trí dẫn đầu trong lĩnh vực AI.
Sundar Pichai, Giám đốc điều hành của Google, đã nhận xét trong hội nghị, “Sau bảy năm trở thành công ty ưu tiên AI, chúng tôi thấy mình đang ở một bước ngoặt thú vị.”
Theo Pichai, Gemini hiện đang được đào tạo và nó đang được tạo ra với cách tiếp cận đa phương thức với mục tiêu cực kỳ hiệu quả và mở ra cơ hội cho những tiến bộ trong tương lai như trí nhớ và lập kế hoạch. Theo Pichai, Gemini đã thể hiện các khả năng đa phương thức vượt trội mà các phiên bản trước không có, ngay cả khi nó vẫn đang ở giai đoạn đầu.
Google hướng dẫn Gemini thông qua TPU (chip) của nó. Pichai tuyên bố rằng sau khi Gemini đã được tối ưu hóa và đã vượt qua các cuộc kiểm tra an toàn, nó sẽ có sẵn ở nhiều kích cỡ và dung lượng khác nhau, mặc dù không có ngày phát hành cụ thể nào được đề cập.
Pichai đã nói rõ rằng tất cả các mô hình AI của Google sẽ kết hợp hình mờ và siêu dữ liệu trong các kết quả đầu ra, chẳng hạn như hình ảnh, để ngăn chặn việc lan truyền thông tin không chính xác.
Điều gì khiến Song Tử vượt trội hơn ChatGPT và BingAI?
Song Tử có một số đặc điểm “đa phương thức” hấp dẫn. Gemini, trái ngược với ChatGPT, chỉ có thể đọc và tạo văn bản, dựa trên mô hình đa phương thức và có thể hiểu và tạo văn bản, mã và hình ảnh.
Nhiều cơ hội được tạo ra nhờ nhiều kỹ năng đa dạng hơn này. Chẳng hạn, Gemini có thể được sử dụng để tạo ra một lớp chatbot AI mới có thể hiểu và phản ứng với cả văn bản và hình ảnh.
Tuy nhiên, cả ChatGPT và Bing chỉ cung cấp giao tiếp dựa trên văn bản, với Bing cung cấp một liên kết riêng để tạo hình ảnh nhưng thiếu hỗ trợ hình ảnh trong trò chuyện.
Gemini có thể xử lý nhiều loại sản phẩm và ứng dụng hơn so với ChatGPT. Ví dụ, nó có thể được sử dụng để nâng cấp Google Tìm kiếm hoặc tạo một trợ lý ảo tiên tiến sử dụng AI. Các tính năng này không có trong BingAI và ChatGPT. Tuy nhiên, ChatGPT cung cấp các plugin giúp nâng cao kết quả.
Gemini cũng sở hữu các đặc điểm như bộ nhớ và lập kế hoạch, cho phép phát triển các ứng dụng hỗ trợ AI vượt xa khả năng của ChatGPT.
Những khả năng thú vị nảy sinh khi bạn cân nhắc việc có một trợ lý cá nhân do Gemini cung cấp để theo dõi các sở thích của bạn và hỗ trợ lập kế hoạch hàng ngày. Tuy nhiên, để thấy được toàn bộ tiềm năng của Gemini và điều tra các cơ hội mà nó mở ra, trước tiên chúng ta phải nôn nóng chờ đợi bản phát hành công khai của nó.
Kết luận
Gemini, mô hình ngôn ngữ thế hệ tiếp theo của Google, đã thể hiện các tính năng đa phương thức vượt trội, giúp nó dễ thích ứng hơn so với ChatGPT, đối thủ chỉ sử dụng văn bản của nó.
Gemini tạo cơ hội mới cho chatbot và ứng dụng AI bằng cách cho phép chúng đọc và tạo văn bản, mã và đồ họa. Các ứng dụng này hiện có thể quản lý phạm vi hoạt động lớn hơn. Trái ngược với Gemini, hỗ trợ cả hình ảnh và tương tác đa phương thức, ChatGPT và BingAI chỉ có khả năng tương tác dựa trên văn bản.
Mặc dù thông tin cụ thể hơn về Gemini vẫn chưa được công khai, nhưng rõ ràng Google cam kết thúc đẩy công nghệ AI và duy trì vị trí dẫn đầu trong lĩnh vực này.
Chúng tôi dự đoán sẽ thấy tiềm năng đầy đủ của Gemini và khả năng sáng tạo mà nó mở ra khi chúng tôi hào hứng chờ đợi sự ra mắt chính thức của nó.
Bình luận