Các mạng nơ-ron lớn đã được đào tạo để nhận dạng và tạo ngôn ngữ đã cho thấy những kết quả xuất sắc trong nhiều nhiệm vụ trong những năm gần đây. GPT-3 đã chứng minh rằng các mô hình ngôn ngữ lớn (LLM) có thể được sử dụng cho việc học ít lần và đạt được kết quả xuất sắc mà không yêu cầu dữ liệu sâu rộng về nhiệm vụ cụ thể hoặc thay đổi các thông số mô hình.
Google, gã khổng lồ công nghệ của Thung lũng Silicon, đã giới thiệu PaLM, hay Mô hình Ngôn ngữ Con đường, cho ngành công nghệ toàn thế giới dưới dạng mô hình ngôn ngữ AI thế hệ tiếp theo. Google đã kết hợp một trí tuệ nhân tạo kiến trúc thành PaLM với mục đích chiến lược là cải thiện chất lượng của mô hình ngôn ngữ AI.
Trong bài đăng này, chúng tôi sẽ xem xét chi tiết thuật toán Palm, bao gồm các tham số được sử dụng để đào tạo nó, vấn đề mà nó giải quyết và nhiều hơn nữa.
Là gì Thuật toán PaLM của Google?
Mô hình ngôn ngữ Pathways là gì Lòng bàn tay viết tắt của. Đây là một thuật toán mới do Google phát triển nhằm tăng cường kiến trúc AI của Pathways. Mục tiêu chính của cấu trúc là thực hiện một triệu hoạt động riêng biệt cùng một lúc.
Chúng bao gồm mọi thứ từ giải mã dữ liệu phức tạp đến suy luận suy diễn. PaLM có khả năng vượt qua AI tiên tiến nhất hiện nay cũng như con người trong các tác vụ ngôn ngữ và lập luận.
Điều này bao gồm Học ít bắn, mô phỏng cách con người học những điều mới và kết hợp các kiến thức đa dạng để giải quyết những thách thức mới chưa từng thấy trước đây, với lợi ích của một cỗ máy có thể sử dụng tất cả kiến thức của mình để giải quyết những thách thức mới; một ví dụ về kỹ năng này trong PaLM là khả năng giải thích một trò đùa mà nó chưa bao giờ nghe thấy trước đây.
PaLM đã thể hiện nhiều kỹ năng đột phá trong nhiều nhiệm vụ thách thức khác nhau, bao gồm hiểu và sáng tạo ngôn ngữ, các hoạt động liên quan đến mã số học nhiều bước, suy luận thông thường, dịch thuật, v.v.
Nó đã chứng tỏ khả năng giải quyết các vấn đề phức tạp bằng cách sử dụng các bộ NLP đa ngôn ngữ. PaLM có thể được thị trường công nghệ trên toàn thế giới sử dụng để phân biệt nguyên nhân và kết quả, kết hợp khái niệm, trò chơi riêng biệt và nhiều thứ khác.
Nó cũng có thể tạo ra các giải thích chuyên sâu cho nhiều ngữ cảnh bằng cách sử dụng suy luận logic nhiều bước, ngôn ngữ sâu sắc, kiến thức toàn cầu và các kỹ thuật khác.
Google đã phát triển thuật toán PaLM như thế nào?
Đối với hiệu suất đột phá của Google trong PaLM, các đường dẫn được lên kế hoạch mở rộng quy mô lên đến 540 tỷ tham số. Nó được công nhận là một mô hình có thể tổng quát hóa hiệu quả và hiệu quả trên nhiều lĩnh vực. Pathways tại Google dành riêng cho việc phát triển tính toán phân tán cho các máy gia tốc.
PaLM là một mô hình biến áp chỉ dành cho bộ giải mã đã được đào tạo bằng cách sử dụng hệ thống Pathways. Theo Google, PaLM đã đạt được thành công trong việc thực hiện một vài cảnh quay hiện đại trong một số khối lượng công việc. PaLM đã sử dụng hệ thống Pathways để mở rộng đào tạo cho cấu hình hệ thống dựa trên TPU lớn nhất, được gọi là chip 6144 lần đầu tiên.
Tập dữ liệu đào tạo cho mô hình ngôn ngữ AI được tạo thành từ sự kết hợp giữa tiếng Anh và các tập dữ liệu đa ngôn ngữ khác. Với vốn từ vựng “không mất dữ liệu”, nó chứa nội dung web chất lượng cao, các cuộc thảo luận, sách, mã GitHub, Wikipedia và nhiều nội dung khác. Từ vựng không bị mất được công nhận để giữ lại khoảng trắng và chia các ký tự Unicode không có trong từ vựng thành byte.
PaLM được Google và Pathways phát triển sử dụng kiến trúc mô hình biến áp tiêu chuẩn và cấu hình bộ giải mã bao gồm Kích hoạt SwiGLU, các lớp song song, nhúng RoPE, nhúng đầu vào-đầu ra được chia sẻ, chú ý nhiều truy vấn và không có thành kiến hoặc từ vựng. Mặt khác, PaLM sẵn sàng cung cấp cơ sở vững chắc cho mô hình ngôn ngữ AI của Google và Pathways.
Các tham số được sử dụng để đào tạo PaLM
Năm ngoái, Google đã ra mắt Pathways, một mô hình duy nhất có thể được đào tạo để thực hiện hàng nghìn, nếu không phải hàng triệu việc — được mệnh danh là “kiến trúc AI thế hệ tiếp theo” vì nó có thể khắc phục các hạn chế của các mô hình hiện tại là được đào tạo để chỉ làm một việc . Thay vì mở rộng khả năng của các mô hình hiện tại, các mô hình mới thường được xây dựng từ dưới lên để hoàn thành một công việc duy nhất.
Kết quả là họ đã tạo ra hàng chục nghìn mô hình cho hàng chục nghìn hoạt động khác nhau. Đây là một công việc tốn nhiều thời gian và tài nguyên.
Google đã chứng minh thông qua Pathways rằng một mô hình duy nhất có thể xử lý nhiều hoạt động khác nhau, đồng thời thu hút và kết hợp các tài năng hiện tại để học các nhiệm vụ mới nhanh chóng và hiệu quả hơn.
Các mô hình đa phương thức bao gồm khả năng nhìn, hiểu ngôn ngữ và xử lý thính giác cùng một lúc có thể được kích hoạt thông qua các con đường. Mô hình ngôn ngữ Pathways (PaLM) cho phép đào tạo một mô hình duy nhất trên nhiều Pod TPU v4 nhờ mô hình tham số 540 tỷ của nó.
PaLM, một mô hình Transformer chỉ dành cho bộ giải mã dày đặc, vượt trội hơn so với hiệu suất một vài cảnh quay hiện đại trong một loạt các khối lượng công việc. PaLM đang được đào tạo trên hai Pod TPU v4 được liên kết qua mạng trung tâm dữ liệu (DCN).
Nó tận dụng lợi thế của cả mô hình và dữ liệu song song. Các nhà nghiên cứu đã sử dụng 3072 bộ xử lý TPU v4 trong mỗi Pod cho PaLM, được kết nối với 768 máy chủ. Theo các nhà nghiên cứu, đây là cấu hình TPU lớn nhất chưa được tiết lộ, cho phép họ mở rộng quy mô đào tạo mà không sử dụng song song đường ống.
Lót ống là quá trình thu thập các lệnh từ CPU thông qua một đường ống nói chung. Các lớp của mô hình được chia thành các giai đoạn có thể được xử lý song song thông qua song song mô hình đường ống (hoặc song song đường ống).
Bộ nhớ kích hoạt được gửi đến bước tiếp theo khi một giai đoạn hoàn thành quá trình chuyển tiếp cho một loạt vi mô. Sau đó, các gradient được gửi về phía sau khi giai đoạn sau hoàn thành quá trình lan truyền ngược của nó.
Khả năng đột phá của PaLM
PaLM hiển thị khả năng đột phá trong một loạt các nhiệm vụ khó khăn. Dưới đây là một số ví dụ:
1. Tạo và hiểu ngôn ngữ
PaLM đã được đưa vào thử nghiệm trên 29 nhiệm vụ NLP khác nhau bằng tiếng Anh.
Trên cơ sở một vài cảnh quay, PaLM 540B làm tốt hơn các mẫu lớn trước đó như GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla và LaMDA ở 28 trong số 29 nhiệm vụ, bao gồm cả các tác vụ trả lời câu hỏi biến thể dạng sách đóng miền mở , sao chép và hoàn thành câu, nhiệm vụ kiểu Winograd, nhiệm vụ đọc hiểu trong ngữ cảnh, nhiệm vụ suy luận thông thường, nhiệm vụ SuperGLUE và suy luận tự nhiên.
Trong một số nhiệm vụ LỚN, PaLM thể hiện kỹ năng giải thích và tạo ngôn ngữ tự nhiên tuyệt vời. Ví dụ: mô hình có thể phân biệt giữa nguyên nhân và kết quả, hiểu các kết hợp khái niệm trong một số tình huống nhất định và thậm chí đoán phim từ biểu tượng cảm xúc. Mặc dù chỉ 22% ngữ liệu đào tạo không phải là tiếng Anh, PaLM thực hiện tốt các tiêu chuẩn NLP đa ngôn ngữ, bao gồm cả dịch thuật, ngoài các nhiệm vụ NLP tiếng Anh.
2. Lý luận
PaLM kết hợp kích thước mô hình với sự thúc đẩy chuỗi suy nghĩ để thể hiện các kỹ năng đột phá về các thách thức lý luận đòi hỏi số học nhiều bước hoặc suy luận thông thường.
Các LLM trước đây, chẳng hạn như Gopher, được hưởng lợi ít hơn từ kích thước mô hình về mặt nâng cao hiệu suất. PaLM 540B với khả năng thúc đẩy chuỗi suy nghĩ hoạt động tốt trên ba tập dữ liệu tư duy số học và hai tư duy thông thường.
PaLM vượt trội so với điểm số tốt nhất trước đó là 55%, đạt được bằng cách tinh chỉnh mô hình GPT-3 175B với bộ đào tạo gồm 7500 vấn đề và kết hợp nó với một máy tính và trình xác minh bên ngoài để giải quyết 58% vấn đề trong GSM8K, a điểm chuẩn của hàng nghìn câu hỏi khó cấp trường môn toán sử dụng 8 cú nhắc.
Điểm mới này đặc biệt đáng chú ý vì nó tiếp cận mức trung bình 60% các chướng ngại vật mà trẻ 9-12 tuổi phải trải qua. Nó cũng có thể đáp lại những câu chuyện cười nguyên bản không có trên internet.
3. Tạo mã
LLM cũng đã được chứng minh là hoạt động tốt trong các nhiệm vụ mã hóa, bao gồm tạo mã từ mô tả ngôn ngữ tự nhiên (văn bản thành mã), dịch mã giữa các ngôn ngữ và giải quyết các lỗi biên dịch. Mặc dù chỉ có 5% mã trong tập dữ liệu trước khi đào tạo, PaLM 540B thực hiện tốt cả các tác vụ mã hóa và ngôn ngữ tự nhiên trong một mô hình duy nhất.
Hiệu suất trong vài cảnh quay của nó là đáng kinh ngạc, vì nó phù hợp với Codex 12B đã được tinh chỉnh trong khi đào tạo với mã Python ít hơn 50 lần. Phát hiện này ngược lại với những phát hiện trước đó rằng các mô hình lớn hơn có thể lấy mẫu hiệu quả hơn các mô hình nhỏ hơn vì chúng có thể chuyển giao hiệu quả hơn việc học từ nhiều ngôn ngữ lập trình và dữ liệu ngôn ngữ thuần túy.
Kết luận
PaLM cho thấy khả năng mở rộng quy mô của hệ thống Pathways lên hàng nghìn bộ vi xử lý gia tốc trên hai TPU v4 Pod bằng cách đào tạo hiệu quả mô hình tham số 540 tỷ với công thức được nghiên cứu kỹ lưỡng, thiết lập tốt của mô hình Transformer chỉ có bộ giải mã dày đặc.
Nó đạt được hiệu suất đột phá trong vài cảnh quay trong một loạt các thách thức về xử lý ngôn ngữ tự nhiên, lập luận và mã hóa bằng cách đẩy giới hạn của quy mô mô hình.
Bình luận