Mục lục[Ẩn giấu][Chỉ]
GPT-3, mạng nơ-ron lớn của thời điểm hiện tại, được xuất bản vào tháng 2020 năm XNUMX trước OpenAI, công ty khởi nghiệp về AI do Elon Musk và Sam Altman đồng sáng lập. GPT-3 là một mô hình ngôn ngữ tiên tiến với 175 tỷ thông số so với 1,5 tỷ thông số trên người tiền nhiệm GPT-2.
GPT-3 vượt trội so với mô hình NLG Turing (Turing Natural Language Generation) của Microsoft, trước đó đã giữ kỷ lục về mạng nơ-ron lớn nhất với 17 tỷ tham số.
Mô hình ngôn ngữ đã được khen ngợi, phê bình, và thậm chí bị xem xét kỹ lưỡng; nó cũng đã tạo ra những công dụng mới và hấp dẫn. Và bây giờ có báo cáo rằng GPT-4, phiên bản tiếp theo của OpenAI mô hình ngôn ngữ, thực sự sẽ đến sớm.
Bạn đã đến đúng trang web nếu muốn tìm hiểu thêm về GPT-4. Chúng ta sẽ xem xét chuyên sâu về GPT-4 trong bài viết này, bao gồm các thông số của nó, cách nó so sánh với các mẫu khác và hơn thế nữa.
Vậy, GPT-4 là gì?
Để hiểu phạm vi của GPT-4, trước tiên chúng ta phải hiểu GPT-3, tiền thân của nó. GPT-3 (Máy biến áp được đào tạo trước tạo, thế hệ thứ ba) là một công cụ tạo nội dung tự động.
Người dùng nhập dữ liệu vào một học máy theo OpenAI. GPT-4 sẽ xử lý đa nhiệm tốt hơn đáng kể trong điều kiện ít ảnh - một loại học máy - mang lại kết quả gần hơn với kết quả của con người.
GPT-3 tốn hàng trăm triệu bảng Anh để chế tạo, nhưng GPT-4 được dự đoán sẽ tốn kém hơn đáng kể vì quy mô sẽ lớn hơn gấp năm trăm lần. Để đặt vấn đề này trong quan điểm,
GPT-4 có thể có nhiều đặc điểm giống như khớp thần kinh trong não. GPT-4 chủ yếu sẽ sử dụng các phương pháp tương tự như GPT-3, do đó, thay vì là một bước nhảy vọt về mô hình, GPT-4 sẽ mở rộng dựa trên những gì GPT-3 hiện đang đạt được - nhưng với khả năng suy luận lớn hơn đáng kể.
GPT-3 cho phép người dùng nhập ngôn ngữ tự nhiên cho các mục đích thực tế, nhưng nó vẫn cần một số kiến thức chuyên môn để thiết kế lời nhắc mang lại kết quả tốt. GPT-4 sẽ tốt hơn đáng kể trong việc dự đoán ý định của người dùng.
Các thông số GPT-4 sẽ là gì?
Mặc dù là một trong những tiến bộ AI được chờ đợi rộng rãi nhất, không có gì được biết về GPT-4: nó sẽ trông như thế nào, nó sẽ có những đặc điểm gì và nó sẽ có sức mạnh gì.
Năm ngoái, Altman đã thực hiện một cuộc hỏi đáp và tiết lộ một vài chi tiết về tham vọng của OpenAI đối với GPT-4. Theo Altman, nó sẽ không lớn hơn GPT-3. GPT-4 dường như không được sử dụng rộng rãi nhất mô hình ngôn ngữ. Mặc dù mô hình sẽ rất lớn so với các thế hệ trước mạng thần kinh, kích thước của nó sẽ không phải là đặc điểm phân biệt của nó. GPT-3 và Gopher là những ứng cử viên hợp lý nhất (175B-280B).
Nvidia và Megatron-Turing NLG của Microsoft đã giữ kỷ lục về mạng lưới thần kinh dày đặc nhất thông số ở mức 530B - gấp ba lần so với GPT-3 - cho đến gần đây khi PaLM của Google lấy nó ở mức 540B. Đáng ngạc nhiên, một loạt các mô hình ít hơn đã hoạt động tốt hơn MT-NLG.
Theo kết nối luật sức mạnh, Jared Kaplan của OpenAI và các đồng nghiệp đã xác định vào năm 2020 rằng khi tăng ngân sách xử lý được chi chủ yếu vào việc tăng số lượng tham số, thì hiệu suất sẽ cải thiện lớn nhất. Google, Nvidia, Microsoft, OpenAI, DeepMind và các công ty mô hình hóa ngôn ngữ khác đã tuân thủ các quy định.
Altman chỉ ra rằng họ không còn tập trung vào việc xây dựng các mô hình lớn nữa mà thay vào đó là tối đa hóa hiệu suất của các mô hình nhỏ hơn.
Các nhà nghiên cứu OpenAI là những người ban đầu đề xuất giả thuyết chia tỷ lệ, nhưng họ có thể đã phát hiện ra rằng các con đường bổ sung, chưa được khám phá trước đây có thể dẫn đến các mô hình vượt trội. GPT-4 sẽ không lớn hơn đáng kể so với GPT-3 vì những lý do này.
OpenAI sẽ tập trung nhiều hơn vào các khía cạnh khác, chẳng hạn như dữ liệu, thuật toán, tham số hóa và liên kết, có khả năng mang lại lợi ích đáng kể nhanh hơn. Chúng ta sẽ phải chờ xem một mô hình với thông số 100T có thể làm được gì.
Những điểm chính:
- Kích thước của mô hình: GPT-4 sẽ lớn hơn GPT-3, nhưng không nhiều (MT-NLG 530B và PaLM 540B). Kích thước của mô hình sẽ không đáng kể.
- Sự tối ưu: GPT-4 sẽ sử dụng nhiều tài nguyên hơn GPT-3. Nó sẽ triển khai những hiểu biết tối ưu mới về tham số hóa (siêu tham số tối ưu) và phương pháp chia tỷ lệ (số lượng mã thông báo đào tạo cũng quan trọng như kích thước mô hình).
- Đa phương thức: GPT-4 sẽ chỉ có thể gửi và nhận tin nhắn văn bản (không phải đa phương thức). OpenAI tìm cách đẩy các mô hình ngôn ngữ đến giới hạn của chúng trước khi chuyển sang các mô hình đa phương thức như THỬ THÁCH 2, mà họ dự đoán cuối cùng sẽ vượt qua các hệ thống đơn phương thức.
- Thưa thớt: GPT-4, giống như các phiên bản tiền nhiệm GPT-2 và GPT-3, sẽ là một mô hình dày đặc (tất cả các tham số sẽ được sử dụng để xử lý bất kỳ đầu vào nhất định nào). Trong tương lai, sự thưa thớt sẽ trở nên quan trọng hơn.
- Alignment: GPT-4 sẽ tiếp cận chúng ta gần hơn GPT-3. Nó sẽ đưa những gì nó đã học được từ GuiductGPT, được phát triển với sự đóng góp của con người. Tuy nhiên, sự hội tụ của AI vẫn còn một chặng đường dài và các nỗ lực cần được đánh giá cẩn thận thay vì phóng đại.
Kết luận
Trí tuệ tổng hợp nhân tạo. Đó là một mục tiêu lớn, nhưng các nhà phát triển OpenAI đang nỗ lực để đạt được nó. Mục tiêu của AGI là tạo ra một mô hình hoặc “đại lý” có khả năng hiểu và thực hiện bất kỳ hoạt động nào mà một người có thể.
GPT-4 có thể là bước tiếp theo để đạt được mục tiêu này, và nó có vẻ giống như một bộ phim khoa học viễn tưởng. Bạn có thể tự hỏi thực tế như thế nào để đạt được AGI.
Theo Ray Kurzweil, Giám đốc Kỹ thuật của Google, chúng tôi sẽ đạt được cột mốc này vào năm 2029. Với suy nghĩ này, chúng ta hãy xem xét sâu hơn về GPT-4 và các phân nhánh của mô hình này khi chúng ta tiến gần hơn đến AGI (Trí tuệ nhân tạo tổng quát).
Bình luận