Một vấn đề kinh điển trong trí tuệ nhân tạo là theo đuổi một cỗ máy có thể hiểu được ngôn ngữ của con người.
Ví dụ: khi tìm kiếm “nhà hàng Ý gần đó” trên công cụ tìm kiếm yêu thích của bạn, một thuật toán phải phân tích từng từ trong truy vấn của bạn và đưa ra kết quả phù hợp. Một ứng dụng dịch tốt sẽ phải hiểu ngữ cảnh của một từ cụ thể trong tiếng Anh và bằng cách nào đó giải thích được sự khác biệt về ngữ pháp giữa các ngôn ngữ.
Tất cả những nhiệm vụ này và nhiều nhiệm vụ khác thuộc lĩnh vực khoa học máy tính được gọi là Xử lý ngôn ngữ tự nhiên hoặc NLP. Những tiến bộ trong NLP đã dẫn đến một loạt các ứng dụng thực tế từ trợ lý ảo như Alexa của Amazon cho đến các bộ lọc thư rác giúp phát hiện email độc hại.
Bước đột phá gần đây nhất trong NLP là ý tưởng về một mô hình ngôn ngữ lớn hoặc LLM. Các LLM như GPT-3 đã trở nên mạnh mẽ đến mức chúng dường như thành công trong hầu hết mọi nhiệm vụ hoặc trường hợp sử dụng NLP.
Trong bài viết này, chúng ta sẽ xem xét LLM chính xác là gì, cách các mô hình này được đào tạo và những hạn chế hiện tại mà chúng có.
Mô hình ngôn ngữ lớn là gì?
Về cốt lõi, một mô hình ngôn ngữ chỉ đơn giản là một thuật toán biết khả năng một chuỗi từ là một câu hợp lệ.
Một mô hình ngôn ngữ rất đơn giản được đào tạo trên vài trăm cuốn sách sẽ có thể nói rằng “Anh ấy đã về nhà” có giá trị hơn “Anh ấy đã về nhà”.
Nếu chúng ta thay thế tập dữ liệu tương đối nhỏ bằng tập dữ liệu lớn được lấy từ internet, chúng ta bắt đầu tiếp cận ý tưởng về một mô hình ngôn ngữ lớn.
Sử dụng mạng thần kinh, các nhà nghiên cứu có thể đào tạo LLM trên một lượng lớn dữ liệu văn bản. Do lượng dữ liệu văn bản mà mô hình đã xem, LLM trở nên rất tốt trong việc dự đoán từ tiếp theo trong một chuỗi.
Mô hình trở nên tinh vi đến mức nó có thể thực hiện rất nhiều nhiệm vụ NLP. Những tác vụ này bao gồm tóm tắt văn bản, tạo nội dung mới lạ và thậm chí mô phỏng cuộc trò chuyện giống con người.
Ví dụ, mô hình ngôn ngữ GPT-3 rất phổ biến được đào tạo với hơn 175 tỷ tham số và được coi là mô hình ngôn ngữ tiên tiến nhất cho đến nay.
Nó có thể tạo mã làm việc, viết toàn bộ bài báo và có thể trả lời các câu hỏi về bất kỳ chủ đề nào.
LLM được đào tạo như thế nào?
Chúng tôi đã đề cập ngắn gọn về thực tế là các LLM sở hữu rất nhiều sức mạnh đối với kích thước dữ liệu đào tạo của họ. Rốt cuộc, có một lý do tại sao chúng ta gọi chúng là các mô hình ngôn ngữ “lớn”.
Đào tạo trước với Kiến trúc máy biến áp
Trong giai đoạn tiền đào tạo, LLM được giới thiệu với dữ liệu văn bản hiện có để tìm hiểu cấu trúc và quy tắc chung của một ngôn ngữ.
Trong vài năm qua, các LLM đã được đào tạo trước về các bộ dữ liệu chiếm một phần đáng kể trên internet công cộng. Ví dụ: mô hình ngôn ngữ của GPT-3 đã được đào tạo dựa trên dữ liệu từ Thu thập thông tin chung bộ dữ liệu, một tập hợp các bài đăng trên web, trang web và sách số hóa được lấy từ hơn 50 triệu tên miền.
Tập dữ liệu khổng lồ sau đó được đưa vào một mô hình được gọi là biến áp. Máy biến áp là một loại mạng lưới thần kinh sâu hoạt động tốt nhất cho dữ liệu tuần tự.
Máy biến áp sử dụng một kiến trúc bộ mã hóa-giải mã để xử lý đầu vào và đầu ra. Về cơ bản, máy biến áp chứa hai mạng thần kinh: bộ mã hóa và bộ giải mã. Bộ mã hóa có thể trích xuất ý nghĩa của văn bản đầu vào và lưu trữ dưới dạng vectơ. Bộ giải mã sau đó nhận véc-tơ và đưa ra cách diễn giải văn bản của nó.
Tuy nhiên, khái niệm chính cho phép cấu trúc máy biến áp hoạt động tốt như vậy là việc bổ sung một cơ chế tự chú ý. Khái niệm tự chú ý cho phép người mẫu chú ý đến những từ quan trọng nhất trong một câu nhất định. Cơ chế này thậm chí còn xem xét các trọng số giữa các từ cách xa nhau một cách tuần tự.
Một lợi ích khác của việc tự quan tâm là quá trình này có thể diễn ra song song. Thay vì xử lý dữ liệu tuần tự theo thứ tự, các mô hình máy biến áp có thể xử lý tất cả các đầu vào cùng một lúc. Điều này cho phép các máy biến áp đào tạo lượng dữ liệu khổng lồ tương đối nhanh so với các phương pháp khác.
Tinh chỉnh
Sau giai đoạn đào tạo trước, bạn có thể chọn giới thiệu văn bản mới cho LLM cơ sở để đào tạo. Chúng tôi gọi quá trình này tinh chỉnh và thường được sử dụng để cải thiện hơn nữa đầu ra của LLM đối với một nhiệm vụ cụ thể.
Ví dụ: bạn có thể muốn sử dụng LLM để tạo nội dung cho tài khoản Twitter của mình. Chúng tôi có thể cung cấp cho mô hình một số ví dụ về các tweet trước đây của bạn để cung cấp cho mô hình ý tưởng về đầu ra mong muốn.
Có một số loại tinh chỉnh khác nhau.
Học vài lần đề cập đến quá trình đưa ra một mô hình một số lượng nhỏ các ví dụ với mong muốn rằng mô hình ngôn ngữ sẽ tìm ra cách tạo ra kết quả tương tự. Học một lần là một quá trình tương tự ngoại trừ chỉ một ví dụ duy nhất được cung cấp.
Hạn chế của mô hình ngôn ngữ lớn
LLM chẳng hạn như GPT-3 có khả năng thực hiện một số lượng lớn các trường hợp sử dụng ngay cả khi không tinh chỉnh. Tuy nhiên, những mô hình này vẫn đi kèm với những hạn chế riêng.
Thiếu hiểu biết ngữ nghĩa về thế giới
Nhìn bề ngoài, LLM dường như thể hiện trí thông minh. Tuy nhiên, các mô hình này không hoạt động theo cùng một cách bộ não con người làm. LLM chỉ dựa vào tính toán thống kê để tạo đầu ra. Họ không có khả năng tự suy luận về các ý tưởng và khái niệm.
Do đó, một LLM có thể đưa ra các câu trả lời vô nghĩa chỉ vì các từ có vẻ “đúng” hoặc “có khả năng thống kê” khi được đặt theo thứ tự cụ thể đó.
Ảo giác
Các mô hình như GPT-3 cũng bị phản hồi không chính xác. LLM có thể bị một hiện tượng gọi là ảo giác trong đó các mô hình đưa ra một phản hồi thực tế không chính xác mà không có bất kỳ nhận thức nào rằng phản hồi đó không có cơ sở trong thực tế.
Ví dụ: người dùng có thể yêu cầu người mẫu giải thích suy nghĩ của Steve Jobs về chiếc iPhone mới nhất. Mô hình có thể tạo ra một trích dẫn từ không khí loãng dựa trên dữ liệu đào tạo của nó.
Thành kiến và kiến thức hạn chế
Giống như nhiều thuật toán khác, các mô hình ngôn ngữ lớn có xu hướng kế thừa các sai lệch có trong dữ liệu huấn luyện. Khi chúng ta bắt đầu dựa nhiều hơn vào LLM để truy xuất thông tin, các nhà phát triển của các mô hình này nên tìm cách giảm thiểu các tác động có hại tiềm tàng của các phản hồi thiên vị.
Trong khả năng tương tự, các điểm mù của dữ liệu đào tạo của mô hình cũng sẽ cản trở chính mô hình đó. Hiện tại, các mô hình ngôn ngữ lớn phải mất hàng tháng để đào tạo. Các mô hình này cũng dựa trên các bộ dữ liệu bị giới hạn về phạm vi. Đây là lý do tại sao ChatGPT chỉ có kiến thức hạn chế về các sự kiện xảy ra trong năm 2021 vừa qua.
Kết luận
Các mô hình ngôn ngữ lớn có tiềm năng thực sự thay đổi cách chúng ta tương tác với công nghệ và thế giới nói chung.
Lượng dữ liệu khổng lồ có sẵn trên internet đã mang đến cho các nhà nghiên cứu một cách để mô hình hóa sự phức tạp của ngôn ngữ. Tuy nhiên, trong quá trình đó, những mô hình ngôn ngữ này dường như đã tiếp thu được cách hiểu của con người về thế giới như nó vốn có.
Khi công chúng bắt đầu tin tưởng các mô hình ngôn ngữ này để cung cấp kết quả đầu ra chính xác, các nhà nghiên cứu và nhà phát triển đã tìm cách bổ sung các rào cản để công nghệ này vẫn hợp đạo đức.
Bạn nghĩ gì về tương lai của LLM?
Bình luận