Toàn bộ quá trình đào tạo của ChatGPT đã được giải thích

Mục lục[Ẩn giấu][Chỉ]

Đào tạo trước sáng tạo+-
- Vấn đề liên kết
Tinh chỉnh giám sát+-
- Hạn chế giám sát: Thay đổi phân phối
Dựa trên sở thích, khen thưởng học tập
Tương lai giữ gì?

ChatGPT là một mô hình ngôn ngữ trí tuệ nhân tạo đáng chú ý. Tất cả chúng ta đều sử dụng nó để hỗ trợ chúng ta trong các nhiệm vụ khác nhau.

Bạn đã bao giờ đặt câu hỏi làm thế nào nó được đào tạo để tạo ra những câu trả lời có vẻ rất giống con người chưa? Trong bài viết này, chúng ta sẽ xem xét quá trình đào tạo ChatGPT.

Chúng tôi sẽ giải thích nó đã phát triển thành một trong những ứng dụng nổi bật nhất như thế nào. mô hình ngôn ngữ. Khi chúng ta khám phá thế giới hấp dẫn của ChatGPT, hãy cùng tham gia hành trình khám phá.

Tổng quan về đào tạo

ChatGPT là một mô hình xử lý ngôn ngữ tự nhiên.

Với ChatGPT, chúng ta có thể tham gia vào các cuộc đối thoại tương tác và thảo luận giống con người. Nó sử dụng một cách tiếp cận tương tự như của Hướng dẫn GPT, đó là một mô hình ngôn ngữ tiên tiến. Nó được phát triển ngay trước ChatGPT.

Nó sử dụng một phương pháp hấp dẫn hơn. Điều này cho phép tương tác người dùng tự nhiên. Vì vậy, nó là một công cụ hoàn hảo cho nhiều ứng dụng như chatbot và trợ lý ảo.

Quy trình đào tạo của ChatGPT là một quy trình gồm nhiều giai đoạn. Đào tạo sơ bộ tổng quát là bước đầu tiên trong quá trình đào tạo ChatGPT.

Trong giai đoạn này, mô hình được đào tạo bằng cách sử dụng một kho dữ liệu văn bản khá lớn. Sau đó, mô hình phát hiện ra các mối tương quan thống kê và các mẫu được tìm thấy trong ngôn ngữ tự nhiên. Vì vậy, chúng ta có thể có một phản ứng chính xác về mặt ngữ pháp và mạch lạc.

Sau đó, chúng tôi thực hiện theo một bước tinh chỉnh có giám sát. Trong phần này, mô hình được đào tạo về một nhiệm vụ cụ thể. Ví dụ, nó có thể thực hiện dịch ngôn ngữ hoặc trả lời câu hỏi.

Cuối cùng, ChatGPT sử dụng phần thưởng học hỏi từ phản hồi của con người.

Bây giờ, hãy kiểm tra các bước này.

Đào tạo trước sáng tạo

Cấp độ đào tạo ban đầu là Đào tạo trước sáng tạo. Đó là một phương pháp phổ biến để đào tạo các mô hình ngôn ngữ. Để tạo chuỗi mã thông báo, phương pháp này áp dụng “mô hình dự đoán bước tiếp theo”.

Nó có nghĩa là gì?

Mỗi mã thông báo là một biến duy nhất. Chúng đại diện cho một từ hoặc một phần của một từ. Mô hình cố gắng xác định từ nào có khả năng xuất hiện tiếp theo nhất với các từ trước nó. Nó sử dụng phân phối xác suất trên tất cả các thuật ngữ trong chuỗi của nó.

Mục đích của các mô hình ngôn ngữ là xây dựng các chuỗi mã thông báo. Những trình tự này sẽ đại diện cho các mẫu và cấu trúc của ngôn ngữ con người. Điều này có thể thực hiện được bằng cách đào tạo các mô hình trên số lượng lớn dữ liệu văn bản.

Sau đó, dữ liệu này được sử dụng để hiểu cách các từ được phân phối trong ngôn ngữ.

Trong quá trình đào tạo, mô hình thay đổi các tham số phân phối xác suất.

Và, nó cố gắng làm giảm sự khác biệt giữa sự phân bổ các từ dự kiến và thực tế trong một văn bản. Điều này có thể thực hiện được với việc sử dụng hàm mất mát. Hàm mất mát tính toán sự khác biệt giữa phân phối dự kiến và thực tế.

Xử lý ngôn ngữ tự nhiên và thị giác máy tính là một trong những lĩnh vực mà chúng tôi sử dụng Đào tạo trước Sáng tạo.

mở 2

Vấn đề liên kết

Vấn đề liên kết là một trong những khó khăn trong Generative Pretraining. Điều này đề cập đến khó khăn trong việc khớp phân phối xác suất của mô hình với phân phối của dữ liệu thực tế.
Nói cách khác, các câu trả lời do mô hình tạo ra sẽ giống con người hơn.

Mô hình đôi khi có thể cung cấp các phản hồi không mong muốn hoặc không phù hợp. Và, điều này có thể do nhiều nguyên nhân gây ra, chẳng hạn như sai lệch dữ liệu huấn luyện hoặc mô hình thiếu nhận thức về bối cảnh. Vấn đề liên kết phải được giải quyết để nâng cao chất lượng của các mô hình ngôn ngữ.

Để khắc phục vấn đề này, các mô hình ngôn ngữ như ChatGPT sử dụng các kỹ thuật tinh chỉnh.

Tinh chỉnh giám sát

Phần thứ hai của đào tạo ChatGPT là tinh chỉnh có giám sát. Tại thời điểm này, các nhà phát triển con người tham gia vào các cuộc đối thoại, đóng vai trò vừa là người dùng vừa là chatbot.

Những cuộc nói chuyện này được ghi lại và tổng hợp thành một bộ dữ liệu. Mỗi mẫu đào tạo bao gồm một lịch sử hội thoại riêng biệt phù hợp với câu trả lời tiếp theo của nhà phát triển con người đóng vai trò là “chatbot”.

Mục đích của việc tinh chỉnh có giám sát là để tối đa hóa xác suất được gán cho chuỗi mã thông báo trong câu trả lời liên quan của mô hình. Phương pháp này được gọi là “học bắt chước” hoặc “nhân bản hành vi”.

Bằng cách này, người mẫu có thể học cách đưa ra các câu trả lời mạch lạc và nghe có vẻ tự nhiên hơn. Nó đang sao chép các câu trả lời được đưa ra bởi các nhà thầu con người.

Tinh chỉnh có giám sát là nơi mô hình ngôn ngữ có thể được điều chỉnh cho một tác vụ cụ thể.

Hãy đưa ra một ví dụ. Giả sử chúng tôi muốn dạy một chatbot cung cấp các đề xuất phim. Chúng tôi sẽ đào tạo mô hình ngôn ngữ để dự đoán xếp hạng phim dựa trên mô tả phim. Và, chúng tôi sẽ sử dụng bộ dữ liệu mô tả và xếp hạng phim.

Thuật toán cuối cùng sẽ tìm ra khía cạnh nào của một bộ phim tương ứng với xếp hạng cao hay kém.

Sau khi được đào tạo, chúng tôi có thể sử dụng mô hình của mình để đề xuất phim cho người dùng. Người dùng có thể mô tả một bộ phim mà họ yêu thích và chatbot sẽ sử dụng mô hình ngôn ngữ được tinh chỉnh để đề xuất nhiều bộ phim tương đương với bộ phim đó.

Hạn chế giám sát: Thay đổi phân phối

Tinh chỉnh có giám sát là dạy một mô hình ngôn ngữ để thực hiện một mục tiêu xác định. Điều này có thể thực hiện được bằng cách cung cấp cho mô hình một tập dữ liệu và sau đó đào tạo nó để đưa ra dự đoán. Tuy nhiên, hệ thống này có các giới hạn được gọi là “hạn chế giám sát”.

Một trong những hạn chế này là "sự thay đổi phân phối". Nó đề cập đến khả năng dữ liệu huấn luyện có thể không phản ánh chính xác sự phân bổ đầu vào trong thế giới thực mà mô hình sẽ gặp phải.

Hãy xem lại ví dụ từ trước đó. Trong ví dụ gợi ý phim, bộ dữ liệu được sử dụng để đào tạo mô hình có thể không phản ánh chính xác nhiều loại phim và sở thích của người dùng mà chatbot sẽ gặp phải. Chatbot có thể không hoạt động tốt như chúng ta mong muốn.

Kết quả là, nó đáp ứng các đầu vào không giống với những gì nó quan sát được trong quá trình đào tạo.

Đối với học có giám sát, khi mô hình chỉ được đào tạo trên một tập hợp các trường hợp nhất định, vấn đề này sẽ phát sinh.

Ngoài ra, mô hình có thể hoạt động tốt hơn khi đối mặt với sự thay đổi về mặt phân phối nếu việc học tăng cường được sử dụng để giúp nó thích nghi với bối cảnh mới và học hỏi từ những sai lầm của nó.

Dựa trên sở thích, khen thưởng học tập

Học có thưởng là giai đoạn đào tạo thứ ba trong quá trình phát triển chatbot. Trong học phần thưởng, mô hình được dạy để tối đa hóa tín hiệu phần thưởng.

Đó là điểm số cho biết mô hình hoàn thành công việc hiệu quả như thế nào. Tín hiệu phần thưởng dựa trên thông tin đầu vào từ những người xếp hạng hoặc đánh giá câu trả lời của mô hình.

Học có thưởng nhằm mục đích phát triển một chatbot tạo ra các câu trả lời chất lượng cao mà người dùng ưa thích. Để làm điều này, một kỹ thuật học máy được gọi là học tăng cường—bao gồm học từ phản hồi dưới hình thức phần thưởng—được sử dụng để huấn luyện mô hình.

Ví dụ, chatbot trả lời các câu hỏi của người dùng, tùy thuộc vào khả năng nắm bắt nhiệm vụ hiện tại của nó, được cung cấp cho nó trong quá trình học phần thưởng. Sau đó, một tín hiệu phần thưởng sẽ được đưa ra dựa trên mức độ hiệu quả của chatbot sau khi các câu trả lời đã được đánh giá bởi các giám khảo con người.

Tín hiệu phần thưởng này được chatbot sử dụng để sửa đổi cài đặt của nó. Và, nó tăng cường hiệu suất nhiệm vụ.

Một số hạn chế về học tập khen thưởng

Một nhược điểm của học phần thưởng là phản hồi về các câu trả lời của chatbot có thể không xuất hiện trong một thời gian vì tín hiệu phần thưởng có thể thưa thớt và bị trễ. Do đó, có thể khó đào tạo thành công chatbot vì nó có thể không nhận được phản hồi về các câu trả lời cụ thể cho đến sau này.

Một vấn đề khác là các thẩm phán con người có thể có quan điểm hoặc cách hiểu khác nhau về điều gì tạo nên một phản hồi thành công, điều này có thể dẫn đến sai lệch trong tín hiệu phần thưởng. Để giảm bớt điều này, nó thường được một số giám khảo sử dụng để đưa ra tín hiệu phần thưởng đáng tin cậy hơn.

Tương lai giữ gì?

Có một số bước tiềm năng trong tương lai để nâng cao hơn nữa hiệu suất của ChatGPT.

Để tăng khả năng hiểu mô hình, một lộ trình tiềm năng trong tương lai là bao gồm nhiều bộ dữ liệu đào tạo và nguồn dữ liệu hơn. Cũng có thể nâng cao khả năng hiểu và tính đến các đầu vào phi văn bản của mô hình.

Ví dụ, các mô hình ngôn ngữ có thể hiểu được hình ảnh hoặc âm thanh.

Bằng cách kết hợp các kỹ thuật đào tạo cụ thể, ChatGPT cũng có thể được cải thiện cho một số nhiệm vụ nhất định. Ví dụ, nó có thể thực hiện Phân tích tâm lý hoặc sản xuất ngôn ngữ tự nhiên. Tóm lại, ChatGPT và các mô hình ngôn ngữ liên quan cho thấy nhiều hứa hẹn để phát triển.