کل فرآیند آموزشی ChatGPT توضیح داده شد

فهرست مندرجات[پنهان شدن][نمایش]

پیش آموزش مولد+-
- مسئله تراز
نظارت بر تنظیم دقیق+-
- محدودیت های نظارت: تغییر توزیع
بر اساس ترجیحات، یادگیری پاداش
آینده چه انتظاراتی دارد؟

ChatGPT یک مدل زبان هوش مصنوعی قابل توجه است. همه ما از آن برای کمک به ما در کارهای مختلف استفاده می کنیم.

آیا تا به حال از خود پرسیده اید که چگونه آموزش داده شده است تا پاسخ هایی را که به نظر می رسد بسیار شبیه به انسان است ارائه دهد؟ در این مقاله به بررسی آموزش ChatGPT می پردازیم.

توضیح خواهیم داد که چگونه به یکی از برجسته ترین ها تبدیل شده است مدل های زبان. همانطور که ما دنیای جذاب ChatGPT را کشف می کنیم، در یک سفر اکتشافی همراه شوید.

مروری بر آموزش

ChatGPT یک مدل پردازش زبان طبیعی است.

با ChatGPT، می‌توانیم در گفتگوهای تعاملی و بحث‌های انسان‌مانند شرکت کنیم. از رویکردی شبیه به آن استفاده می کند GPT را آموزش دهید، که یک مدل زبانی پیشرفته است. اندکی قبل از ChatGPT توسعه داده شد.

از روش جذاب تری استفاده می کند. این امکان تعامل طبیعی با کاربر را فراهم می کند. بنابراین، این یک ابزار عالی برای برنامه های مختلف مانند ربات های گفتگو و دستیاران مجازی است.

روش آموزش ChatGPT یک فرآیند چند مرحله ای است. پیش آموزش مولد اولین گام در آموزش ChatGPT است.

در این مرحله، مدل با استفاده از مجموعه قابل توجهی از داده های متنی آموزش داده می شود. سپس، مدل همبستگی‌های آماری و الگوهای موجود در زبان طبیعی را کشف می‌کند. بنابراین، می‌توانیم یک پاسخ گرامری دقیق و منسجم داشته باشیم.

سپس یک مرحله تنظیم دقیق نظارت شده را دنبال می کنیم. در این قسمت، مدل بر روی یک کار خاص آموزش داده می شود. به عنوان مثال، می تواند ترجمه زبان یا پاسخ به سؤال را انجام دهد.

در نهایت، ChatGPT از یادگیری پاداش از بازخورد انسان استفاده می کند.

حال بیایید این مراحل را بررسی کنیم.

پیش آموزش مولد

سطح اولیه آموزش، پیش‌آموزش مولد است. این یک روش رایج برای آموزش مدل های زبان است. برای ایجاد توکن توکن، این روش «پارادایم پیش‌بینی مرحله بعدی» را اعمال می‌کند.

چه مفهومی داره؟

هر نشانه یک متغیر منحصر به فرد است. آنها یک کلمه یا بخشی از یک کلمه را نشان می دهند. مدل سعی می‌کند تعیین کند که با توجه به کلمات قبل از آن، کدام کلمه به احتمال زیاد بعدی می‌آید. از توزیع احتمال در تمام عبارات در توالی خود استفاده می کند.

هدف از مدل های زبان، ساخت توالی های نشانه است. این توالی ها باید الگوها و ساختارهای زبان انسان را نشان دهند. این امر با آموزش مدل‌ها بر روی مقادیر عظیمی از داده‌های متنی امکان‌پذیر است.

سپس، از این داده ها برای درک چگونگی توزیع کلمات در زبان استفاده می شود.

در طول آموزش، مدل پارامترهای توزیع احتمال را تغییر می دهد.

و سعی می کند تفاوت بین توزیع مورد انتظار و واقعی کلمات در یک متن را کاهش دهد. این با استفاده از یک تابع ضرر امکان پذیر است. تابع ضرر تفاوت بین توزیع مورد انتظار و واقعی را محاسبه می کند.

پردازش زبان طبیعی و بینایی کامپیوتر یکی از زمینه هایی است که ما از پیشآموزش مولد استفاده می کنیم.

Openai 2

مسئله تراز

مشکل هم ترازی یکی از مشکلات پیش تمرین مولد است. این به مشکل در تطبیق توزیع احتمال مدل با توزیع داده های واقعی اشاره دارد.
به عبارت دیگر، پاسخ های تولید شده مدل باید بیشتر شبیه انسان باشد.

مدل ممکن است گاهی اوقات پاسخ های غیرمنتظره یا نامناسبی ارائه دهد. و این ممکن است ناشی از دلایل مختلفی باشد، مانند سوگیری داده های آموزشی یا عدم آگاهی از زمینه مدل. مشکل هم ترازی باید برای بهبود کیفیت مدل های زبان حل شود.

برای غلبه بر این مشکل، مدل‌های زبانی مانند ChatGPT از تکنیک‌های تنظیم دقیق استفاده می‌کنند.

نظارت بر تنظیم دقیق

قسمت دوم آموزش ChatGPT تنظیم دقیق نظارت شده است. توسعه دهندگان انسانی در این مرحله در گفتگوها شرکت می کنند و هم به عنوان کاربر انسانی و هم به عنوان ربات چت عمل می کنند.

این گفتگوها ضبط و در یک مجموعه داده جمع می شوند. هر نمونه آموزشی شامل یک تاریخچه مکالمه متمایز است که با پاسخ بعدی توسعه دهنده انسانی که به عنوان «ربات چت» خدمت می کند، مطابقت دارد.

هدف از تنظیم دقیق نظارت شده، به حداکثر رساندن احتمال تخصیص داده شده به دنباله توکن ها در پاسخ مرتبط توسط مدل است. این روش به «یادگیری تقلیدی» یا «شبیه سازی رفتار» معروف است.

به این ترتیب مدل می تواند یاد بگیرد که پاسخ های طبیعی و منسجم تری ارائه دهد. این در حال تکرار پاسخ های داده شده توسط پیمانکاران انسانی است.

تنظیم دقیق نظارت شده جایی است که مدل زبان را می توان برای یک کار خاص تنظیم کرد.

بیایید یک مثال بزنیم. فرض کنید می خواهیم به یک چت بات آموزش دهیم تا توصیه های فیلم را ارائه دهد. ما مدل زبان را برای پیش‌بینی رتبه‌بندی فیلم بر اساس توضیحات فیلم آموزش می‌دهیم. و ما از مجموعه داده ای از توضیحات و رتبه بندی فیلم استفاده می کنیم.

این الگوریتم در نهایت متوجه می‌شود که کدام جنبه‌های یک فیلم با رتبه‌بندی بالا یا ضعیف مطابقت دارد.

پس از آموزش، می‌توانیم از مدل خود برای پیشنهاد فیلم به کاربران انسانی استفاده کنیم. کاربران ممکن است فیلمی را توصیف کنند که از آن لذت می‌برند، و ربات چت از مدل زبان تصفیه‌شده برای توصیه فیلم‌های بیشتر قابل مقایسه با آن استفاده می‌کند.

محدودیت های نظارت: تغییر توزیع

تنظیم دقیق نظارت شده، آموزش یک مدل زبان برای انجام یک هدف مشخص است. این کار با تغذیه مدل a امکان پذیر است مجموعه داده و سپس آن را برای پیش بینی آموزش دهید. با این حال، این سیستم دارای محدودیت هایی است که به عنوان "محدودیت های نظارت" شناخته می شوند.

یکی از این محدودیت ها «تغییر توزیع» است. این به این احتمال اشاره دارد که داده های آموزشی ممکن است به طور دقیق توزیع دنیای واقعی ورودی هایی را که مدل با آن مواجه می شود منعکس نکند.

بیایید مثال قبلی را مرور کنیم. در مثال پیشنهاد فیلم، مجموعه داده مورد استفاده برای آموزش مدل ممکن است به طور دقیق منعکس کننده انواع فیلم ها و تنظیمات برگزیده کاربر نباشد که چت بات با آن مواجه می شود. ربات چت ممکن است آنطور که می‌خواهیم عمل نکند.

در نتیجه، ورودی‌هایی را برآورده می‌کند که با ورودی‌هایی که در طول آموزش مشاهده کرد، متفاوت است.

برای یادگیری نظارت شده، زمانی که مدل فقط بر روی مجموعه ای از نمونه ها آموزش داده می شود، این مشکل به وجود می آید.

علاوه بر این، اگر از یادگیری تقویتی برای کمک به سازگاری با زمینه های جدید و یادگیری از اشتباهاتش استفاده شود، مدل ممکن است در مواجهه با تغییر توزیعی بهتر عمل کند.

بر اساس ترجیحات، یادگیری پاداش

یادگیری پاداش سومین مرحله آموزشی در توسعه یک چت بات است. در یادگیری پاداش، مدل آموزش داده می شود تا سیگنال پاداش را به حداکثر برساند.

این نمره ای است که نشان می دهد مدل چقدر کار را به طور موثر انجام می دهد. سیگنال پاداش بر اساس ورودی افرادی است که پاسخ های مدل را رتبه بندی یا ارزیابی می کنند.

هدف یادگیری پاداش ایجاد یک ربات چت است که پاسخ‌هایی با کیفیت بالا که کاربران انسانی ترجیح می‌دهند تولید کند. برای انجام این کار، یک تکنیک یادگیری ماشینی به نام یادگیری تقویتی - که شامل یادگیری از بازخورد است در قالب پاداش - برای آموزش مدل استفاده می شود.

ربات چت، به عنوان مثال، بسته به درک فعلی آن از کار، که در طول یادگیری پاداش به آن ارائه می شود، به سؤالات کاربر پاسخ می دهد. سپس یک سیگنال پاداش بر اساس نحوه عملکرد موثر چت بات پس از ارزیابی پاسخ ها توسط داوران انسانی داده می شود.

این سیگنال پاداش توسط ربات چت برای تغییر تنظیمات آن استفاده می شود. و عملکرد کار را افزایش می دهد.

برخی محدودیت ها در یادگیری پاداش

یک اشکال یادگیری پاداش این است که بازخورد پاسخ‌های ربات چت ممکن است برای مدتی دریافت نشود زیرا سیگنال پاداش ممکن است پراکنده و با تأخیر باشد. در نتیجه، آموزش موفقیت آمیز ربات چت ممکن است چالش برانگیز باشد، زیرا ممکن است تا مدت ها بعد در مورد پاسخ های خاص بازخورد دریافت نکند.

موضوع دیگر این است که قضات انسانی ممکن است دیدگاه‌ها یا تفسیرهای مختلفی از آنچه که یک پاسخ موفق را ایجاد می‌کند، داشته باشند، که ممکن است منجر به سوگیری در سیگنال پاداش شود. برای کاهش این امر، اغلب توسط چندین قاضی برای ارائه سیگنال پاداش قابل اعتمادتر استفاده می شود.

آینده چه انتظاراتی دارد؟

چندین مرحله بالقوه در آینده برای بهبود بیشتر عملکرد ChatGPT وجود دارد.

برای افزایش درک مدل، یک مسیر بالقوه آینده شامل مجموعه داده های آموزشی و منابع داده بیشتر است. افزایش ظرفیت مدل برای درک و در نظر گرفتن ورودی های غیر متنی نیز امکان پذیر است.

به عنوان مثال، مدل های زبان می توانند تصاویر یا صداها را درک کنند.

با ترکیب تکنیک‌های آموزشی خاص، ChatGPT نیز می‌تواند برای کارهای خاص بهبود یابد. مثلا می تواند اجرا کند تجزیه و تحلیل احساسات یا تولید زبان طبیعی در نتیجه، ChatGPT و مدل‌های زبان مرتبط، نویدهای زیادی برای پیشرفت نشان می‌دهند.