فهرست مندرجات[پنهان شدن][نمایش]
ChatGPT یک مدل زبان هوش مصنوعی قابل توجه است. همه ما از آن برای کمک به ما در کارهای مختلف استفاده می کنیم.
آیا تا به حال از خود پرسیده اید که چگونه آموزش داده شده است تا پاسخ هایی را که به نظر می رسد بسیار شبیه به انسان است ارائه دهد؟ در این مقاله به بررسی آموزش ChatGPT می پردازیم.
توضیح خواهیم داد که چگونه به یکی از برجسته ترین ها تبدیل شده است مدل های زبان. همانطور که ما دنیای جذاب ChatGPT را کشف می کنیم، در یک سفر اکتشافی همراه شوید.
مروری بر آموزش
ChatGPT یک مدل پردازش زبان طبیعی است.
با ChatGPT، میتوانیم در گفتگوهای تعاملی و بحثهای انسانمانند شرکت کنیم. از رویکردی شبیه به آن استفاده می کند GPT را آموزش دهید، که یک مدل زبانی پیشرفته است. اندکی قبل از ChatGPT توسعه داده شد.
از روش جذاب تری استفاده می کند. این امکان تعامل طبیعی با کاربر را فراهم می کند. بنابراین، این یک ابزار عالی برای برنامه های مختلف مانند ربات های گفتگو و دستیاران مجازی است.
روش آموزش ChatGPT یک فرآیند چند مرحله ای است. پیش آموزش مولد اولین گام در آموزش ChatGPT است.
در این مرحله، مدل با استفاده از مجموعه قابل توجهی از داده های متنی آموزش داده می شود. سپس، مدل همبستگیهای آماری و الگوهای موجود در زبان طبیعی را کشف میکند. بنابراین، میتوانیم یک پاسخ گرامری دقیق و منسجم داشته باشیم.
سپس یک مرحله تنظیم دقیق نظارت شده را دنبال می کنیم. در این قسمت، مدل بر روی یک کار خاص آموزش داده می شود. به عنوان مثال، می تواند ترجمه زبان یا پاسخ به سؤال را انجام دهد.
در نهایت، ChatGPT از یادگیری پاداش از بازخورد انسان استفاده می کند.
حال بیایید این مراحل را بررسی کنیم.
پیش آموزش مولد
سطح اولیه آموزش، پیشآموزش مولد است. این یک روش رایج برای آموزش مدل های زبان است. برای ایجاد توکن توکن، این روش «پارادایم پیشبینی مرحله بعدی» را اعمال میکند.
چه مفهومی داره؟
هر نشانه یک متغیر منحصر به فرد است. آنها یک کلمه یا بخشی از یک کلمه را نشان می دهند. مدل سعی میکند تعیین کند که با توجه به کلمات قبل از آن، کدام کلمه به احتمال زیاد بعدی میآید. از توزیع احتمال در تمام عبارات در توالی خود استفاده می کند.
هدف از مدل های زبان، ساخت توالی های نشانه است. این توالی ها باید الگوها و ساختارهای زبان انسان را نشان دهند. این امر با آموزش مدلها بر روی مقادیر عظیمی از دادههای متنی امکانپذیر است.
سپس، از این داده ها برای درک چگونگی توزیع کلمات در زبان استفاده می شود.
در طول آموزش، مدل پارامترهای توزیع احتمال را تغییر می دهد.
و سعی می کند تفاوت بین توزیع مورد انتظار و واقعی کلمات در یک متن را کاهش دهد. این با استفاده از یک تابع ضرر امکان پذیر است. تابع ضرر تفاوت بین توزیع مورد انتظار و واقعی را محاسبه می کند.
پردازش زبان طبیعی و بینایی کامپیوتر یکی از زمینه هایی است که ما از پیشآموزش مولد استفاده می کنیم.
مسئله تراز
مشکل هم ترازی یکی از مشکلات پیش تمرین مولد است. این به مشکل در تطبیق توزیع احتمال مدل با توزیع داده های واقعی اشاره دارد.
به عبارت دیگر، پاسخ های تولید شده مدل باید بیشتر شبیه انسان باشد.
مدل ممکن است گاهی اوقات پاسخ های غیرمنتظره یا نامناسبی ارائه دهد. و این ممکن است ناشی از دلایل مختلفی باشد، مانند سوگیری داده های آموزشی یا عدم آگاهی از زمینه مدل. مشکل هم ترازی باید برای بهبود کیفیت مدل های زبان حل شود.
برای غلبه بر این مشکل، مدلهای زبانی مانند ChatGPT از تکنیکهای تنظیم دقیق استفاده میکنند.
نظارت بر تنظیم دقیق
قسمت دوم آموزش ChatGPT تنظیم دقیق نظارت شده است. توسعه دهندگان انسانی در این مرحله در گفتگوها شرکت می کنند و هم به عنوان کاربر انسانی و هم به عنوان ربات چت عمل می کنند.
این گفتگوها ضبط و در یک مجموعه داده جمع می شوند. هر نمونه آموزشی شامل یک تاریخچه مکالمه متمایز است که با پاسخ بعدی توسعه دهنده انسانی که به عنوان «ربات چت» خدمت می کند، مطابقت دارد.
هدف از تنظیم دقیق نظارت شده، به حداکثر رساندن احتمال تخصیص داده شده به دنباله توکن ها در پاسخ مرتبط توسط مدل است. این روش به «یادگیری تقلیدی» یا «شبیه سازی رفتار» معروف است.
به این ترتیب مدل می تواند یاد بگیرد که پاسخ های طبیعی و منسجم تری ارائه دهد. این در حال تکرار پاسخ های داده شده توسط پیمانکاران انسانی است.
تنظیم دقیق نظارت شده جایی است که مدل زبان را می توان برای یک کار خاص تنظیم کرد.
بیایید یک مثال بزنیم. فرض کنید می خواهیم به یک چت بات آموزش دهیم تا توصیه های فیلم را ارائه دهد. ما مدل زبان را برای پیشبینی رتبهبندی فیلم بر اساس توضیحات فیلم آموزش میدهیم. و ما از مجموعه داده ای از توضیحات و رتبه بندی فیلم استفاده می کنیم.
این الگوریتم در نهایت متوجه میشود که کدام جنبههای یک فیلم با رتبهبندی بالا یا ضعیف مطابقت دارد.
پس از آموزش، میتوانیم از مدل خود برای پیشنهاد فیلم به کاربران انسانی استفاده کنیم. کاربران ممکن است فیلمی را توصیف کنند که از آن لذت میبرند، و ربات چت از مدل زبان تصفیهشده برای توصیه فیلمهای بیشتر قابل مقایسه با آن استفاده میکند.
محدودیت های نظارت: تغییر توزیع
تنظیم دقیق نظارت شده، آموزش یک مدل زبان برای انجام یک هدف مشخص است. این کار با تغذیه مدل a امکان پذیر است مجموعه داده و سپس آن را برای پیش بینی آموزش دهید. با این حال، این سیستم دارای محدودیت هایی است که به عنوان "محدودیت های نظارت" شناخته می شوند.
یکی از این محدودیت ها «تغییر توزیع» است. این به این احتمال اشاره دارد که داده های آموزشی ممکن است به طور دقیق توزیع دنیای واقعی ورودی هایی را که مدل با آن مواجه می شود منعکس نکند.
بیایید مثال قبلی را مرور کنیم. در مثال پیشنهاد فیلم، مجموعه داده مورد استفاده برای آموزش مدل ممکن است به طور دقیق منعکس کننده انواع فیلم ها و تنظیمات برگزیده کاربر نباشد که چت بات با آن مواجه می شود. ربات چت ممکن است آنطور که میخواهیم عمل نکند.
در نتیجه، ورودیهایی را برآورده میکند که با ورودیهایی که در طول آموزش مشاهده کرد، متفاوت است.
برای یادگیری نظارت شده، زمانی که مدل فقط بر روی مجموعه ای از نمونه ها آموزش داده می شود، این مشکل به وجود می آید.
علاوه بر این، اگر از یادگیری تقویتی برای کمک به سازگاری با زمینه های جدید و یادگیری از اشتباهاتش استفاده شود، مدل ممکن است در مواجهه با تغییر توزیعی بهتر عمل کند.
بر اساس ترجیحات، یادگیری پاداش
یادگیری پاداش سومین مرحله آموزشی در توسعه یک چت بات است. در یادگیری پاداش، مدل آموزش داده می شود تا سیگنال پاداش را به حداکثر برساند.
این نمره ای است که نشان می دهد مدل چقدر کار را به طور موثر انجام می دهد. سیگنال پاداش بر اساس ورودی افرادی است که پاسخ های مدل را رتبه بندی یا ارزیابی می کنند.
هدف یادگیری پاداش ایجاد یک ربات چت است که پاسخهایی با کیفیت بالا که کاربران انسانی ترجیح میدهند تولید کند. برای انجام این کار، یک تکنیک یادگیری ماشینی به نام یادگیری تقویتی - که شامل یادگیری از بازخورد است در قالب پاداش - برای آموزش مدل استفاده می شود.
ربات چت، به عنوان مثال، بسته به درک فعلی آن از کار، که در طول یادگیری پاداش به آن ارائه می شود، به سؤالات کاربر پاسخ می دهد. سپس یک سیگنال پاداش بر اساس نحوه عملکرد موثر چت بات پس از ارزیابی پاسخ ها توسط داوران انسانی داده می شود.
این سیگنال پاداش توسط ربات چت برای تغییر تنظیمات آن استفاده می شود. و عملکرد کار را افزایش می دهد.
برخی محدودیت ها در یادگیری پاداش
یک اشکال یادگیری پاداش این است که بازخورد پاسخهای ربات چت ممکن است برای مدتی دریافت نشود زیرا سیگنال پاداش ممکن است پراکنده و با تأخیر باشد. در نتیجه، آموزش موفقیت آمیز ربات چت ممکن است چالش برانگیز باشد، زیرا ممکن است تا مدت ها بعد در مورد پاسخ های خاص بازخورد دریافت نکند.
موضوع دیگر این است که قضات انسانی ممکن است دیدگاهها یا تفسیرهای مختلفی از آنچه که یک پاسخ موفق را ایجاد میکند، داشته باشند، که ممکن است منجر به سوگیری در سیگنال پاداش شود. برای کاهش این امر، اغلب توسط چندین قاضی برای ارائه سیگنال پاداش قابل اعتمادتر استفاده می شود.
آینده چه انتظاراتی دارد؟
چندین مرحله بالقوه در آینده برای بهبود بیشتر عملکرد ChatGPT وجود دارد.
برای افزایش درک مدل، یک مسیر بالقوه آینده شامل مجموعه داده های آموزشی و منابع داده بیشتر است. افزایش ظرفیت مدل برای درک و در نظر گرفتن ورودی های غیر متنی نیز امکان پذیر است.
به عنوان مثال، مدل های زبان می توانند تصاویر یا صداها را درک کنند.
با ترکیب تکنیکهای آموزشی خاص، ChatGPT نیز میتواند برای کارهای خاص بهبود یابد. مثلا می تواند اجرا کند تجزیه و تحلیل احساسات یا تولید زبان طبیعی در نتیجه، ChatGPT و مدلهای زبان مرتبط، نویدهای زیادی برای پیشرفت نشان میدهند.
پاسخ دهید