مدل های زبان بزرگ: هر آنچه که باید بدانید

فهرست مندرجات[پنهان شدن][نمایش]

مدل زبان بزرگ چیست؟
LLM ها چگونه آموزش می بینند؟+-
- پیش آموزش با معماری ترانسفورماتور
- تنظیم دقیق
محدودیت های مدل های زبان بزرگ+-
نتیجه

یک مشکل کلاسیک در هوش مصنوعی، تعقیب ماشینی است که بتواند زبان انسان را بفهمد.

به عنوان مثال، هنگام جستجوی "رستوران های ایتالیایی نزدیک" در موتور جستجوی مورد علاقه خود، یک الگوریتم باید هر کلمه را در جستجوی شما تجزیه و تحلیل کند و نتایج مربوطه را خروجی دهد. یک برنامه ترجمه مناسب باید زمینه یک کلمه خاص را در انگلیسی درک کند و به نوعی تفاوت های گرامر بین زبان ها را در نظر بگیرد.

همه این وظایف و بسیاری موارد دیگر در زیر شاخه علوم کامپیوتر قرار می گیرند که به آن معروف است پردازش زبان طبیعی یا NLP پیشرفت‌ها در NLP منجر به طیف گسترده‌ای از برنامه‌های کاربردی از دستیاران مجازی مانند Alexa آمازون تا فیلترهای اسپم شده است که ایمیل‌های مخرب را شناسایی می‌کنند.

جدیدترین پیشرفت در NLP ایده الف است مدل زبان بزرگ یا LLM. LLM هایی مانند GPT-3 آنقدر قدرتمند شده اند که به نظر می رسد تقریباً در هر کار یا مورد استفاده NLP موفق هستند.

در این مقاله، به این خواهیم پرداخت که LLM دقیقا چیست، این مدل ها چگونه آموزش داده می شوند و محدودیت های فعلی آنها چیست.

مدل زبان بزرگ چیست؟

در هسته خود، یک مدل زبان صرفاً یک الگوریتم است که می‌داند چقدر احتمال دارد که یک دنباله از کلمات یک جمله معتبر باشد.

یک مدل زبان بسیار ساده که بر روی چند صد کتاب آموزش داده شده است باید بتواند بگوید که «او به خانه رفت» معتبرتر از «او به خانه رفت» معتبرتر است.

اگر مجموعه داده نسبتاً کوچک را با یک مجموعه داده عظیم که از اینترنت حذف شده است جایگزین کنیم، به ایده یک مدل زبان بزرگ.

با استفاده از شبکه های عصبی، محققان می توانند LLM ها را بر روی حجم زیادی از داده های متنی آموزش دهند. به دلیل مقدار داده متنی که مدل دیده است، LLM در پیش بینی کلمه بعدی در یک دنباله بسیار خوب می شود.

این مدل آنقدر پیچیده می شود که می تواند بسیاری از وظایف NLP را انجام دهد. این وظایف شامل خلاصه کردن متن، ایجاد محتوای بدیع و حتی شبیه سازی مکالمه شبیه به انسان است.

مدل‌های زبان بزرگ می‌توانند محتوای جدید را بر اساس درخواست‌ها ایجاد کنند

به عنوان مثال، مدل زبان بسیار محبوب GPT-3 با بیش از 175 میلیارد پارامتر آموزش داده شده است و به عنوان پیشرفته ترین مدل زبانی تاکنون در نظر گرفته شده است.

می‌تواند کدهای کاری تولید کند، مقالات کامل بنویسد، و می‌تواند در پاسخ به سوالات در مورد هر موضوعی عکس بگیرد.

LLM ها چگونه آموزش می بینند؟

ما به طور خلاصه به این واقعیت پرداختیم که LLM ها قدرت زیادی را مدیون حجم داده های آموزشی خود هستند. دلیلی وجود دارد که چرا ما آنها را مدل های زبانی "بزرگ" می نامیم.

پیش آموزش با معماری ترانسفورماتور

در مرحله قبل از آموزش، LLMها با داده های متنی موجود آشنا می شوند تا ساختار کلی و قوانین یک زبان را بیاموزند.

در چند سال گذشته، LLM ها بر روی مجموعه داده هایی که بخش قابل توجهی از اینترنت عمومی را پوشش می دهند، از قبل آموزش دیده اند. به عنوان مثال، مدل زبان GPT-3 بر روی داده های آموزش داده شده است خزش مشترک مجموعه داده ها، مجموعه ای از پست های وب، صفحات وب، و کتاب های دیجیتالی شده از بیش از 50 میلیون دامنه.

سپس مجموعه داده عظیم به مدلی به نام a وارد می شود ترانسفورماتور. ترانسفورماتورها نوعی از شبکه عصبی عمیق که برای داده های متوالی بهترین کار را دارد.

مدل های زبان بزرگ از ترانسفورماتور استفاده می کنند

ترانسفورماتورها از یک معماری رمزگذار-رمزگشا برای مدیریت ورودی و خروجی اساساً ترانسفورماتور شامل دو شبکه عصبی است: یک رمزگذار و یک رمزگشا. رمزگذار می تواند معنای متن ورودی را استخراج کرده و آن را به صورت برداری ذخیره کند. سپس رمزگشا بردار را دریافت می کند و تفسیر خود را از متن تولید می کند.

با این حال، مفهوم کلیدی که به معماری ترانسفورماتور اجازه می دهد تا به خوبی کار کند، افزودن a است مکانیسم توجه به خود. مفهوم توجه به خود به مدل این امکان را می دهد که به مهمترین کلمات در یک جمله معین توجه کند. این مکانیسم حتی وزن بین کلماتی را که از هم دور هستند به ترتیب در نظر می گیرد.

یکی دیگر از مزایای توجه به خود این است که می توان فرآیند را موازی کرد. مدل‌های ترانسفورماتور به‌جای پردازش داده‌های متوالی به ترتیب، می‌توانند همه ورودی‌ها را همزمان پردازش کنند. این ترانسفورماتورها را قادر می‌سازد تا در مقایسه با روش‌های دیگر، بر روی مقادیر عظیمی از داده‌ها نسبتاً سریع آموزش ببینند.

تنظیم دقیق

پس از مرحله قبل از آموزش، می توانید متن جدیدی را برای آموزش پایه LLM معرفی کنید. ما به این فرآیند می گوییم تنظیم دقیق و اغلب برای بهبود بیشتر خروجی LLM در یک کار خاص استفاده می شود.

به عنوان مثال، ممکن است بخواهید از یک LLM برای تولید محتوا برای حساب توییتر خود استفاده کنید. ما می‌توانیم چندین نمونه از توییت‌های قبلی شما را در اختیار مدل قرار دهیم تا بتوانیم ایده‌ای از خروجی مورد نظر به آن ارائه دهیم.

چند نوع مختلف تنظیم دقیق وجود دارد.

مدل های زبان بزرگ قادر به یادگیری چند شات هستند

یادگیری چند شات به فرآیند ارائه تعداد کمی مثال به یک مدل اشاره دارد با این انتظار که مدل زبان چگونگی ایجاد خروجی مشابه را بفهمد. یادگیری تک شات یک فرآیند مشابه است به جز اینکه تنها یک مثال ارائه شده است.

محدودیت های مدل های زبان بزرگ

LLM ها مانند GPT-3 قادر به انجام تعداد زیادی از موارد استفاده حتی بدون تنظیم دقیق هستند. با این حال، این مدل ها همچنان با مجموعه ای از محدودیت های خاص خود همراه هستند.

فقدان درک معنایی از جهان

در سطح، به نظر می رسد LLM ها هوش را نشان می دهند. با این حال، این مدل ها یکسان عمل نمی کنند مغز انسان میکند. LLM ها برای تولید خروجی صرفاً به محاسبات آماری متکی هستند. آنها به تنهایی توانایی استدلال کردن ایده ها و مفاهیم را ندارند.

به همین دلیل، یک LLM می‌تواند پاسخ‌های بی‌معنی بدهد، زیرا کلمات در آن ترتیب خاص به نظر «درست» یا «از نظر آماری محتمل هستند».

هذیان ها

مدل هایی مانند GPT-3 نیز از پاسخ های نادرست رنج می برند. LLM ها می توانند از پدیده ای به نام رنج ببرند توهم که در آن مدل‌ها یک پاسخ واقعی نادرست را بدون آگاهی از اینکه پاسخ هیچ مبنایی در واقعیت ندارد، خروجی می‌دهند.

برای مثال، کاربر ممکن است از مدل بخواهد که افکار استیو جابز را در مورد آخرین آیفون توضیح دهد. این مدل ممکن است بر اساس داده های آموزشی خود، یک نقل قول از هوای رقیق تولید کند.

تعصبات و دانش محدود

مانند بسیاری از الگوریتم‌های دیگر، مدل‌های زبان بزرگ مستعد ارث بردن سوگیری‌های موجود در داده‌های آموزشی هستند. همانطور که ما شروع به تکیه بیشتر بر LLM ها برای بازیابی اطلاعات می کنیم، توسعه دهندگان این مدل ها باید راه هایی برای کاهش اثرات بالقوه مضر پاسخ های جانبدارانه بیابند.

در ظرفیت مشابه، نقاط کور داده های آموزشی مدل نیز مانع خود مدل می شود. در حال حاضر، آموزش مدل های زبان بزرگ ماه ها طول می کشد. این مدل‌ها همچنین بر مجموعه داده‌هایی متکی هستند که دامنه محدودی دارند. به همین دلیل است که ChatGPT فقط اطلاعات محدودی از رویدادهایی دارد که در سال 2021 رخ داده است.

نتیجه

مدل‌های زبانی بزرگ این پتانسیل را دارند که واقعاً نحوه تعامل ما با فناوری و به طور کلی دنیای ما را تغییر دهند.

حجم وسیعی از داده های موجود در اینترنت به محققان راهی برای مدل سازی پیچیدگی های زبان داده است. با این حال، در طول مسیر، به نظر می‌رسد این مدل‌های زبانی درک انسان‌مانندی از جهان را پیدا کرده‌اند.

همانطور که عموم مردم شروع به اعتماد به این مدل‌های زبانی برای ارائه خروجی دقیق می‌کنند، محققان و توسعه‌دهندگان در حال یافتن راه‌هایی برای اضافه کردن نرده‌های محافظ هستند تا این فناوری اخلاقی باقی بماند.

به نظر شما آینده LLM چیست؟

مدل های زبان بزرگ: هر آنچه که باید بدانید

مدل زبان بزرگ چیست؟