یک مشکل کلاسیک در هوش مصنوعی، تعقیب ماشینی است که بتواند زبان انسان را بفهمد.
به عنوان مثال، هنگام جستجوی "رستوران های ایتالیایی نزدیک" در موتور جستجوی مورد علاقه خود، یک الگوریتم باید هر کلمه را در جستجوی شما تجزیه و تحلیل کند و نتایج مربوطه را خروجی دهد. یک برنامه ترجمه مناسب باید زمینه یک کلمه خاص را در انگلیسی درک کند و به نوعی تفاوت های گرامر بین زبان ها را در نظر بگیرد.
همه این وظایف و بسیاری موارد دیگر در زیر شاخه علوم کامپیوتر قرار می گیرند که به آن معروف است پردازش زبان طبیعی یا NLP پیشرفتها در NLP منجر به طیف گستردهای از برنامههای کاربردی از دستیاران مجازی مانند Alexa آمازون تا فیلترهای اسپم شده است که ایمیلهای مخرب را شناسایی میکنند.
جدیدترین پیشرفت در NLP ایده الف است مدل زبان بزرگ یا LLM. LLM هایی مانند GPT-3 آنقدر قدرتمند شده اند که به نظر می رسد تقریباً در هر کار یا مورد استفاده NLP موفق هستند.
در این مقاله، به این خواهیم پرداخت که LLM دقیقا چیست، این مدل ها چگونه آموزش داده می شوند و محدودیت های فعلی آنها چیست.
مدل زبان بزرگ چیست؟
در هسته خود، یک مدل زبان صرفاً یک الگوریتم است که میداند چقدر احتمال دارد که یک دنباله از کلمات یک جمله معتبر باشد.
یک مدل زبان بسیار ساده که بر روی چند صد کتاب آموزش داده شده است باید بتواند بگوید که «او به خانه رفت» معتبرتر از «او به خانه رفت» معتبرتر است.
اگر مجموعه داده نسبتاً کوچک را با یک مجموعه داده عظیم که از اینترنت حذف شده است جایگزین کنیم، به ایده یک مدل زبان بزرگ.
با استفاده از شبکه های عصبی، محققان می توانند LLM ها را بر روی حجم زیادی از داده های متنی آموزش دهند. به دلیل مقدار داده متنی که مدل دیده است، LLM در پیش بینی کلمه بعدی در یک دنباله بسیار خوب می شود.
این مدل آنقدر پیچیده می شود که می تواند بسیاری از وظایف NLP را انجام دهد. این وظایف شامل خلاصه کردن متن، ایجاد محتوای بدیع و حتی شبیه سازی مکالمه شبیه به انسان است.
به عنوان مثال، مدل زبان بسیار محبوب GPT-3 با بیش از 175 میلیارد پارامتر آموزش داده شده است و به عنوان پیشرفته ترین مدل زبانی تاکنون در نظر گرفته شده است.
میتواند کدهای کاری تولید کند، مقالات کامل بنویسد، و میتواند در پاسخ به سوالات در مورد هر موضوعی عکس بگیرد.
LLM ها چگونه آموزش می بینند؟
ما به طور خلاصه به این واقعیت پرداختیم که LLM ها قدرت زیادی را مدیون حجم داده های آموزشی خود هستند. دلیلی وجود دارد که چرا ما آنها را مدل های زبانی "بزرگ" می نامیم.
پیش آموزش با معماری ترانسفورماتور
در مرحله قبل از آموزش، LLMها با داده های متنی موجود آشنا می شوند تا ساختار کلی و قوانین یک زبان را بیاموزند.
در چند سال گذشته، LLM ها بر روی مجموعه داده هایی که بخش قابل توجهی از اینترنت عمومی را پوشش می دهند، از قبل آموزش دیده اند. به عنوان مثال، مدل زبان GPT-3 بر روی داده های آموزش داده شده است خزش مشترک مجموعه داده ها، مجموعه ای از پست های وب، صفحات وب، و کتاب های دیجیتالی شده از بیش از 50 میلیون دامنه.
سپس مجموعه داده عظیم به مدلی به نام a وارد می شود ترانسفورماتور. ترانسفورماتورها نوعی از شبکه عصبی عمیق که برای داده های متوالی بهترین کار را دارد.
ترانسفورماتورها از یک معماری رمزگذار-رمزگشا برای مدیریت ورودی و خروجی اساساً ترانسفورماتور شامل دو شبکه عصبی است: یک رمزگذار و یک رمزگشا. رمزگذار می تواند معنای متن ورودی را استخراج کرده و آن را به صورت برداری ذخیره کند. سپس رمزگشا بردار را دریافت می کند و تفسیر خود را از متن تولید می کند.
با این حال، مفهوم کلیدی که به معماری ترانسفورماتور اجازه می دهد تا به خوبی کار کند، افزودن a است مکانیسم توجه به خود. مفهوم توجه به خود به مدل این امکان را می دهد که به مهمترین کلمات در یک جمله معین توجه کند. این مکانیسم حتی وزن بین کلماتی را که از هم دور هستند به ترتیب در نظر می گیرد.
یکی دیگر از مزایای توجه به خود این است که می توان فرآیند را موازی کرد. مدلهای ترانسفورماتور بهجای پردازش دادههای متوالی به ترتیب، میتوانند همه ورودیها را همزمان پردازش کنند. این ترانسفورماتورها را قادر میسازد تا در مقایسه با روشهای دیگر، بر روی مقادیر عظیمی از دادهها نسبتاً سریع آموزش ببینند.
تنظیم دقیق
پس از مرحله قبل از آموزش، می توانید متن جدیدی را برای آموزش پایه LLM معرفی کنید. ما به این فرآیند می گوییم تنظیم دقیق و اغلب برای بهبود بیشتر خروجی LLM در یک کار خاص استفاده می شود.
به عنوان مثال، ممکن است بخواهید از یک LLM برای تولید محتوا برای حساب توییتر خود استفاده کنید. ما میتوانیم چندین نمونه از توییتهای قبلی شما را در اختیار مدل قرار دهیم تا بتوانیم ایدهای از خروجی مورد نظر به آن ارائه دهیم.
چند نوع مختلف تنظیم دقیق وجود دارد.
یادگیری چند شات به فرآیند ارائه تعداد کمی مثال به یک مدل اشاره دارد با این انتظار که مدل زبان چگونگی ایجاد خروجی مشابه را بفهمد. یادگیری تک شات یک فرآیند مشابه است به جز اینکه تنها یک مثال ارائه شده است.
محدودیت های مدل های زبان بزرگ
LLM ها مانند GPT-3 قادر به انجام تعداد زیادی از موارد استفاده حتی بدون تنظیم دقیق هستند. با این حال، این مدل ها همچنان با مجموعه ای از محدودیت های خاص خود همراه هستند.
فقدان درک معنایی از جهان
در سطح، به نظر می رسد LLM ها هوش را نشان می دهند. با این حال، این مدل ها یکسان عمل نمی کنند مغز انسان میکند. LLM ها برای تولید خروجی صرفاً به محاسبات آماری متکی هستند. آنها به تنهایی توانایی استدلال کردن ایده ها و مفاهیم را ندارند.
به همین دلیل، یک LLM میتواند پاسخهای بیمعنی بدهد، زیرا کلمات در آن ترتیب خاص به نظر «درست» یا «از نظر آماری محتمل هستند».
هذیان ها
مدل هایی مانند GPT-3 نیز از پاسخ های نادرست رنج می برند. LLM ها می توانند از پدیده ای به نام رنج ببرند توهم که در آن مدلها یک پاسخ واقعی نادرست را بدون آگاهی از اینکه پاسخ هیچ مبنایی در واقعیت ندارد، خروجی میدهند.
برای مثال، کاربر ممکن است از مدل بخواهد که افکار استیو جابز را در مورد آخرین آیفون توضیح دهد. این مدل ممکن است بر اساس داده های آموزشی خود، یک نقل قول از هوای رقیق تولید کند.
تعصبات و دانش محدود
مانند بسیاری از الگوریتمهای دیگر، مدلهای زبان بزرگ مستعد ارث بردن سوگیریهای موجود در دادههای آموزشی هستند. همانطور که ما شروع به تکیه بیشتر بر LLM ها برای بازیابی اطلاعات می کنیم، توسعه دهندگان این مدل ها باید راه هایی برای کاهش اثرات بالقوه مضر پاسخ های جانبدارانه بیابند.
در ظرفیت مشابه، نقاط کور داده های آموزشی مدل نیز مانع خود مدل می شود. در حال حاضر، آموزش مدل های زبان بزرگ ماه ها طول می کشد. این مدلها همچنین بر مجموعه دادههایی متکی هستند که دامنه محدودی دارند. به همین دلیل است که ChatGPT فقط اطلاعات محدودی از رویدادهایی دارد که در سال 2021 رخ داده است.
نتیجه
مدلهای زبانی بزرگ این پتانسیل را دارند که واقعاً نحوه تعامل ما با فناوری و به طور کلی دنیای ما را تغییر دهند.
حجم وسیعی از داده های موجود در اینترنت به محققان راهی برای مدل سازی پیچیدگی های زبان داده است. با این حال، در طول مسیر، به نظر میرسد این مدلهای زبانی درک انسانمانندی از جهان را پیدا کردهاند.
همانطور که عموم مردم شروع به اعتماد به این مدلهای زبانی برای ارائه خروجی دقیق میکنند، محققان و توسعهدهندگان در حال یافتن راههایی برای اضافه کردن نردههای محافظ هستند تا این فناوری اخلاقی باقی بماند.
به نظر شما آینده LLM چیست؟
پاسخ دهید