بڑی زبان کے ماڈل: ہر وہ چیز جو آپ کو جاننے کی ضرورت ہے

کی میز کے مندرجات[چھپائیں][دکھائیں]

ایک بڑی زبان کا ماڈل کیا ہے؟
ایل ایل ایم کی تربیت کیسے کی جاتی ہے؟+-
- ٹرانسفارمر آرکیٹیکچر کے ساتھ پری ٹریننگ
- عمدہ ٹیوننگ
بڑی زبان کے ماڈلز کی حدود+-
نتیجہ

مصنوعی ذہانت میں ایک کلاسک مسئلہ ایسی مشین کی تلاش ہے جو انسانی زبان کو سمجھ سکے۔

مثال کے طور پر، اپنے پسندیدہ سرچ انجن پر "قریبی اطالوی ریستوراں" تلاش کرتے وقت، ایک الگورتھم کو آپ کے استفسار کے ہر لفظ کا تجزیہ کرنا ہوتا ہے اور متعلقہ نتائج کو آؤٹ پٹ کرنا ہوتا ہے۔ ایک مہذب ترجمہ ایپ کو انگریزی میں کسی خاص لفظ کے سیاق و سباق کو سمجھنا ہوگا اور کسی نہ کسی طرح زبانوں کے درمیان گرامر کے فرق کو سمجھنا ہوگا۔

یہ تمام کام اور بہت کچھ کمپیوٹر سائنس کے ذیلی فیلڈ کے تحت آتا ہے جسے جانا جاتا ہے۔ قدرتی زبان عملیات یا این ایل پی۔ NLP میں پیشرفت نے ایمیزون کے الیکسا جیسے ورچوئل اسسٹنٹس سے لے کر اسپام فلٹرز تک وسیع پیمانے پر عملی ایپلی کیشنز کا باعث بنا ہے جو بدنیتی پر مبنی ای میل کا پتہ لگاتے ہیں۔

NLP میں سب سے حالیہ پیش رفت ایک کا آئیڈیا ہے۔ بڑی زبان کا ماڈل یا ایل ایل ایم۔ LLMs جیسے GPT-3 اتنے طاقتور ہو گئے ہیں کہ وہ تقریباً کسی بھی NLP کام یا استعمال کے معاملے میں کامیاب ہوتے دکھائی دیتے ہیں۔

اس مضمون میں، ہم دیکھیں گے کہ LLMs بالکل کیا ہیں، ان ماڈلز کی تربیت کیسے کی جاتی ہے، اور ان کی موجودہ حدود کیا ہیں۔

ایک بڑی زبان کا ماڈل کیا ہے؟

اس کے بنیادی طور پر، ایک زبان کا ماڈل صرف ایک الگورتھم ہے جو جانتا ہے کہ الفاظ کی ترتیب ایک درست جملہ ہے۔

چند سو کتابوں پر تربیت یافتہ ایک بہت ہی سادہ زبان کا ماڈل یہ بتانے کے قابل ہونا چاہیے کہ "وہ گھر گیا" "وہ گھر گیا" سے زیادہ درست ہے۔

اگر ہم نسبتاً چھوٹے ڈیٹاسیٹ کو انٹرنیٹ سے ختم کیے گئے بڑے ڈیٹاسیٹ سے بدل دیتے ہیں، تو ہم ایک کے خیال سے رجوع کرنا شروع کر دیتے ہیں۔ بڑی زبان کا ماڈل.

کا استعمال کرتے ہوئے نیند نیٹ ورک، محققین ایل ایل ایم کو متنی ڈیٹا کی ایک بڑی مقدار پر تربیت دے سکتے ہیں۔ ماڈل نے جتنا ٹیکسٹ ڈیٹا دیکھا ہے اس کی وجہ سے، LLM ایک ترتیب میں اگلے لفظ کی پیشین گوئی کرنے میں بہت اچھا ہو جاتا ہے۔

ماڈل اتنا نفیس ہو جاتا ہے، یہ NLP کے بہت سارے کام انجام دے سکتا ہے۔ ان کاموں میں متن کا خلاصہ کرنا، ناول کا مواد بنانا، اور یہاں تک کہ انسان جیسی گفتگو کی نقل کرنا شامل ہے۔

بڑے زبان کے ماڈل اشارے کی بنیاد پر ناول کا مواد بنا سکتے ہیں۔

مثال کے طور پر، انتہائی مقبول GPT-3 زبان کا ماڈل 175 بلین سے زیادہ پیرامیٹرز کے ساتھ تربیت یافتہ ہے اور اسے اب تک کا سب سے جدید زبان کا ماڈل سمجھا جاتا ہے۔

یہ ورکنگ کوڈ تیار کرنے، پورے مضامین لکھنے، اور کسی بھی موضوع کے بارے میں سوالات کے جوابات دینے کے قابل ہے۔

ایل ایل ایم کی تربیت کیسے کی جاتی ہے؟

ہم نے مختصراً اس حقیقت کو چھو لیا ہے کہ LLMs کو ان کے تربیتی ڈیٹا کے سائز کے لیے ان کی بہت زیادہ طاقت ہوتی ہے۔ اس کی ایک وجہ ہے کہ آخر ہم انہیں "بڑے" زبان کے ماڈل کیوں کہتے ہیں۔

ٹرانسفارمر آرکیٹیکچر کے ساتھ پری ٹریننگ

تربیت سے پہلے کے مرحلے کے دوران، کسی زبان کی عمومی ساخت اور قواعد کو سیکھنے کے لیے ایل ایل ایم کو موجودہ ٹیکسٹ ڈیٹا سے متعارف کرایا جاتا ہے۔

پچھلے کچھ سالوں میں، LLMs کو ڈیٹا سیٹس پر پہلے سے تربیت دی گئی ہے جو عوامی انٹرنیٹ کے ایک اہم حصے کا احاطہ کرتے ہیں۔ مثال کے طور پر، GPT-3 کے لینگویج ماڈل کو ڈیٹا پر تربیت دی گئی تھی۔ عام کرال ڈیٹاسیٹ، ویب پوسٹس، ویب صفحات، اور ڈیجیٹائزڈ کتابوں کا ایک مجموعہ جو 50 ملین سے زیادہ ڈومینز سے سکریپ کیا گیا ہے۔

بڑے پیمانے پر ڈیٹاسیٹ کو پھر ایک ماڈل میں کھلایا جاتا ہے جسے a کہا جاتا ہے۔ ٹرانسفارمر. ٹرانسفارمرز کی ایک قسم ہے۔ گہری عصبی نیٹ ورک جو ترتیب وار ڈیٹا کے لیے بہترین کام کرتا ہے۔

بڑے زبان کے ماڈل ٹرانسفارمر استعمال کرتے ہیں۔

ٹرانسفارمر استعمال کرتے ہیں۔ انکوڈر-ڈیکوڈر فن تعمیر ان پٹ اور آؤٹ پٹ کو سنبھالنے کے لیے۔ بنیادی طور پر، ٹرانسفارمر میں دو نیورل نیٹ ورک ہوتے ہیں: ایک انکوڈر اور ایک ڈیکوڈر۔ انکوڈر ان پٹ ٹیکسٹ کا مطلب نکال سکتا ہے اور اسے ویکٹر کے طور پر اسٹور کر سکتا ہے۔ ڈیکوڈر پھر ویکٹر وصول کرتا ہے اور متن کی اپنی تشریح تیار کرتا ہے۔

تاہم، کلیدی تصور جس نے ٹرانسفارمر فن تعمیر کو اتنی اچھی طرح سے کام کرنے کی اجازت دی ہے وہ ہے a کا اضافہ خود توجہ کا طریقہ کار. خود توجہ کے تصور نے ماڈل کو دیئے گئے جملے میں سب سے اہم الفاظ پر توجہ دینے کی اجازت دی۔ میکانزم یہاں تک کہ ان الفاظ کے درمیان وزن پر بھی غور کرتا ہے جو ترتیب سے بہت دور ہیں۔

خود توجہ کا ایک اور فائدہ یہ ہے کہ عمل کو متوازی کیا جاسکتا ہے۔ ترتیب وار ڈیٹا پر کارروائی کرنے کے بجائے، ٹرانسفارمر ماڈل ایک ساتھ تمام ان پٹ پر کارروائی کر سکتے ہیں۔ یہ ٹرانسفارمرز کو دوسرے طریقوں کے مقابلے نسبتاً تیزی سے ڈیٹا کی بھاری مقدار پر تربیت دینے کے قابل بناتا ہے۔

عمدہ ٹیوننگ

تربیت سے پہلے کے مرحلے کے بعد، آپ بیس LLM کے لیے نیا متن متعارف کروانے کا انتخاب کر سکتے ہیں۔ ہم اس عمل کو کہتے ہیں۔ ٹھیک ٹیوننگ اور اکثر ایک مخصوص کام پر LLM کے آؤٹ پٹ کو مزید بہتر بنانے کے لیے استعمال کیا جاتا ہے۔

مثال کے طور پر، آپ اپنے ٹوئٹر اکاؤنٹ کے لیے مواد تیار کرنے کے لیے LLM استعمال کرنا چاہتے ہیں۔ ہم ماڈل کو آپ کے پچھلے ٹویٹس کی کئی مثالیں فراہم کر سکتے ہیں تاکہ اسے مطلوبہ آؤٹ پٹ کا اندازہ ہو سکے۔

فائن ٹیوننگ کی چند مختلف اقسام ہیں۔

بڑی زبان کے ماڈلز چند شاٹ سیکھنے کے قابل ہیں۔

چند شاٹ سیکھنے اس توقع کے ساتھ ماڈل کی ایک چھوٹی سی تعداد دینے کے عمل سے مراد ہے کہ لینگویج ماڈل اس بات کا پتہ لگائے گا کہ اسی طرح کی آؤٹ پٹ کیسے بنائی جائے۔ ایک شاٹ سیکھنا ایک ایسا ہی عمل ہے سوائے صرف ایک مثال فراہم کی گئی ہے۔

بڑی زبان کے ماڈلز کی حدود

LLMs جیسے GPT-3 فائن ٹیوننگ کے بغیر بھی بڑی تعداد میں استعمال کے معاملات انجام دینے کی صلاحیت رکھتے ہیں۔ تاہم، یہ ماڈل اب بھی اپنی حدود کے سیٹ کے ساتھ آتے ہیں۔

دنیا کی معنوی تفہیم کا فقدان

سطح پر، LLMs ذہانت کا مظاہرہ کرتے دکھائی دیتے ہیں۔ تاہم، یہ ماڈل اسی طرح کام نہیں کرتے ہیں۔ انسانی دماغ کرتا ہے LLMs آؤٹ پٹ پیدا کرنے کے لیے مکمل طور پر شماریاتی حسابات پر انحصار کرتے ہیں۔ وہ اپنے طور پر خیالات اور تصورات کو استدلال کرنے کی صلاحیت نہیں رکھتے ہیں۔

اس کی وجہ سے، ایک LLM بے ہودہ جوابات صرف اس لیے دے سکتا ہے کہ الفاظ "صحیح" یا "اعداد و شمار کے لحاظ سے امکان" لگتے ہیں جب اس مخصوص ترتیب میں رکھا جائے۔

حدود

GPT-3 جیسے ماڈلز بھی غلط ردعمل کا شکار ہیں۔ ایل ایل ایم ایک ایسے رجحان کا شکار ہو سکتے ہیں جسے جانا جاتا ہے۔ hallucination جہاں ماڈل بغیر کسی آگاہی کے حقیقت میں غلط جواب دیتے ہیں کہ جواب کی حقیقت میں کوئی بنیاد نہیں ہے۔

مثال کے طور پر، صارف ماڈل سے جدید ترین آئی فون پر اسٹیو جابز کے خیالات کی وضاحت کرنے کے لیے کہہ سکتا ہے۔ ماڈل اپنے تربیتی ڈیٹا کی بنیاد پر پتلی ہوا سے ایک اقتباس تیار کر سکتا ہے۔

تعصبات اور محدود علم

بہت سے دوسرے الگورتھم کی طرح، بڑے لینگویج ماڈلز ٹریننگ ڈیٹا میں موجود تعصبات کے وارث ہوتے ہیں۔ جیسا کہ ہم معلومات کی بازیافت کے لیے LLMs پر زیادہ انحصار کرنا شروع کر دیتے ہیں، ان ماڈلز کے ڈویلپرز کو متعصب ردعمل کے ممکنہ طور پر نقصان دہ اثرات کو کم کرنے کے طریقے تلاش کرنے چاہییں۔

اسی طرح کی صلاحیت میں، ماڈل کے تربیتی اعداد و شمار کے اندھے دھبے بھی خود ماڈل کی راہ میں رکاوٹ بنیں گے۔ فی الحال، بڑے زبان کے ماڈلز کو تربیت میں مہینوں لگتے ہیں۔ یہ ماڈل ڈیٹاسیٹس پر بھی انحصار کرتے ہیں جو دائرہ کار میں محدود ہیں۔ یہی وجہ ہے کہ ChatGPT کے پاس صرف 2021 کے ماضی کے واقعات کے بارے میں محدود معلومات ہیں۔

نتیجہ

بڑے زبان کے ماڈلز میں یہ صلاحیت ہے کہ ہم ٹیکنالوجی اور عام طور پر اپنی دنیا کے ساتھ کیسے تعامل کرتے ہیں۔

انٹرنیٹ پر دستیاب ڈیٹا کی وسیع مقدار نے محققین کو زبان کی پیچیدگیوں کو ماڈل کرنے کا ایک طریقہ فراہم کیا ہے۔ تاہم، راستے میں، ایسا لگتا ہے کہ ان زبانوں کے ماڈلز نے دنیا کے بارے میں انسان جیسی سمجھ کو اپنا لیا ہے۔

جیسا کہ عوام درست آؤٹ پٹ فراہم کرنے کے لیے ان زبان کے ماڈلز پر بھروسہ کرنا شروع کر دیتے ہیں، محققین اور ڈویلپرز پہلے سے ہی گارڈریلز شامل کرنے کے طریقے تلاش کر رہے ہیں تاکہ ٹیکنالوجی اخلاقی رہے۔

آپ کے خیال میں LLMs کا مستقبل کیا ہے؟

بڑی زبان کے ماڈل: ہر وہ چیز جو آپ کو جاننے کی ضرورت ہے۔

ایک بڑی زبان کا ماڈل کیا ہے؟