د لوی ژبې ماډلونه: هر څه چې تاسو ورته اړتیا لرئ پوه شئ

فهرست[پټ][ښکاره]

د ژبې لوی ماډل څه شی دی؟
LLMs څنګه روزل کیږي؟+-
- د ټرانسفارمر معمارۍ سره دمخه روزنه
- ښه تنظیم کول
د لویې ژبې موډل محدودیتونه+-
پایله

په مصنوعي استخباراتو کې یوه کلاسیک ستونزه د ماشین تعقیب دی چې کولی شي د انسان ژبه درک کړي.

د مثال په توګه، کله چې ستاسو د خوښې لټون انجن کې د "نږدې ایټالوي رستورانتونو" لټون کول، یو الګوریتم باید ستاسو په پوښتنې کې هره کلمه تحلیل کړي او اړونده پایلې تولید کړي. د ژباړې یو ښه ایپ باید په انګلیسي کې د یوې ځانګړې کلمې په شرایطو پوه شي او په یو ډول د ژبو ترمینځ د ګرامر توپیر حساب کړي.

دا ټولې دندې او نور ډیر څه د کمپیوټر ساینس فرعي ساحې لاندې راځي چې په نوم پیژندل کیږي د طبیعي ژبې پروسس کول یا NLP. په NLP کې پرمختګ د مجازی معاونینو لکه ایمیزون الیکسا څخه سپیم فلټرونو ته چې ناوړه بریښنالیک کشف کوي د عملي غوښتنلیکونو پراخه لړۍ رامینځته کړې.

په NLP کې ترټولو وروستي پرمختګ د a مفکوره ده د ژبې لوی ماډل یا LLM. LLMs لکه GPT-3 دومره ځواکمن شوي چې داسې ښکاري چې دوی نږدې د NLP هرې دندې یا کارولو قضیه کې بریالي ښکاري.

په دې مقاله کې، موږ به وګورو چې دقیقا LLMs څه دي، دا ماډل څنګه روزل شوي، او اوسني محدودیتونه چې دوی لري.

د ژبې لوی ماډل څه شی دی؟

په اصل کې، د ژبې ماډل په ساده ډول یو الګوریتم دی چې پوهیږي چې څومره احتمال د کلمو ترتیب یو معتبر جمله ده.

د ژبې یو خورا ساده ماډل چې په څو سوو کتابونو کې روزل شوی باید وکوالی شي ووایی چې "هغه کور ته لاړ" د "کور ته لاړ" څخه ډیر معتبر دی.

که موږ نسبتا کوچني ډیټاسیټ د انټرنیټ څخه سکریپ شوي لوی ډیټاسیټ سره ځای په ځای کړو ، موږ د یوې مفکورې ته رسیدو پیل کوو. د ژبې لوی ماډل.

د کارولو نوریال شبکې، څیړونکي کولی شي د متن ډیټا په لوی مقدار کې LLMs وروزي. د متن ډیټا مقدار له امله چې ماډل یې لیدلی، LLM په ترتیب کې د راتلونکي کلمې وړاندوینې کې خورا ښه کیږي.

ماډل خورا پیچلی کیږي، دا کولی شي د NLP ډیری دندې ترسره کړي. په دې دندو کې د متن لنډیز کول، د ناول منځپانګې رامینځته کول، او حتی د انسان په څیر خبرو اترو سمبالول شامل دي.

د لوی ژبې ماډل کولی شي د اشارو پراساس د ناول مینځپانګې رامینځته کړي

د مثال په توګه، د GPT-3 خورا مشهور ماډل د 175 ملیارد پیرامیټونو سره روزل شوی او تر دې دمه د ژبې ترټولو پرمختللي ماډل ګڼل کیږي.

دا د دې وړتیا لري چې کاري کوډ رامینځته کړي ، ټولې مقالې ولیکي ، او د هرې موضوع په اړه پوښتنو ته ځواب ویلو کې شاټ واخلي.

LLMs څنګه روزل کیږي؟

موږ په لنډه توګه دې حقیقت ته اشاره وکړه چې LLMs د دوی د روزنې معلوماتو اندازې ته د دوی ډیر ځواک ورکوي. دلته یو دلیل شتون لري چې ولې موږ دوی ته د "لوی" ژبې ماډل وایو.

د ټرانسفارمر معمارۍ سره دمخه روزنه

د روزنې دمخه مرحلې په جریان کې، LLMs د موجوده متن ډیټا ته معرفي کیږي ترڅو د یوې ژبې عمومي جوړښت او قواعد زده کړي.

په تیرو څو کلونو کې، LLMs د ډیټاسیټونو په اړه دمخه روزل شوي چې د عامه انټرنیټ یوه مهمه برخه پوښي. د مثال په توګه، د GPT-3 د ژبې ماډل د ډیټا په اړه روزل شوی و عام کرال ډیټاسیټ، د ویب پوسټونو، ویب پاڼو، او ډیجیټل کتابونو یوه ډله چې له 50 ملیون څخه زیاتو ډومینونو څخه ایستل شوي.

بیا لوی ډیټاسیټ په یوه ماډل کې تغذیه کیږي چې د a په نوم پیژندل کیږي ترانسفارمر. ټرانسفارمر یو ډول دی ژور عصبي شبکه دا د ترتیب شوي معلوماتو لپاره غوره کار کوي.

د ژبې لوی ماډلونه ټرانسفارمرونه کاروي

ټرانسفارمرونه کاروي د کوډر-کوډر جوړښت د ننوتلو او محصول اداره کولو لپاره. په لازمي ډول، ټرانسفارمر دوه عصبي شبکې لري: یو کوډر او یو کوډونکی. کوډ کوونکی کولی شي د ان پټ متن معنی راوباسي او د ویکتور په توګه یې ذخیره کړي. بیا کوډ کونکی ویکتور ترلاسه کوي او د متن تفسیر تولیدوي.

په هرصورت، هغه کلیدي مفهوم چې د ټرانسفارمر جوړښت ته یې اجازه ورکړې چې ښه کار وکړي د a اضافه کول دي د ځان پاملرنې میکانیزم. د ځان پاملرنې مفهوم موډل ته اجازه ورکړه چې په یوه جمله کې ترټولو مهم ټکي ته پام وکړي. میکانیزم حتی د هغو کلمو ترمنځ وزنونه هم په پام کې نیسي چې په ترتیب سره لرې وي.

د ځان پاملرنې بله ګټه دا ده چې پروسه موازي کیدی شي. په ترتیب سره د ترتیب شوي معلوماتو پروسس کولو پرځای، د ټرانسفارمر ماډل کولی شي په یوځل کې ټول معلومات پروسس کړي. دا ټرانسفارمرانو ته وړتیا ورکوي چې د نورو میتودونو په پرتله په نسبي ډول د ډیټا لوی مقدار باندې روزنه وکړي.

ښه تنظیم کول

د روزنې دمخه مرحلې وروسته، تاسو کولی شئ د روزنې لپاره د بیس LLM لپاره نوی متن معرفي کړئ. موږ دا پروسه بولو ښه سمون او ډیری وختونه په یو ځانګړي کار کې د LLM محصول لا ښه کولو لپاره کارول کیږي.

د مثال په توګه، تاسو ممکن د خپل ټویټر حساب لپاره مینځپانګې رامینځته کولو لپاره LLM وکاروئ. موږ کولی شو موډل ستاسو د تیرو ټویټونو ډیری مثالونو سره چمتو کړو ترڅو دا د مطلوب محصول په اړه نظر ورکړي.

د ښه ټیوننګ یو څو مختلف ډولونه شتون لري.

د ژبې لوی ماډلونه د لږ شاټ زده کړې وړتیا لري

لږ شاټ زده کړه د یوې نمونې د ورکولو پروسې ته اشاره کوي د دې تمه سره چې د ژبې ماډل به دا معلومه کړي چې څنګه ورته محصول رامینځته کړي. یو شاټ زده کړه یو ورته پروسه ده پرته له دې چې یوازې یو مثال وړاندې شي.

د لویې ژبې موډل محدودیتونه

LLMs لکه GPT-3 د دې وړتیا لري چې د کارولو لوی شمیر قضیې ترسره کړي حتی د ښه ټیوننګ پرته. په هرصورت، دا ماډلونه لاهم د خپلو محدودیتونو سره راځي.

د نړۍ په اړه د سیمانټیک پوهاوي نشتوالی

په سطحه، LLMs د استخباراتو ښودلو لپاره ښکاري. په هرصورت، دا ماډلونه په ورته ډول کار نه کوي انساني دماغ کوي. LLMs یوازې د محصول تولید لپاره په احصایوي حسابونو تکیه کوي. دوی د دې وړتیا نه لري چې خپل نظرونه او مفکورې په خپله استدلال کړي.

د دې له امله، LLM کولی شي بې بنسټه ځوابونه په ساده ډول تولید کړي ځکه چې ټکي "سمه" یا "احصایوي احتمال" ښکاري کله چې په دې ځانګړي ترتیب کې ځای پرځای شي.

خوندیتوب

د GPT-3 په څیر ماډلونه هم د ناسم ځوابونو سره مخ دي. LLMs کولی شي د یوې پدیدې سره مخ شي چې په نوم پیژندل کیږي دروغجنه چیرې چې ماډلونه په واقعیت کې غلط ځواب وړاندې کوي پرته له دې چې پوه شي چې ځواب په واقعیت کې هیڅ اساس نلري.

د مثال په توګه، یو کارن ممکن د ماډل څخه وغواړي چې د وروستي آی فون په اړه د سټیو جابز فکرونه تشریح کړي. ماډل ممکن د دې روزنې معلوماتو پراساس د پتلي هوا څخه اقتباس تولید کړي.

تعصبات او محدود پوهه

د ډیری نورو الګوریتمونو په څیر، د ژبې لوی ماډلونه د روزنې ډاټا کې موجود تعصبونو ته میراث ورکوي. لکه څنګه چې موږ د معلوماتو بیرته ترلاسه کولو لپاره په LLMs باندې ډیر تکیه کول پیل کوو ، د دې ماډلونو پراختیا کونکي باید د متعصب ځوابونو احتمالي زیان رسونکي اغیزو کمولو لارې ومومي.

په ورته ظرفیت کې، د ماډل د روزنې ډیټا ړوند ځایونه به پخپله ماډل خنډ کړي. اوس مهال، د ژبې لوی ماډلونه د روزنې لپاره میاشتې وخت نیسي. دا ماډلونه په ډیټاسیټونو هم تکیه کوي چې په ساحه کې محدود دي. له همدې امله ChatGPT یوازې د پیښو محدود پوهه لري چې تیر 2021 پیښ شوي.

پایله

د ژبې لوی ماډلونه د دې وړتیا لري چې واقعیا بدلون ومومي چې څنګه موږ په عمومي ډول د ټیکنالوژۍ او زموږ نړۍ سره تعامل کوو.

په انټرنیټ کې موجود ډیټا پراخه اندازه څیړونکو ته د ژبې پیچلتیاو ماډل کولو لپاره لاره ورکړې. په هرصورت، د لارې په اوږدو کې، داسې ښکاري چې د ژبې ماډلونه د نړۍ په څیر د انسان په څیر پوهه غوره کړې ده.

لکه څنګه چې خلک د کره محصول چمتو کولو لپاره د دې ژبې ماډلونو باور کول پیل کوي ، څیړونکي او پراختیا کونکي دمخه د ساتونکو اضافه کولو لارې لټوي ترڅو ټیکنالوژي اخلاقي پاتې شي.

تاسو څه فکر کوئ د LLMs راتلونکی دی؟

د لوی ژبې ماډلونه: هرڅه چې تاسو ورته اړتیا لرئ پوه شئ

د ژبې لوی ماډل څه شی دی؟