فهرست[پټ][ښکاره]
زه ډاډه یم چې تاسو د مصنوعي استخباراتو په اړه اوریدلي وي، په بیله بیا د ماشین زده کړې او طبیعي ژبې پروسس (NLP) په څیر ټکي.
په ځانګړې توګه که تاسو د داسې شرکت لپاره کار کوئ چې هره ورځ په سلګونو، که زرګونه نه وي، د پیرودونکو اړیکو اداره کوي.
د ټولنیزو رسنیو پوسټونو، بریښنالیکونو، چیټونو، خلاص سروې ځوابونو، او نورو سرچینو د معلوماتو تحلیل ساده پروسه نه ده، او دا نور هم ستونزمن کیږي کله چې یوازې خلکو ته وسپارل شي.
له همدې امله ډیری خلک د وړتیا په اړه لیواله دي مصنوعي هوښیارتیا د دوی د ورځني کار او تصدیو لپاره.
د AI لخوا پرمخ وړل شوي متن تحلیل د ژبې په منظم ډول تشریح کولو لپاره پراخه کړنالرې یا الګوریتمونه کاروي ، چې یو یې د موضوع تحلیل دی ، کوم چې د متنونو څخه په اتوماتيک ډول د موضوعاتو موندلو لپاره کارول کیږي.
سوداګرۍ کولی شي د موضوع تحلیل ماډلونه وکاروي ترڅو ماشینونو ته اسانه دندې انتقال کړي نه د ډیرو ډیټا سره کارګران ډیر بار کړي.
په پام کې ونیسئ چې ستاسو ټیم ممکن څومره وخت خوندي کړي او ډیر اړین کار ته وقف کړي که چیرې کمپیوټر کولی شي د پیرودونکو سروې یا ملاتړ مسلو هر سهار د نه ختمیدونکي لیستونو له لارې فلټر کړي.
په دې لارښود کې، موږ به د موضوع ماډلینګ، د موضوع ماډلینګ مختلف میتودونه وګورو، او د دې سره یو څه تجربه ترلاسه کړو.
د موضوع ماډلینګ څه شی دی؟
د موضوع ماډلینګ د متن کان کیندنې یو ډول دی په کوم کې چې غیر څارل شوي او نظارت شوي احصایوي ماشین زده کړه تخنیکونه په کارپس کې د رجحاناتو موندلو لپاره کارول کیږي یا د غیر جوړښت شوي متن مهم حجم.
دا کولی شي ستاسو د اسنادو پراخه ټولګه واخلي او د ورته ډول میتود څخه کار واخلي ترڅو ټکي د شرایطو په کلسترونو کې تنظیم کړي او مضامین کشف کړي.
دا یو څه پیچلي او سخت ښکاري، نو راځئ چې د موضوع ماډل کولو طرزالعمل ساده کړو!
فرض کړئ چې تاسو په لاس کې د رنګه روښانه کونکو سیټ سره یوه ورځپاڼه لولي.
ایا دا زاړه نه دي؟
زه پوهېږم چې په دې ورځو کې ډېر کم خلک چاپې ورځپاڼې لولي. هرڅه ډیجیټل دي، او روښانه کونکي د تیر وخت خبره ده! د خپل پلار یا مور په توګه ویاړ!
نو، کله چې تاسو ورځپاڼه لولي، تاسو مهم شرایط په ګوته کوئ.
یوه بله انګیرنه!
تاسو د مختلف موضوعاتو کلیدي کلمو ټینګار کولو لپاره مختلف رنګ کاروئ. تاسو د چمتو شوي رنګ او موضوعاتو پراساس کلیدي کلمې طبقه بندي کړئ.
د یو ځانګړي رنګ لخوا په نښه شوي د کلمو هر ټولګه د ورکړل شوي موضوع لپاره د کلیدي کلمو لیست دی. د مختلفو رنګونو مقدار چې تاسو غوره کړی د موضوعاتو شمیر ښیې.
دا ترټولو بنسټیز موضوع ماډلینګ دی. دا د لوی متن راټولولو په درک، تنظیم او لنډیز کې مرسته کوي.
په هرصورت، په یاد ولرئ چې د اغیزمن کیدو لپاره، د اتوماتیک موضوع ماډل ډیری مینځپانګې ته اړتیا لري. که تاسو یو لنډ کاغذ لرئ، تاسو ممکن غواړئ زاړه ښوونځي ته لاړ شئ او د روښانه کونکي څخه کار واخلئ!
دا هم ګټور دی چې د معلوماتو په پوهیدو کې یو څه وخت تیر کړئ. دا به تاسو ته یو بنسټیز احساس درکړي چې د موضوع ماډل باید ومومي.
د مثال په توګه، دا ډایری ممکن ستاسو د اوسنیو او پخوانیو اړیکو په اړه وي. په دې توګه، زه به زما د متن کان کیندنې روبوټ ملګري اټکل وکړم چې د ورته نظرونو سره راشي.
دا کولی شي تاسو سره د هغو موضوعاتو کیفیت ښه تحلیل کې مرسته وکړي چې تاسو یې پیژندلي او که اړتیا وي، د کلیدي کلمې سیټونه ټیک کړئ.
د موضوع ماډلینګ برخې
احتمالي ماډل
تصادفي تغیرات او احتمالي توزیع په احتمالي ماډلونو کې د پیښې یا پیښې نمایش کې شامل شوي.
یو تعییناتي ماډل د یوې پیښې لپاره یو واحد احتمالي پایله وړاندې کوي، پداسې حال کې چې احتمالي ماډل د حل په توګه د احتمالي ویش چمتو کوي.
دا ماډلونه واقعیت په پام کې نیسي چې موږ په ندرت سره د وضعیت بشپړ پوهه لرو. د غور کولو لپاره نږدې تل د تصادفي عنصر شتون لري.
د مثال په توګه، د ژوند بیمه د واقعیت په اړه وړاندوینه کیږي چې موږ پوهیږو چې موږ به مړه کیږو، مګر موږ نه پوهیږو چې کله. دا ماډلونه ممکن په جزوي توګه تصادفي وي، یو څه تصادفي، یا په بشپړ ډول تصادفي وي.
د معلوماتو ترلاسه کول
د معلوماتو بیا ترلاسه کول (IR) یو سافټویر پروګرام دی چې د اسنادو ذخیره کولو څخه معلومات تنظیموي، ذخیره کوي، بیرته ترلاسه کوي، او ارزونه کوي، په ځانګړې توګه متني معلومات.
ټیکنالوژي له کاروونکو سره مرسته کوي هغه معلومات کشف کړي چې دوی ورته اړتیا لري، مګر دا په روښانه توګه د دوی پوښتنو ته ځواب نه ورکوي. دا د کاغذونو شتون او موقعیت ته خبر ورکوي چې ممکن اړین معلومات چمتو کړي.
اړونده اسناد هغه دي چې د کارونکي اړتیاوې پوره کوي. یو بې ګناه IR سیسټم به یوازې ټاکل شوي اسناد بیرته راولي.
د موضوع همغږي
د موضوع همغږي د موضوع د لوړې نمرې ورکولو شرایطو ترمینځ د سیمانټیک ورته والي درجې محاسبه کولو سره یوه موضوع نمرې کوي. دا میټریکونه د هغو موضوعاتو تر مینځ توپیر کې مرسته کوي چې په معنی توګه د تفسیر وړ دي او هغه موضوعات چې د احصایوي تحلیلي آثار دي.
که د ادعاوو یا حقایقو یوه ډله یو له بل سره مرسته وکړي، دوی ته همغږي ویل کیږي.
د پایلې په توګه، یو همغږي حقیقتونه په داسې شرایطو کې درک کیدی شي چې ټول یا ډیری حقایق پکې شامل وي. "لوبه د ټیم سپورت دی،" "لوبه د بال سره لوبول کیږي،" او "لوبه خورا فزیکي هڅو ته اړتیا لري" د همغږي حقیقتونو ټول مثالونه دي.
د موضوع ماډلینګ مختلف میتودونه
دا مهمه پروسیجر د مختلف الګوریتمونو یا میتودونو لخوا ترسره کیدی شي. د دوی په منځ کې دي:
- لیټینټ ډیریچلیټ تخصیص (LDA)
- غیر منفي میټرکس فکتوریزیشن (NMF)
- پټ سیمانټیک تحلیل (LSA)
- احتمالي پټ سیمانټیک تحلیل (pLSA)
لیټینټ ډیریچلیټ تخصیص (LDA)
په یوه کارپس کې د څو متنونو ترمنځ د اړیکو موندلو لپاره، د لیټینټ ډیریچلیټ تخصیص احصایوي او ګرافیکي مفهوم کارول کیږي.
د متغیر استثناء اعظمي کولو (VEM) طریقې په کارولو سره، د متن د بشپړې برخې څخه د احتمال ترټولو لوی اټکل ترلاسه کیږي.
په دودیز ډول، د کلمو د کڅوړې څخه غوره څو کلمې غوره کیږي.
په هرصورت، جمله په بشپړه توګه بې معنی ده.
د دې تخنیک له مخې، هر متن به د موضوع د احتمالي ویش، او هره موضوع د کلمو د احتمالي ویش لخوا استازیتوب کیږي.
غیر منفي میټرکس فکتوریزیشن (NMF)
د غیر منفي ارزښتونو فاکتوریزیشن سره میټریکس د استخراج یوه خورا مهم ځانګړنه ده.
کله چې ډیری ځانګړتیاوې شتون ولري او ځانګړتیاوې مبهم وي یا ضعیف وړاندوینه ولري، NMF ګټور دی. NMF کولی شي د ځانګړتیاوو په یوځای کولو سره د پام وړ نمونې، مضامین، یا موضوعات تولید کړي.
NMF هر خصوصیت د اصلي خاصیت سیټ د خطي ترکیب په توګه رامینځته کوي.
هر فیچر د کوفیفینټ یوه ټولګه لري چې په فیچر کې د هرې ځانګړتیا اهمیت څرګندوي. هر عددي خاصیت او د هرې کټګورۍ ځانګړتیا هر ارزښت خپل ضخامت لري.
ټول ضمیمې مثبت دي.
پټ سیمانټیک تحلیل
دا د زده کړې یو بل غیر څارل شوی میتود دی چې د اسنادو په یوه مجموعه کې د کلمو ترمینځ د اتحادیې استخراج لپاره کارول کیږي د پټ سیمانټیک تحلیل دی.
دا موږ سره مرسته کوي چې مناسب اسناد غوره کړو. د دې لومړنۍ دنده د متن ډیټا د لوی کورپس ابعاد کمول دي.
دا غیر ضروري معلومات د معلوماتو څخه د اړینو لیدونو ترلاسه کولو کې د شالید شور په توګه کار کوي.
احتمالي پټ سیمانټیک تحلیل (pLSA)
احتمالي پټ سیمانټیک تحلیل (PLSA) ، کله ناکله د احتمالي پټ سیمانټیک شاخص په نوم پیژندل کیږي (PLSI ، په ځانګړي توګه د معلوماتو ترلاسه کولو حلقو کې) ، د دوه حالتونو او همغږي معلوماتو تحلیل لپاره احصایوي چلند دی.
په حقیقت کې، د پټ سیمانټیک تحلیلونو په څیر، له کوم څخه چې PLSA راڅرګند شوی، د لیدل شوي متغیرونو ټیټ ابعاد نمایش د ځانګړو پټو متغیرونو سره د دوی د تړاو له مخې اخیستل کیدی شي.
په پایتون کې د موضوع ماډلینګ سره لاس په لاس
اوس، زه به تاسو ته د Python سره د موضوع ماډلینګ دندې ته لاړ شم د پروګرامونې ژبه د ریښتینې نړۍ مثال کارول.
زه به د څیړنیزو مقالو نمونه وکړم. هغه ډیټاسیټ چې زه به یې دلته وکاروم د kaggle.com څخه راځي. تاسو کولی شئ په اسانۍ سره ټول هغه فایلونه ترلاسه کړئ چې زه پدې کار کې کاروم له دې څخه مخ.
راځئ چې د ټولو اړین کتابتونونو واردولو سره د Python په کارولو سره د موضوع ماډلینګ سره پیل وکړو:
لاندې ګام د ټولو ډیټاسیټونو لوستل دي چې زه به یې پدې دنده کې کاروم:
د اکتشافي معلوماتو تحلیل
EDA (د اکتشافي معلوماتو تحلیل) یو احصایوي میتود دی چې بصري عناصر کاروي. دا د رجحاناتو، نمونو، او ازموینې انګیرنې موندلو لپاره احصایوي لنډیزونه او ګرافیکي نمایشونه کاروي.
زه به مخکې له دې چې زه د موضوع ماډلینګ پیل کړم ځینې سپړنې ډیټا تحلیل ترسره کړم ترڅو وګورم چې ایا په ډیټا کې کومې نمونې یا اړیکې شتون لري:
اوس به موږ د ټیسټ ډیټاسیټ بې ارزښته ارزښتونه ومومئ:
اوس زه به یو هسټوګرام او بکس پلاټ جوړ کړم ترڅو د متغیرونو ترمینځ اړیکه وګورم.
د ټرین سیټ په خلاصو کې د کرکټرونو مقدار خورا توپیر لري.
په اورګاډي کې، موږ لږترلږه 54 او اعظمي 4551 حروف لرو. 1065 د حروفونو منځنۍ اندازه ده.
د ټیسټ سیټ د روزنې سیټ څخه ډیر په زړه پوري ښکاري ځکه چې د ټیسټ سیټ 46 حروف لري پداسې حال کې چې د روزنې سیټ 2841 لري.
د پایلې په توګه، د ازموینې سیټ د 1058 حروف منځنی درلود، کوم چې د روزنې سیټ سره ورته دی.
د زده کړې په سیټ کې د کلمو شمیر د لیکونو شمیر ته ورته نمونه تعقیبوي.
لږترلږه 8 کلمې او اعظمي 665 کلمې اجازه لري. په پایله کې، د منځنۍ کلمې شمیره 153 ده.
لږ تر لږه اوه کلمې په یوه لنډیز کې او د ازموینې په سیټ کې اعظمي 452 کلمو ته اړتیا ده.
منځنی، په دې حالت کې، 153 دی، کوم چې د روزنې په سیټ کې منځنی سره ورته دی.
د موضوع ماډلینګ لپاره د ټاګونو کارول
د موضوع موډل کولو ډیری ستراتیژیانې شتون لري. زه به په دې تمرین کې ټاګونه وکاروم؛ راځئ وګورو چې دا څنګه د ټاګونو معاینه کولو سره ترسره کړو:
د موضوع ماډلینګ غوښتنلیکونه
- د متن لنډیز د یو سند یا کتاب د موضوع پیژندلو لپاره کارول کیدی شي.
- دا د ازموینې نمرې څخه د کاندید تعصب لرې کولو لپاره کارول کیدی شي.
- د موضوع ماډلینګ ممکن د ګراف پراساس ماډلونو کې د کلمو ترمینځ د سیمانټیک اړیکو رامینځته کولو لپاره وکارول شي.
- دا کولی شي د پیرودونکي په پوښتنو کې د کلیدي کلمو په موندلو او ځواب ورکولو سره د پیرودونکي خدمت ته وده ورکړي. پیرودونکي به په تاسو ډیر باور ولري ځکه چې تاسو دوی ته هغه مرستې چمتو کړې چې دوی ورته په مناسب وخت کې اړتیا لري او پرته لدې چې دوی ته کوم تکلیف رامینځته کړي. د پایلې په توګه، د پیرودونکي وفاداري په ډراماتیک ډول لوړیږي، او د شرکت ارزښت ډیریږي.
پایله
د موضوع ماډلینګ یو ډول احصایوي ماډلینګ دی چې د لنډیز "موضوعاتو" خلاصولو لپاره کارول کیږي چې د متنونو په ټولګه کې شتون لري.
دا د احصایوي ماډل یوه بڼه ده چې په کې کارول کیږي ماشین زده کړه او د طبیعي ژبې پروسس کول ترڅو د لنډو مفاهیمو څرګندونه وکړي چې په متنونو کې شتون لري.
دا د متن کان کیندنې میتود دی چې په پراخه کچه د بدن متن کې د پټ سیمانټیک نمونو موندلو لپاره کارول کیږي.
یو ځواب ورکړئ ووځي