مواد جي جدول[لڪ][ڏسو]
مون کي پڪ آهي ته توهان مصنوعي ذهانت جي باري ۾ ٻڌو هوندو، انهي سان گڏ لفظن جهڙوڪ مشين سکيا ۽ قدرتي ٻولي پروسيسنگ (NLP).
خاص طور تي جيڪڏهن توهان هڪ فرم لاءِ ڪم ڪري رهيا آهيو جيڪا هر روز سوين، هزارين نه، ڪلائنٽ رابطن کي هٿي وٺندي.
سوشل ميڊيا پوسٽنگ، اي ميلون، چيٽ، کليل سروي جا جواب، ۽ ٻين ذريعن جي ڊيٽا جو تجزيو هڪ سادي عمل ناهي، ۽ اهو اڃا به وڌيڪ ڏکيو ٿي ويندو آهي جڏهن صرف ماڻهن جي حوالي ڪيو وڃي.
اهو ئي سبب آهي ته ڪيترن ئي ماڻهن جي صلاحيت جي باري ۾ پرجوش آهن مصنوعي انٽيلي جنس انهن جي روزاني ڪم ۽ ادارن لاءِ.
AI-powered text analysis استعمال ڪندو آھي وسيع انداز يا الگورتھم کي ٻولي جي تشريح ڪرڻ لاءِ آرگنائيزي طور تي، جن مان ھڪڙو آھي موضوع جو تجزيو، جيڪو استعمال ڪيو ويندو آھي خود بخود نصوص مان مضمونن کي دريافت ڪرڻ لاءِ.
ڪاروبار استعمال ڪري سگھن ٿا موضوع جي تجزيي جا ماڊل آسان نوڪريون مشينن تي منتقل ڪرڻ جي بجاءِ مزدورن کي تمام گھڻي ڊيٽا سان.
غور ڪريو ته توهان جي ٽيم ڪيترو وقت بچائي سگهي ٿي ۽ وڌيڪ ضروري ڪم لاءِ وقف ڪري سگهي ٿي جيڪڏهن ڪمپيوٽر هر صبح ڪسٽمر سروي يا سپورٽ مسئلن جي لامحدود فهرستن ذريعي فلٽر ڪري سگهي ٿو.
ھن ھدايت ۾، اسان موضوع جي ماڊلنگ، موضوع جي ماڊلنگ جي مختلف طريقن تي غور ڪنداسين، ۽ ان سان گڏ ڪجھ ھٿ تي تجربو حاصل ڪنداسين.
موضوع ماڊلنگ ڇا آهي؟
موضوع جي ماڊلنگ هڪ قسم جي ٽيڪسٽ مائننگ آهي جنهن ۾ غير نگراني ۽ نگراني ڪيل شمارياتي مشين جي سکيا ٽيڪنالاجيون استعمال ڪيون وينديون آهن رجحانات کي معلوم ڪرڻ لاءِ ڪارپس يا غير منظم متن جي هڪ اهم مقدار.
اهو توهان جي دستاويزن جو وڏو مجموعو وٺي سگهي ٿو ۽ لفظن کي ترتيب ڏيڻ لاءِ هڪجهڙائي وارو طريقو استعمال ڪري سگهي ٿو اصطلاحن جي ڪلسٽر ۾ ۽ مضمونن کي دريافت ڪريو.
اھو ٿورڙو پيچيده ۽ مشڪل لڳي ٿو، تنھنڪري اچو ته موضوع جي ماڊلنگ جي طريقيڪار کي آسان بڻايون!
فرض ڪريو ته توهان هڪ اخبار پڙهي رهيا آهيو جنهن سان توهان جي هٿ ۾ رنگين روشنين جو هڪ سيٽ آهي.
ڇا اهو پراڻو دور ناهي؟
مان سمجهان ٿو ته اڄڪلهه تمام ٿورا ماڻهو ڇپيل اخبارون پڙهن ٿا. هر شي ڊجيٽل آهي، ۽ نمايان ڪندڙ ماضي جي شيء آهن! پنهنجو پيءُ يا ماءُ ٿيڻ جو فرض ڪريو!
تنهن ڪري، جڏهن توهان اخبار پڙهو ٿا، توهان اهم شرطن کي اجاگر ڪيو.
هڪ وڌيڪ فرض!
توهان مختلف موضوعن جي لفظن تي زور ڏيڻ لاءِ مختلف رنگ استعمال ڪندا آهيو. توهان مهيا ڪيل رنگ ۽ عنوانن جي بنياد تي لفظن جي درجه بندي ڪريو.
لفظن جو هر مجموعو هڪ خاص رنگ سان نشان لڳل آهي، ڏنل موضوع لاءِ لفظن جي فهرست آهي. مختلف رنگن جو مقدار جيڪو توھان چونڊيو آھي انھن جو تعداد ڏيکاري ٿو.
هي سڀ کان بنيادي موضوع ماڊلنگ آهي. اهو وڏي ٽيڪسٽ مجموعن جي فهم، تنظيم، ۽ اختصار ۾ مدد ڪري ٿو.
بهرحال، ذهن ۾ رکو ته اثرائتو ٿيڻ لاء، خودڪار موضوع جي ماڊل کي تمام گهڻو مواد جي ضرورت آهي. جيڪڏھن توھان وٽ ھڪڙو ننڍڙو پيپر آھي، توھان چاھيو ٿا پراڻا اسڪول وڃو ۽ ھائي لائٽر استعمال ڪريو!
ڊيٽا کي ڄاڻڻ لاء ڪجهه وقت گذارڻ لاء پڻ فائدي وارو آهي. اهو توهان کي هڪ بنيادي احساس ڏيندو ته ڇا موضوع ماڊل ڳولڻ گهرجي.
مثال طور، اها ڊائري شايد توهان جي موجوده ۽ پوئين رشتن بابت هجي. اهڙيء طرح، مان توقع ڪندس ته منهنجي ٽيڪسٽ مائننگ روبوٽ-دوست ساڳئي خيالن سان گڏ ايندا.
اهو توهان جي مدد ڪري سگهي ٿو توهان جي سڃاڻپ ڪيل مضمونن جي معيار جو بهتر تجزيو ڪرڻ ۽، جيڪڏهن ضروري هجي ته، لفظن جي سيٽ کي ٽائيڪ ڪريو.
موضوع ماڊلنگ جا اجزاء
امڪاني ماڊل
بي ترتيب متغير ۽ امڪاني تقسيم کي امڪاني ماڊل ۾ واقعا يا رجحان جي نمائندگي ۾ شامل ڪيو ويو آهي.
هڪ تعيناتي ماڊل هڪ واقعي لاءِ هڪ واحد امڪاني نتيجو مهيا ڪري ٿو، جڏهن ته هڪ امڪاني ماڊل هڪ حل جي طور تي امڪاني تقسيم فراهم ڪري ٿو.
اهي ماڊل حقيقت تي غور ڪن ٿا ته اسان کي گهٽ ۾ گهٽ ڪنهن صورتحال جي مڪمل ڄاڻ آهي. غور ڪرڻ لاء تقريبا هميشه بي ترتيب جو هڪ عنصر آهي.
مثال طور، زندگي جي انشورنس حقيقت تي پيش ڪيل آهي ته اسان ڄاڻون ٿا ته اسان مري ويندا، پر اسان کي خبر ناهي ته ڪڏهن. اهي ماڊل جزوي طور تي مقرر، جزوي طور تي بي ترتيب، يا مڪمل طور تي بي ترتيب ٿي سگهن ٿيون.
معلوماتي واپسي
معلومات حاصل ڪرڻ (IR) هڪ سافٽ ويئر پروگرام آهي جيڪو منظم ڪري ٿو، اسٽور، ٻيهر حاصل ڪري ٿو، ۽ دستاويز جي ذخيرن مان معلومات جو جائزو وٺندو آهي، خاص طور تي متن جي معلومات.
ٽيڪنالاجي صارفين کي گهربل معلومات ڳولڻ ۾ مدد ڪري ٿي، پر اهو واضح طور تي انهن جي سوالن جا جواب نه ڏئي ٿي. اهو ڪاغذن جي موجودگي ۽ مقام جي اطلاع ڏئي ٿو جيڪا شايد ضروري معلومات مهيا ڪري سگهي ٿي.
لاڳاپيل دستاويز اهي آهن جيڪي صارف جي ضرورتن کي پورا ڪن ٿا. بي عيب IR سسٽم صرف چونڊيل دستاويز واپس ڪندو.
موضوع جي مطابقت
ٽاپڪ ڪوئرنس هڪ واحد موضوع کي اسڪور ڪري ٿو موضوع جي اعلي اسڪورنگ اصطلاحن جي وچ ۾ لفظي هڪجهڙائي جي درجي جي حساب سان. اهي ميٽرڪس انهن مضمونن جي وچ ۾ فرق ڪرڻ ۾ مدد ڪن ٿا جيڪي لفظي طور تي تفسير هوندا آهن ۽ اهي مضمون جيڪي شمارياتي انداز جي نموني جا آهن.
جيڪڏهن دعوائن يا حقيقتن جو هڪ گروهه هڪ ٻئي جي حمايت ڪري ٿو، انهن کي چيو ويندو آهي مربوط.
نتيجي طور، هڪ گڏيل حقيقتن جي سيٽ کي سمجهي سگهجي ٿو ان حوالي سان جيڪو سڀني يا گهڻن حقيقتن کي شامل ڪري ٿو. ”راند هڪ ٽيم جي راند آهي،“ ”راند کي بال سان کيڏيو ويندو آهي،“ ۽ ”راند کي زبردست جسماني ڪوشش جي ضرورت هوندي آهي“ سڀ هڪجهڙائي واري حقيقت جي سيٽ جا مثال آهن.
موضوع جي ماڊلنگ جا مختلف طريقا
هي نازڪ طريقو مختلف الگورتھم يا طريقن سان ڪري سگهجي ٿو. انهن مان هي آهن:
- لڪيٽ ڊيريچليٽ مختص (LDA)
- غير منفي ميٽرڪس فيڪٽرائزيشن (NMF)
- لڪل لفظي تجزيو (LSA)
- امڪاني لڪل لفظي تجزيي (pLSA)
لڪيٽ ڊيريچليٽ مختص (LDA)
هڪ ڪارپس ۾ ڪيترن ئي متنن جي وچ ۾ لاڳاپن کي ڳولڻ لاء، ليٽنٽ ڊيريچليٽ مختص جي شمارياتي ۽ گرافاتي تصور استعمال ڪيو ويندو آهي.
Variational Exception Maximization (VEM) طريقي کي استعمال ڪندي، ٽيڪسٽ جي مڪمل ڪورپس مان سڀ کان وڏي امڪاني اندازي حاصل ڪئي وئي آهي.
روايتي طور تي، لفظن جي هڪ ٿلهي مان مٿين چند لفظن کي چونڊيو ويو آهي.
بهرحال، جملو مڪمل طور تي بي معني آهي.
هن ٽيڪنڪ جي مطابق، هر متن جي نمائندگي ڪئي ويندي مضمونن جي امڪاني تقسيم سان، ۽ هر موضوع لفظن جي امڪاني تقسيم سان.
غير منفي ميٽرڪس فيڪٽرائزيشن (NMF)
غير منفي قدرن سان ميٽرڪس فيڪٽريائيزيشن هڪ جديد خصوصيت ڪڍڻ وارو طريقو آهي.
جڏهن ڪيتريون ئي خوبيون آهن ۽ خاصيتون مبهم آهن يا خراب اڳڪٿيون آهن، NMF فائدي وارو آهي. NMF خاصيتن کي گڏ ڪندي اهم نمونن، مضمونن، يا موضوعن کي ٺاهي سگھي ٿو.
NMF هر خصوصيت کي اصل وصف سيٽ جي هڪ لڪير ميلاپ جي طور تي ٺاهي ٿو.
هر خصوصيت ۾ ڪوفيفينٽس جو هڪ سيٽ هوندو آهي جيڪو خصوصيت تي هر خاصيت جي اهميت جي نمائندگي ڪري ٿو. هر عددي وصف ۽ هر درجي جي وصف جي هر قدر کي ان جو پنهنجو ڪوفيشيٽ آهي.
سڀ coefficients مثبت آهن.
لڪل سيمينٽڪ تجزيو
اهو هڪ ٻيو غير نگراني ٿيل سکيا وارو طريقو آهي جيڪو دستاويزن جي هڪ سيٽ ۾ لفظن جي وچ ۾ اتحادين کي ڪڍڻ لاءِ استعمال ڪيو ويندو آهي لڪير سيمينٽڪ تجزيو.
هي اسان کي صحيح دستاويز چونڊڻ ۾ مدد ڪري ٿي. ان جو بنيادي ڪم متن جي ڊيٽا جي وڏي ڪورپس جي طول و عرض کي گھٽائڻ آهي.
اهي غير ضروري ڊيٽا ڊيٽا مان ضروري بصيرت حاصل ڪرڻ ۾ پس منظر شور جي طور تي ڪم ڪن ٿا.
امڪاني لڪل لفظي تجزيي (pLSA)
Probabilistic latet semantic analysis (PLSA)، ڪڏهن ڪڏهن probabilistic latent semantic indexing (PLSI، خاص طور تي معلومات حاصل ڪرڻ واري حلقن ۾) جي نالي سان سڃاتو وڃي ٿو، ٻن موڊ ۽ گڏيل واقعن جي ڊيٽا جي تجزيي لاءِ هڪ شمارياتي طريقو آهي.
درحقيقت، لڪل سيمينٽڪ تجزيي سان ملندڙ جلندڙ، جنهن مان PLSA ظاهر ٿيو، مشاهدو متغيرن جي هڪ گهٽ جہتي نمائندگي حاصل ڪري سگهجي ٿي انهن جي لاڳاپي جي لحاظ کان خاص لڪيل متغيرن سان.
Python ۾ موضوع ماڊلنگ سان گڏ
ھاڻي، مان توھان کي پٿون سان ھڪڙي مضمون جي ماڊلنگ اسائنمينٽ ذريعي ھلائيندس پروگرامنگ واري ٻولي حقيقي دنيا جو مثال استعمال ڪندي.
مان تحقيقي مضمونن جي ماڊلنگ ڪندس. ڊيٽا سيٽ جيڪو مان هتي استعمال ڪندس kaggle.com کان. توهان آساني سان حاصل ڪري سگهو ٿا اهي سڀئي فائلون جيڪي مان هن ڪم ۾ استعمال ڪري رهيو آهيان هن مان صفحو.
اچو ته شروع ڪريون موضوع ماڊلنگ سان Python استعمال ڪندي سڀني ضروري لائبريرين کي درآمد ڪندي:
هيٺ ڏنل قدم سڀني ڊيٽا سيٽن کي پڙهڻ لاءِ آهي جيڪو آئون هن ڪم ۾ استعمال ڪندس.
تحقيقي ڊيٽا تجزيي
EDA (Exploratory Data Analysis) ھڪڙو شمارياتي طريقو آھي جيڪو بصري عناصر کي ملازمت ڏيندو آھي. اهو استعمال ڪري ٿو شمارياتي خلاصو ۽ گرافڪ نمائندگي ڳولڻ لاءِ رجحانات، نمونن، ۽ امتحان جي مفروضن کي.
مان ڪجھ تحقيقي ڊيٽا جو تجزيو ڪندس ان کان اڳ جو مان موضوع جي ماڊلنگ شروع ڪريان ته ڏسو ته ڇا ڊيٽا ۾ ڪي نمونا يا تعلق آھن:
ھاڻي اسان ڳولي سگھوٿا null values of test dataset:
ھاڻي ھسٽوگرام ۽ باڪس پلاٽ ٺاھيندس متغيرن جي وچ ۾ تعلق کي جانچڻ لاءِ.
ٽرين سيٽ جي خلاصن ۾ ڪردارن جو مقدار تمام گهڻو مختلف آهي.
ٽرين تي، اسان وٽ گھٽ ۾ گھٽ 54 ۽ وڌ ۾ وڌ 4551 اکر آھن. 1065 اکرن جي سراسري مقدار آهي.
ٽيسٽ سيٽ ٽريننگ سيٽ کان وڌيڪ دلچسپ لڳي ٿو ڇو ته ٽيسٽ سيٽ ۾ 46 اکر آهن جڏهن ته ٽريننگ سيٽ 2841 آهي.
نتيجي طور، ٽيسٽ سيٽ ۾ 1058 اکرن جو ميڊين هو، جيڪو ٽريننگ سيٽ وانگر آهي.
سکيا واري سيٽ ۾ لفظن جو تعداد اکرن جي تعداد جي ھڪڙي نموني جي پٺيان آھي.
گھٽ ۾ گھٽ 8 لفظن ۽ وڌ ۾ وڌ 665 لفظن جي اجازت آھي. نتيجي طور، وچين لفظ جي ڳڻپ 153 آهي.
گهٽ ۾ گهٽ ست لفظ هڪ خلاصي ۾ ۽ وڌ ۾ وڌ 452 لفظ ٽيسٽ سيٽ ۾ گهربل آهن.
وچين، هن معاملي ۾، 153 آهي، جيڪو ٽريننگ سيٽ ۾ وچين جي هڪجهڙائي آهي.
موضوع ماڊلنگ لاءِ ٽيگ استعمال ڪرڻ
اتي ڪيترائي موضوع ماڊلنگ حڪمت عمليون آهن. مان هن مشق ۾ ٽيگ استعمال ڪندس؛ اچو ته ڏسو ته ٽيگ جي جانچ ڪندي ائين ڪيئن ڪجي:
موضوع ماڊلنگ جي ايپليڪيشنون
- متن جو خلاصو استعمال ڪري سگھجي ٿو ڪنھن دستاويز يا ڪتاب جي موضوع کي سمجھڻ لاءِ.
- اهو استعمال ڪري سگهجي ٿو اميدوار جي تعصب کي ختم ڪرڻ لاءِ امتحان جي اسڪورنگ کان.
- موضوع جي ماڊلنگ استعمال ٿي سگھي ٿي لفظن جي وچ ۾ لفظي لاڳاپا ٺاهڻ لاءِ گراف تي ٻڌل ماڊل.
- اهو ڪلائنٽ جي انڪوائري ۾ لفظن کي ڳولڻ ۽ جواب ڏيڻ سان ڪسٽمر سروس کي وڌائي سگھي ٿو. گراهڪن کي توهان تي وڌيڪ اعتماد هوندو ڇو ته توهان انهن کي مدد فراهم ڪئي آهي جيڪا انهن کي مناسب وقت تي گهربل هجي ۽ بغير ڪنهن پريشاني جي. نتيجي طور، ڪلائنٽ جي وفاداري ڊرامي طور تي وڌي ٿي، ۽ ڪمپني جي قيمت وڌائي ٿي.
ٿڪل
موضوع جي ماڊلنگ ھڪڙي قسم جي شمارياتي ماڊلنگ آھي جنھن کي خلاصي "مضامين" کي ختم ڪرڻ لاء استعمال ڪيو ويو آھي جيڪي نصوص جي مجموعي ۾ موجود آھن.
اهو استعمال ٿيل شمارياتي ماڊل جو هڪ روپ آهي مشين جي سکيا ۽ قدرتي ٻولي پروسيسنگ خلاصي تصورات کي ظاهر ڪرڻ لاء جيڪي متن جي هڪ سيٽ ۾ موجود آهن.
اهو هڪ ٽيڪسٽ کان کني جو طريقو آهي جيڪو وڏي پيماني تي استعمال ڪيو ويندو آهي جسم جي متن ۾ لڪل سيمينٽڪ نمونن کي ڳولڻ لاء.
جواب ڇڏي وڃو