မာတိကာ[ဖျောက်][ရှိုး]
ဉာဏ်ရည်တု၊ စက်သင်ယူခြင်းနှင့် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) ကဲ့သို့သော စကားလုံးများကို သင်ကြားဖူးသည်မှာ သေချာပါသည်။
အထူးသဖြင့် သင်သည် နေ့စဉ် ဖောက်သည် အဆက်အသွယ် ရာနှင့်ချီ၊ ထောင်နှင့်ချီသော အဆက်အသွယ်များကို ကိုင်တွယ်သည့် ကုမ္ပဏီတစ်ခုတွင် အလုပ်လုပ်ပါက၊
ဆိုရှယ်မီဒီယာတွင် တင်ခြင်းများ၊ အီးမေးလ်များ၊ ချတ်များ၊ အပွင့်ပါ စစ်တမ်းပြန်ကြားမှုများနှင့် အခြားရင်းမြစ်များ၏ ဒေတာခွဲခြမ်းစိတ်ဖြာခြင်းသည် ရိုးရှင်းသောလုပ်ငန်းစဉ်မဟုတ်သည့်အပြင် လူများကိုသာ အပ်နှင်းသည့်အခါ ပိုမိုခက်ခဲလာသည်။
ဒါကြောင့် လူတော်တော်များများက အလားအလာကို စိတ်အားထက်သန်ကြပါတယ်။ ဉာဏ်ရည်တု ၎င်းတို့၏နေ့စဉ်အလုပ်အတွက်နှင့် လုပ်ငန်းများအတွက်။
AI စွမ်းအင်သုံး စာသားပိုင်းခြားစိတ်ဖြာချက်သည် ကျယ်ပြန့်သော ချဉ်းကပ်မှု သို့မဟုတ် အယ်လဂိုရီသမ်များကို အသုံးပြုထားပြီး ၎င်းအနက်မှ တစ်ခုသည် ခေါင်းစဉ်ခွဲခြမ်းစိတ်ဖြာခြင်းဖြစ်ပြီး၊ စာသားများမှ အကြောင်းအရာများကို အလိုအလျောက်ရှာဖွေတွေ့ရှိရန် အသုံးပြုသည့် ခေါင်းစဉ်ခွဲခြမ်းစိတ်ဖြာမှုဖြစ်သည်။
စီးပွားရေးလုပ်ငန်းများသည် ဒေတာအလွန်အကျွံလုပ်ထားသော အလုပ်သမားများကို ဝန်ထုပ်ဝန်ပိုးဖြစ်စေမည့်အစား လွယ်ကူသောအလုပ်များကို စက်များပေါ်သို့လွှဲပြောင်းရန် ခေါင်းစဉ်ခွဲခြမ်းစိတ်ဖြာမှုပုံစံများကို အသုံးပြုနိုင်သည်။
ကွန်ပြူတာသည် အဆုံးမဲ့ဖောက်သည်စစ်တမ်းများ သို့မဟုတ် ပံ့ပိုးမှုဆိုင်ရာပြဿနာများကို မနက်တိုင်း စစ်ထုတ်နိုင်လျှင် သင့်အဖွဲ့သည် အချိန်မည်မျှသက်သာပြီး ပိုအရေးကြီးသည့်အလုပ်အတွက် မြှုပ်နှံမည်ကို သုံးသပ်ကြည့်ပါ။
ဤလမ်းညွှန်တွင်၊ ကျွန်ုပ်တို့သည် ခေါင်းစဉ်ပုံစံပုံစံ၊ မတူညီသော ခေါင်းစဉ်ပုံစံ နမူနာပုံစံများကို ကြည့်ရှုပြီး ၎င်းနှင့်လက်တွေ့အတွေ့အကြုံအချို့ကို ရယူပါမည်။
Topic Modeling ဆိုတာ ဘာလဲ။
Topic modeling သည် ကြီးကြပ်မှုမရှိဘဲ စာရင်းအင်းဆိုင်ရာ စာသားတူးဖော်မှု အမျိုးအစားတစ်ခုဖြစ်သည်။ စက်သင်ယူမှု corpus သို့မဟုတ် ဖွဲ့စည်းတည်ဆောက်ပုံမရှိသော စာသားများ၏ သိသာထင်ရှားသော ထုထည်တစ်ခုရှိ ခေတ်ရေစီးကြောင်းများကို ရှာဖွေရန် နည်းပညာများကို အသုံးပြုသည်။
၎င်းသည် သင်၏ ကြီးမားသော စာရွက်စာတမ်းများကို စုဆောင်းယူနိုင်ပြီး စကားလုံးများကို ဝေါဟာရအစုအဝေးများအဖြစ် စီစဉ်ကာ အကြောင်းအရာများကို ရှာဖွေရန် ဆင်တူယိုးမှားနည်းလမ်းကို အသုံးပြုနိုင်သည်။
၎င်းသည် အနည်းငယ်ရှုပ်ထွေးပြီး ခက်ခဲပုံရသည်၊ ထို့ကြောင့် ဘာသာရပ်ဆိုင်ရာ မော်ဒယ်လ်လုပ်ထုံးလုပ်နည်းကို ရိုးရှင်းအောင် လုပ်ကြပါစို့။
သင့်လက်ထဲတွင် ရောင်စုံမီးမောင်းထိုးပြထားသော သတင်းစာတစ်စောင်ကို သင်ဖတ်နေသည်ဟု ယူဆပါ။
အဲဒါက ခေတ်မမီဘူးလား။
ယနေ့ခေတ်တွင် လူအနည်းငယ်သာ ပုံနှိပ်ထုတ်ဝေသော သတင်းစာများကို ဖတ်ကြသည်ကို ကျွန်တော်နားလည်ပါသည်။ အရာအားလုံးသည် ဒစ်ဂျစ်တယ်ဖြစ်ပြီး ပေါ်လွင်သည့်အရာများသည် အတိတ်၏အရာဖြစ်သည်။ မင်းအဖေ ဒါမှမဟုတ် အမေဖြစ်အောင် ဟန်ဆောင်ပါ။
ဒါကြောင့် သတင်းစာဖတ်တဲ့အခါ အရေးကြီးတဲ့ အသုံးအနှုန်းတွေကို မီးမောင်းထိုးပြပါ။
နောက်ထပ် ယူဆချက်တစ်ခု။
အမျိုးမျိုးသော theme ၏သော့ချက်စာလုံးများကို အလေးပေးရန်အတွက် သင်သည် မတူညီသောအရောင်ကို အသုံးပြုသည်။ ပေးထားသောအရောင်နှင့် အကြောင်းအရာများပေါ်မူတည်၍ အဓိကစကားလုံးများကို အမျိုးအစားခွဲသည်။
အရောင်တစ်ခုစီဖြင့် အမှတ်အသားပြုထားသော စကားလုံးအစုအဝေးတစ်ခုစီသည် ခေါင်းစဉ်တစ်ခုအတွက် သော့ချက်စကားလုံးများစာရင်းဖြစ်သည်။ သင်ရွေးချယ်သောအရောင်အမျိုးမျိုး၏ပမာဏသည် အပြင်အဆင်အရေအတွက်ကိုပြသသည်။
ဤသည်မှာ အခြေခံအကျဆုံး ခေါင်းစဉ်ပုံစံပုံစံဖြစ်သည်။ ၎င်းသည် ကြီးမားသော စာသားစုစည်းမှုများ၏ နားလည်နိုင်မှု၊ အဖွဲ့အစည်းနှင့် အကျဉ်းချုပ်တို့တွင် ကူညီပေးသည်။
သို့သော်၊ ထိရောက်မှုရှိရန်၊ အလိုအလျောက်အကြောင်းအရာပုံစံများသည် အကြောင်းအရာများစွာ လိုအပ်ကြောင်း သတိရပါ။ သင့်တွင် စာရွက်အတိုလေးတစ်ရွက်ရှိလျှင် သင်ကျောင်းဟောင်းသို့သွားကာ အသားပေးစက်များကို အသုံးပြုချင်ပေမည်။
ဒေတာကို သိရှိရန် အချိန်အနည်းငယ်ပေးခြင်းဖြင့်လည်း အကျိုးရှိသည်။ ၎င်းသည် သင့်အား ခေါင်းစဉ်ပုံစံပုံစံကို ရှာဖွေသင့်သည်ဟူသော အခြေခံသဘောကို ပေးလိမ့်မည်။
ဥပမာအားဖြင့်၊ ထိုဒိုင်ယာရီသည် သင့်လက်ရှိနှင့် ယခင်ဆက်ဆံရေးအကြောင်း ဖြစ်နိုင်သည်။ ထို့ကြောင့်၊ ကျွန်ုပ်၏ စာသားမိုင်းတွင်း စက်ရုပ်-မိတ်ဆွေ အလားတူ အကြံဥာဏ်များ ထွက်ပေါ်လာရန် ကျွန်ုပ် မျှော်လင့်ပါသည်။
၎င်းသည် သင်ရှာဖွေတွေ့ရှိထားသည့် ဘာသာရပ်များ၏ အရည်အသွေးကို ပိုမိုကောင်းမွန်စွာ ပိုင်းခြားစိတ်ဖြာနိုင်စေရန် ကူညီပေးနိုင်ပြီး လိုအပ်ပါက သော့ချက်စာလုံးအတွဲများကို ပြုပြင်ပြောင်းလဲပါ။
Topic Modeling ၏ အစိတ်အပိုင်းများ
ဖြစ်နိုင်ခြေပုံစံ
ကျပန်း ကိန်းရှင်များနှင့် ဖြစ်နိုင်ခြေ ဖြန့်ဝေမှုများကို ဖြစ်နိုင်ချေရှိသော မော်ဒယ်များတွင် ဖြစ်ရပ် သို့မဟုတ် ဖြစ်စဉ်တစ်ခု၏ ကိုယ်စားပြုမှုတွင် ပေါင်းစပ်ထားသည်။
အဆုံးအဖြတ်ပုံစံသည် ဖြစ်ရပ်တစ်ခုအတွက် ဖြစ်နိုင်ချေရှိသော တစ်ခုတည်းသော နိဂုံးချုပ်မှုကို ပံ့ပိုးပေးသော်လည်း ဖြစ်နိုင်ခြေပုံစံသည် ဖြစ်နိုင်ချေ ဖြန့်ဝေမှုကို အဖြေတစ်ခုအဖြစ် ပံ့ပိုးပေးပါသည်။
ဤပုံစံများသည် ကျွန်ုပ်တို့သည် အခြေအနေတစ်ခုနှင့်ပတ်သက်၍ ပြည့်စုံသောအသိပညာမရှိသလောက်အဖြစ်မှန်ကို သုံးသပ်ပါသည်။ အမြဲလိုလို ကြုံရာကျပန်း စဉ်းစားရန် အချက်တစ်ခုရှိသည်။
ဥပမာ၊ အသက်အာမခံသည် ကျွန်ုပ်တို့သေဆုံးမည်ကို ကျွန်ုပ်တို့သိသည့်အဖြစ်မှန်ကို ခန့်မှန်းထားသော်လည်း မည်သည့်အချိန်တွင် ကျွန်ုပ်တို့သေဆုံးမည်ကို ကျွန်ုပ်တို့မသိပါ။ ဤမော်ဒယ်များသည် တစ်စိတ်တစ်ပိုင်း ဆုံးဖြတ်နိုင်သည်၊ တစ်စိတ်တစ်ပိုင်း ကျပန်း သို့မဟုတ် လုံးဝ ကျပန်းဖြစ်နိုင်သည်။
အချက်အလက်ပြန်လည်ရယူခြင်း။
သတင်းအချက်အလက် retrieval (IR) သည် စာရွက်စာတမ်း သိမ်းဆည်းရာနေရာများမှ အချက်အလက်များကို စုစည်းခြင်း၊ သိမ်းဆည်းခြင်း၊ ထုတ်ယူခြင်းနှင့် အကဲဖြတ်ခြင်းများ၊ အထူးသဖြင့် စာသားအချက်အလက်များကို လုပ်ဆောင်ပေးသည့် ဆော့ဖ်ဝဲလ်ပရိုဂရမ်တစ်ခုဖြစ်သည်။
နည်းပညာသည် အသုံးပြုသူများအား ၎င်းတို့လိုအပ်သော အချက်အလက်များကို ရှာဖွေတွေ့ရှိရန် ကူညီပေးသော်လည်း ၎င်းတို့၏ စုံစမ်းမေးမြန်းမှုများကို ရှင်းရှင်းလင်းလင်း အဖြေမပေးပေ။ ၎င်းသည် လိုအပ်သောအချက်အလက်များကို ပေးစွမ်းနိုင်သော စာရွက်များ၏ တည်ရှိမှုနှင့် တည်နေရာကို အသိပေးသည်။
သက်ဆိုင်ရာ စာရွက်စာတမ်းများသည် သုံးစွဲသူ၏ လိုအပ်ချက်များနှင့် ကိုက်ညီသော စာရွက်စာတမ်းများ ဖြစ်သည်။ မှားယွင်းမှုမရှိသော IR စနစ်သည် ရွေးချယ်ထားသောစာရွက်စာတမ်းများကိုသာ ပြန်ပေးပါမည်။
ခေါင်းစဉ်အဆက်အစပ်
Topic Coherence သည် ခေါင်းစဉ်၏ ရမှတ်မြင့်မားသော အသုံးအနှုန်းများကြားတွင် ဝေါဟာရတူညီမှုအတိုင်းအတာကို တွက်ချက်ခြင်းဖြင့် ခေါင်းစဉ်တစ်ခုတည်းကို အမှတ်ပေးပါသည်။ ဤမက်ထရစ်များသည် ဝေါဟာရအရ အဓိပ္ပာယ်ဖွင့်ဆိုနိုင်သော ဘာသာရပ်များနှင့် ကိန်းဂဏန်းအနုမာနအရာများဖြစ်သည့် အကြောင်းအရာများအကြား ခွဲခြားရာတွင် အထောက်အကူဖြစ်စေသည်။
တိုင်ကြားချက် သို့မဟုတ် အချက်အလက်အုပ်စုတစ်စုသည် တစ်ဦးနှင့်တစ်ဦး ထောက်ခံပါက ၎င်းတို့သည် ညီညွတ်သည်ဟု ဆိုကြသည်။
ရလဒ်အနေဖြင့် အချက်အလက်အားလုံး သို့မဟုတ် အများစုကို လွှမ်းခြုံထားသည့် စည်းလုံးညီညွှတ်သောအချက်တစ်ခုအား နားလည်နိုင်သည်။ “ဂိမ်းသည် အဖွဲ့လိုက်အားကစားတစ်ခု၊” “ဂိမ်းသည် ဘောလုံးဖြင့်ကစားသည်” နှင့် “ဂိမ်းသည် ကြီးမားသောရုပ်ပိုင်းဆိုင်ရာအားစိုက်ထုတ်မှုလိုအပ်သည်” တို့သည် စည်းလုံးညီညွှတ်သောဖြစ်ရပ်မှန်အစုံများ၏နမူနာများဖြစ်သည်။
ခေါင်းစဉ်ပုံသဏ္ဍာန်၏ မတူညီသောနည်းလမ်းများ
ဤအရေးပါသောလုပ်ငန်းစဉ်ကို algorithms သို့မဟုတ် methodologies အမျိုးမျိုးဖြင့် ဆောင်ရွက်နိုင်ပါသည်။ ၎င်းတို့ထဲတွင်-
- Latent Dirichlet Allocation (LDA)
- Non Negative Matrix Factorization (NMF)
- Latent Semantic Analysis (LSA)
- ဖြစ်နိုင်ခြေရှိသော ငုပ်လျှိုးနေသော ဝေါဟာရ ခွဲခြမ်းစိတ်ဖြာခြင်း(pLSA)
ငုပ်လျှိုးနေသော Dirichlet ခွဲဝေခြင်း(LDA)
Corpus တစ်ခုရှိ စာသားအများအပြားကြားရှိ ဆက်စပ်မှုများကို သိရှိရန်၊ Latent Dirichlet Allocation ၏ ကိန်းဂဏန်းနှင့် ဂရပ်ဖစ်အယူအဆကို အသုံးပြုထားသည်။
Variational Exception Maximization (VEM) ချဉ်းကပ်မှုကို အသုံးပြု၍ စာသားအပြည့်အစုံ၏ စုစည်းမှုမှ အကြီးမားဆုံးဖြစ်နိုင်ခြေ ခန့်မှန်းချက်ကို ရရှိသည်။
အစဉ်အလာအားဖြင့် စကားလုံးအိတ်တစ်လုံးမှ ထိပ်တန်းစကားလုံးအနည်းငယ်ကို ရွေးချယ်သည်။
သို့သော် ထိုဝါကျသည် လုံးဝအဓိပ္ပါယ်မရှိပေ။
ဤနည်းစနစ်အရ၊ စာသားတစ်ခုစီကို ဖြစ်နိုင်ချေရှိသော အကြောင်းအရာများ ဖြန့်ဝေခြင်းဖြင့် ကိုယ်စားပြုမည်ဖြစ်ပြီး အကြောင်းအရာတစ်ခုစီကို ဖြစ်နိုင်ချေရှိသော စကားလုံးများ ဖြန့်ဝေခြင်းဖြင့် ကိုယ်စားပြုမည်ဖြစ်သည်။
အနုတ်လက္ခဏာမဟုတ်သော Matrix Factorization (NMF)
အနုတ်လက္ခဏာမဟုတ်သော တန်ဖိုးများကို ခွဲခြမ်းစိတ်ဖြာခြင်းဖြင့် Matrix သည် ဆန်းသစ်သောအင်္ဂါရပ်ကို ထုတ်ယူသည့်ချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။
အရည်အသွေးများစွာရှိပြီး အရည်အချင်းများသည် မရေရာသော သို့မဟုတ် ကြိုတင်ခန့်မှန်းနိုင်မှု အားနည်းသောအခါ NMF သည် အကျိုးရှိသည်။ NMF သည် ဝိသေသလက္ခဏာများ ပေါင်းစပ်ခြင်းဖြင့် သိသာထင်ရှားသော ပုံစံများ၊ ဘာသာရပ်များ သို့မဟုတ် အပြင်အဆင်များကို ဖန်တီးနိုင်သည်။
NMF သည် အင်္ဂါရပ်တစ်ခုစီကို မူရင်း attribute set ၏ တစ်ပြေးညီပေါင်းစပ်မှုအဖြစ် ထုတ်ပေးသည်။
အင်္ဂါရပ်တစ်ခုစီတွင် အင်္ဂါရပ်ပေါ်ရှိ အရည်အချင်းတစ်ခုစီ၏ အရေးပါမှုကို ကိုယ်စားပြုသည့် ဖော်ကိန်းအစုတစ်ခုပါရှိသည်။ ကိန်းဂဏန်း attribute တစ်ခုစီနှင့် အမျိုးအစားတစ်ခုစီ၏ တန်ဖိုးတစ်ခုစီတွင် ၎င်း၏ကိုယ်ပိုင် coefficient ရှိသည်။
ကိန်းဂဏန်းအားလုံးသည် အပြုသဘောဆောင်သည်။
Latent Semantic Analysis
၎င်းသည် စာရွက်စာတမ်းအစုံအလင်ရှိ စကားလုံးများကြား ဆက်စပ်မှုများကို ထုတ်ယူရန် အသုံးပြုသည့် ကြီးကြပ်ကွပ်ကဲမှုမရှိဘဲ အခြားသင်ယူမှုနည်းလမ်းမှာ ငုပ်လျှိုးနေသော ဝေါဟာရခွဲခြမ်းစိတ်ဖြာမှုဖြစ်သည်။
၎င်းသည် ကျွန်ုပ်တို့အား သင့်လျော်သောစာရွက်စာတမ်းများကို ရွေးချယ်ရန် ကူညီပေးသည်။ ၎င်း၏ အဓိကလုပ်ဆောင်ချက်မှာ စာသားဒေတာ၏ ကြီးမားသော ကော်ပိုရိတ်၏ အတိုင်းအတာကို လျှော့ချရန်ဖြစ်သည်။
အဆိုပါ မလိုအပ်သော အချက်အလက်များသည် ဒေတာထံမှ လိုအပ်သော ထိုးထွင်းသိမြင်မှုများကို ရယူရာတွင် နောက်ခံဆူညံသံအဖြစ် လုပ်ဆောင်သည်။
ဖြစ်နိုင်ခြေရှိသော ငုပ်လျှိုးနေသော ဝေါဟာရ ခွဲခြမ်းစိတ်ဖြာခြင်း(pLSA)
ဖြစ်နိုင်ခြေရှိသော ငုပ်လျှိုးနေသော တွေးခေါ်မှုဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာမှု (PLSA) သည် တစ်ခါတစ်ရံတွင် ဖြစ်နိုင်ခြေရှိသော ငုပ်လျှိုးနေသော စကားလုံးအညွှန်းကိန်း (PLSI၊ အထူးသဖြင့် သတင်းအချက်အလက် ပြန်လည်ရယူသည့် စက်ဝိုင်းများတွင်) သည် ကိန်းဂဏန်းနှစ်ခုမုဒ်နှင့် ပူးတွဲဖြစ်ပေါ်မှုဒေတာကို ခွဲခြမ်းစိတ်ဖြာရန်အတွက် ကိန်းဂဏန်းဆိုင်ရာချဉ်းကပ်မှုတစ်ခုဖြစ်သည်။
အမှန်မှာ၊ PLSA ထွက်ပေါ်လာသည့် ငုပ်လျှိုးနေသော တွေးခေါ်မှုဆိုင်ရာ ခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် ဆင်တူသည်၊ တွေ့ရှိရသော ကိန်းရှင်များ၏ အနိမ့်ပိုင်း ကိုယ်စားပြုမှုသည် သီးခြား လျှို့ဝှက်ကိန်းရှင်များနှင့် ၎င်းတို့၏ ဆက်စပ်မှုအရ ဆင်းသက်လာနိုင်သည်။
Python ရှိ Topic Modeling ဖြင့် လက်ဆင့်ကမ်းပါ။
ယခု Python ဖြင့် ဘာသာရပ်ပုံစံရေးဆွဲခြင်းဆိုင်ရာတာဝန်ကို ကျွန်ုပ်တင်ပြပါမည်။ programming language ကို လက်တွေ့ကမ္ဘာဥပမာကို အသုံးပြု.
သုတေသန ဆောင်းပါးတွေကို မော်ဒယ်လုပ်မယ်။ ဤနေရာတွင် ကျွန်ုပ်အသုံးပြုမည့် ဒေတာအတွဲသည် kaggle.com မှ လာပါသည်။ ဤအလုပ်တွင် ကျွန်ုပ်အသုံးပြုနေသော ဖိုင်များအားလုံးကို ဤနေရာမှ အလွယ်တကူ ရယူနိုင်ပါသည်။ စာမျက်နှာ.
မရှိမဖြစ်လိုအပ်သော စာကြည့်တိုက်များအားလုံးကို ထည့်သွင်းခြင်းဖြင့် Python ကိုအသုံးပြု၍ Topic Modeling ဖြင့် စတင်ကြပါစို့။
အောက်ပါအဆင့်သည် ဤလုပ်ငန်းဆောင်တာတွင် ကျွန်ုပ်အသုံးပြုမည့် ဒေတာအတွဲများအားလုံးကို ဖတ်ရန်ဖြစ်သည်-
စူးစမ်းလေ့လာရေးဒေတာ ခွဲခြမ်းစိတ်ဖြာခြင်း။
EDA (Exploratory Data Analysis) သည် အမြင်ဆိုင်ရာဒြပ်စင်များကို အသုံးပြုသည့် ကိန်းဂဏန်းဆိုင်ရာ နည်းလမ်းတစ်ခုဖြစ်သည်။ ခေတ်ရေစီးကြောင်းများ၊ ပုံစံများနှင့် စမ်းသပ်ယူဆချက်များကို ရှာဖွေတွေ့ရှိရန် ကိန်းဂဏန်းအကျဉ်းချုပ်များနှင့် ဂရပ်ဖစ်ဆိုင်ရာ ကိုယ်စားပြုမှုများကို အသုံးပြုသည်။
ဒေတာတွင် ပုံစံများ သို့မဟုတ် ဆက်စပ်မှုရှိမရှိကို ကြည့်ရန် ခေါင်းစဉ်ပုံစံပုံစံကို မစတင်မီ စူးစမ်းလေ့လာရေးဒေတာခွဲခြမ်းစိတ်ဖြာမှုအချို့ကို ပြုလုပ်ပါမည်။
ယခု ကျွန်ုပ်တို့သည် စမ်းသပ်ဒေတာအတွဲ၏ null တန်ဖိုးများကို တွေ့လိမ့်မည်-
ယခု ကျွန်ုပ်သည် ကိန်းရှင်များကြားရှိဆက်စပ်မှုကို စစ်ဆေးရန် histogram နှင့် boxplot ကိုဆွဲပါမည်။
Abstracts of the Train set တွင် ဇာတ်ကောင်များ၏ ပမာဏသည် အလွန်ကွာခြားပါသည်။
ရထားပေါ်တွင် ကျွန်ုပ်တို့တွင် အနည်းဆုံး 54 လုံးနှင့် အများဆုံး 4551 လုံးရှိသည်။ 1065 သည် ပျမ်းမျှ အက္ခရာ ပမာဏ ဖြစ်သည်။
Test set တွင် စာလုံး 46 လုံးပါရှိပြီး 2841 လုံးပါရှိသောကြောင့် test set သည် လေ့ကျင့်ရေး set ထက် ပိုမိုစိတ်ဝင်စားဖွယ်ကောင်းပါသည်။
ရလဒ်အနေဖြင့် စမ်းသပ်မှုတွင် လေ့ကျင့်ရေးစနစ်နှင့် ဆင်တူသည့် ပျမ်းမျှ စာလုံးရေ ၁၀၅၈ လုံးရှိသည်။
သင်ယူမှုအစုရှိ စကားလုံးအရေအတွက်သည် စာလုံးအရေအတွက်နှင့် ဆင်တူသည်။
အနည်းဆုံး စကားလုံး ၈ လုံးနှင့် အများဆုံး ၆၆၅ လုံးအထိ ခွင့်ပြုထားသည်။ ထို့ကြောင့် ပျမ်းမျှစကားလုံးရေတွက်မှုသည် 8 ဖြစ်သည်။
စိတ္တဇတစ်ခုတွင် အနည်းဆုံး စကားလုံးခုနစ်လုံးနှင့် စမ်းသပ်မှုအစုံတွင် အများဆုံးစကားလုံး ၄၅၂ လုံး လိုအပ်သည်။
ဤအခြေအနေတွင် ပျမ်းမျှသည် 153 ဖြစ်ပြီး၊ လေ့ကျင့်မှုအစုံရှိ မီဒီယံနှင့် တူညီသည်။
Topic Modeling အတွက် တဂ်များကို အသုံးပြုခြင်း။
ခေါင်းစဉ်ပုံစံမော်ဒယ်နည်းဗျူဟာများစွာရှိသည်။ ဤလေ့ကျင့်ခန်းတွင် tag များကိုသုံးပါမည်။ Tag တွေကို ဆန်းစစ်ကြည့်ရအောင်။
Topic Modeling အသုံးပြုမှုများ
- စာတမ်း သို့မဟုတ် စာအုပ်၏ အကြောင်းအရာကို ပိုင်းခြားရန် စာသားအကျဉ်းချုပ်ကို သုံးနိုင်သည်။
- စာမေးပွဲရမှတ်မှ ကိုယ်စားလှယ်လောင်းဘက်လိုက်မှုကို ဖယ်ရှားရန် ၎င်းကို အသုံးပြုနိုင်သည်။
- ဂရပ်အခြေခံမော်ဒယ်များတွင် စကားလုံးများကြားတွင် ဝေါဟာရဆိုင်ရာ ဆက်စပ်မှုများကို တည်ဆောက်ရန်အတွက် ခေါင်းစဉ်ပုံစံကို အသုံးပြုနိုင်သည်။
- ဖောက်သည်၏စုံစမ်းမေးမြန်းမှုတွင် အဓိကစကားလုံးများကို ရှာဖွေတွေ့ရှိပြီး တုံ့ပြန်ခြင်းဖြင့် ဖောက်သည်ဝန်ဆောင်မှုကို မြှင့်တင်နိုင်သည်။ ဖောက်သည်များသည် ၎င်းတို့ကို သင့်လျော်သောအခိုက်အတန့်တွင် လိုအပ်သည့်အကူအညီနှင့် အနှောင့်အယှက်မဖြစ်စေဘဲ ပံ့ပိုးပေးသည့်အတွက်ကြောင့် ဝယ်ယူသူများသည် သင့်အား ယုံကြည်မှုပိုရှိလာမည်ဖြစ်သည်။ ရလဒ်အနေဖြင့် ဖောက်သည်များ၏ သစ္စာစောင့်သိမှု သိသိသာသာ မြင့်တက်လာပြီး ကုမ္ပဏီ၏တန်ဖိုးလည်း တိုးလာသည်။
ကောက်ချက်
Topic modeling သည် စာသားအစုအဝေးတွင်ရှိသော abstract “subjects” များကို ရှာဖွေဖော်ထုတ်ရန် အသုံးပြုသည့် ကိန်းဂဏန်းစံပြပုံစံတစ်မျိုးဖြစ်သည်။
၎င်းသည် ကိန်းဂဏန်းဆိုင်ရာ စံပြပုံစံတစ်ခုဖြစ်သည်။ စက်သင်ယူမှု စာသားအစုအဝေးတွင်ရှိသော စိတ္တဇအယူအဆများကို ဖော်ထုတ်ရန် သဘာဝဘာသာစကားဖြင့် လုပ်ဆောင်ခြင်း။
၎င်းသည် စာကိုယ်စာတွင် ငုပ်လျှိုးနေသော ဝေါဟာရပုံစံများကို ရှာဖွေရန် တွင်ကျယ်စွာ အသုံးပြုသည့် စာသားတူးဖော်ရေးနည်းလမ်းဖြစ်သည်။
တစ်ဦးစာပြန်ရန် Leave