មាតិកា[លាក់][បង្ហាញ]
ខ្ញុំប្រាកដថាអ្នកធ្លាប់បានឮអំពីបញ្ញាសិប្បនិមិត្ត ក៏ដូចជាពាក្យដូចជា ការរៀនម៉ាស៊ីន និងដំណើរការភាសាធម្មជាតិ (NLP)។
ជាពិសេសប្រសិនបើអ្នកធ្វើការឱ្យក្រុមហ៊ុនដែលគ្រប់គ្រងរាប់រយ បើមិនរាប់ពាន់នាក់នៃទំនាក់ទំនងអតិថិជនជារៀងរាល់ថ្ងៃ។
ការវិភាគទិន្នន័យនៃការបង្ហោះតាមប្រព័ន្ធផ្សព្វផ្សាយសង្គម អ៊ីមែល ការជជែក ការឆ្លើយតបការស្ទង់មតិបើកចំហ និងប្រភពផ្សេងទៀតមិនមែនជាដំណើរការសាមញ្ញនោះទេ ហើយវាកាន់តែលំបាកនៅពេលដែលត្រូវបានប្រគល់ឱ្យតែមនុស្សប៉ុណ្ណោះ។
នោះហើយជាមូលហេតុដែលមនុស្សជាច្រើនសាទរចំពោះសក្តានុពលនៃ ក្លែងបន្លំ សម្រាប់ការងារប្រចាំថ្ងៃរបស់ពួកគេ និងសម្រាប់សហគ្រាស។
ការវិភាគអត្ថបទដែលដំណើរការដោយ AI ប្រើប្រាស់វិធីសាស្រ្ត ឬក្បួនដោះស្រាយយ៉ាងទូលំទូលាយដើម្បីបកស្រាយភាសាសរីរាង្គ ដែលមួយក្នុងចំណោមនោះគឺជាការវិភាគប្រធានបទ ដែលត្រូវបានប្រើដើម្បីស្វែងរកប្រធានបទដោយស្វ័យប្រវត្តិពីអត្ថបទ។
អាជីវកម្មអាចប្រើគំរូការវិភាគប្រធានបទដើម្បីផ្ទេរការងារងាយស្រួលដាក់លើម៉ាស៊ីនជាជាងធ្វើឱ្យកម្មករលើសបន្ទុកជាមួយនឹងទិន្នន័យច្រើនពេក។
ពិចារណាថាតើពេលវេលាប៉ុន្មានដែលក្រុមរបស់អ្នកអាចសន្សំ និងលះបង់ចំពោះការងារសំខាន់ៗបន្ថែមទៀត ប្រសិនបើកុំព្យូទ័រអាចត្រងតាមរយៈបញ្ជីគ្មានទីបញ្ចប់នៃការស្ទង់មតិអតិថិជន ឬបញ្ហាជំនួយជារៀងរាល់ព្រឹក។
នៅក្នុងមគ្គុទ្ទេសក៍នេះ យើងនឹងពិនិត្យមើលលើការធ្វើគំរូតាមប្រធានបទ វិធីសាស្រ្តផ្សេងៗនៃការបង្កើតគំរូប្រធានបទ និងទទួលបានបទពិសោធន៍ខ្លះៗជាមួយវា។
អ្វីទៅជាការធ្វើគំរូតាមប្រធានបទ?
ការធ្វើគំរូតាមប្រធានបទ គឺជាប្រភេទនៃការជីកយករ៉ែអត្ថបទ ដែលមិនមានការត្រួតពិនិត្យ និងគ្រប់គ្រងដោយស្ថិតិ ការរៀនម៉ាស៊ីន បច្ចេកទេសត្រូវបានប្រើដើម្បីរកមើលនិន្នាការនៅក្នុងសាកសព ឬបរិមាណដ៏សំខាន់នៃអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធ។
វាអាចទទួលយកការប្រមូលឯកសារដ៏ធំរបស់អ្នក ហើយប្រើវិធីសាស្ត្រស្រដៀងគ្នា ដើម្បីរៀបចំពាក្យទៅជាចង្កោមពាក្យ និងស្វែងរកប្រធានបទ។
វាហាក់ដូចជាស្មុគ្រស្មាញ និងពិបាកបន្តិច ដូច្នេះសូមសម្រួលដល់ដំណើរការគំរូប្រធានបទ!
សន្មត់ថាអ្នកកំពុងអានកាសែតដែលមានឈុតពណ៌រំលេចនៅក្នុងដៃរបស់អ្នក។
វាមិនចាស់ទេ?
ខ្ញុំដឹងថាសព្វថ្ងៃនេះមានមនុស្សតិចណាស់ដែលអានកាសែតបោះពុម្ព។ អ្វីគ្រប់យ៉ាងគឺជាឌីជីថល ហើយឧបករណ៍បន្លិចគឺជារឿងអតីតកាល! ធ្វើពុតជាឪពុកឬម្តាយរបស់អ្នក!
ដូច្នេះ នៅពេលអ្នកអានកាសែត អ្នករំលេចពាក្យសំខាន់ៗ។
ការសន្មត់មួយទៀត!
អ្នកប្រើពណ៌លាំៗផ្សេងដើម្បីបញ្ជាក់ពាក្យគន្លឹះនៃស្បែកផ្សេងៗ។ អ្នកចាត់ថ្នាក់ពាក្យគន្លឹះអាស្រ័យលើពណ៌ និងប្រធានបទដែលបានផ្តល់។
បណ្តុំនៃពាក្យនីមួយៗដែលត្រូវបានសម្គាល់ដោយពណ៌ជាក់លាក់មួយគឺជាបញ្ជីនៃពាក្យគន្លឹះសម្រាប់ប្រធានបទដែលបានផ្តល់ឱ្យ។ ចំនួនពណ៌ផ្សេងៗដែលអ្នកជ្រើសរើសបង្ហាញពីចំនួនស្បែក។
នេះគឺជាគំរូប្រធានបទជាមូលដ្ឋានបំផុត។ វាជួយក្នុងការយល់ដឹង ការរៀបចំ និងការសង្ខេបនៃបណ្តុំអត្ថបទធំៗ។
ទោះជាយ៉ាងណាក៏ដោយ សូមចាំថាដើម្បីឱ្យមានប្រសិទ្ធភាព គំរូប្រធានបទស្វ័យប្រវត្តិត្រូវការមាតិកាច្រើន។ ប្រសិនបើអ្នកមានក្រដាសខ្លី អ្នកប្រហែលជាចង់ទៅសាលាចាស់ ហើយប្រើឧបករណ៍បន្លិច!
វាក៏មានប្រយោជន៍ផងដែរក្នុងការចំណាយពេលខ្លះដើម្បីដឹងពីទិន្នន័យ។ នេះនឹងផ្តល់ឱ្យអ្នកនូវការយល់ដឹងជាមូលដ្ឋានអំពីអ្វីដែលគំរូប្រធានបទគួរស្វែងរក។
ជាឧទាហរណ៍ កំណត់ហេតុប្រចាំថ្ងៃនោះអាចនិយាយអំពីទំនាក់ទំនងបច្ចុប្បន្ន និងពីមុនរបស់អ្នក។ ដូច្នេះហើយ ខ្ញុំនឹងរំពឹងថា មិត្តភ័ក្តិរ៉ូបូត-មិត្តភ័ក្តិ ក្នុងការជីករ៉ែអត្ថបទរបស់ខ្ញុំ នឹងមានគំនិតស្រដៀងគ្នា។
នេះអាចជួយអ្នកឱ្យវិភាគគុណភាពនៃមុខវិជ្ជាដែលអ្នកបានកំណត់ឱ្យកាន់តែប្រសើរឡើង ហើយប្រសិនបើចាំបាច់ កែប្រែសំណុំពាក្យគន្លឹះ។
ធាតុផ្សំនៃគំរូប្រធានបទ
គំរូប្រូបាប៊ីលីស
អថេរចៃដន្យ និងការចែកចាយប្រូបាប៊ីលីតេត្រូវបានដាក់បញ្ចូលទៅក្នុងតំណាងនៃព្រឹត្តិការណ៍ ឬបាតុភូតនៅក្នុងគំរូប្រូបាប៊ីលីតេ។
គំរូកំណត់ផ្តល់នូវការសន្និដ្ឋានសក្តានុពលតែមួយសម្រាប់ព្រឹត្តិការណ៍មួយ ចំណែកគំរូប្រូបាប៊ីលីតេផ្តល់នូវការចែកចាយប្រូបាប៊ីលីតេជាដំណោះស្រាយ។
គំរូទាំងនេះពិចារណាពីការពិតដែលយើងកម្រមានចំណេះដឹងពេញលេញអំពីស្ថានភាពមួយ។ ស្ទើរតែតែងតែមានធាតុផ្សំនៃភាពចៃដន្យដែលត្រូវពិចារណា។
ជាឧទាហរណ៍ ការធានារ៉ាប់រងអាយុជីវិតត្រូវបានព្យាករណ៍លើការពិតដែលយើងដឹងថាយើងនឹងស្លាប់ ប៉ុន្តែយើងមិនដឹងថានៅពេលណានោះទេ។ ម៉ូដែលទាំងនេះអាចកំណត់ដោយផ្នែក ចៃដន្យដោយផ្នែក ឬចៃដន្យទាំងស្រុង។
ការទាញយកព័ត៌មាន
ការទាញយកព័ត៌មាន (IR) គឺជាកម្មវិធីកម្មវិធីដែលរៀបចំ រក្សាទុក ទាញយក និងវាយតម្លៃព័ត៌មានពីឃ្លាំងឯកសារ ជាពិសេសព័ត៌មានជាអត្ថបទ។
បច្ចេកវិទ្យាជួយអ្នកប្រើប្រាស់ស្វែងរកព័ត៌មានដែលពួកគេត្រូវការ ប៉ុន្តែវាមិនបានផ្តល់ចម្លើយច្បាស់លាស់ចំពោះការសាកសួររបស់ពួកគេនោះទេ។ វាជូនដំណឹងអំពីវត្តមាន និងទីតាំងនៃឯកសារដែលអាចផ្តល់ព័ត៌មានចាំបាច់។
ឯកសារដែលពាក់ព័ន្ធគឺជាឯកសារដែលបំពេញតម្រូវការរបស់អ្នកប្រើប្រាស់។ ប្រព័ន្ធ IR ដែលគ្មានកំហុសនឹងត្រឡប់តែឯកសារដែលបានជ្រើសរើសប៉ុណ្ណោះ។
ប្រធានបទទាក់ទង
Topic Coherence ផ្តល់ពិន្ទុលើប្រធានបទតែមួយដោយគណនាកម្រិតនៃភាពស្រដៀងគ្នានៃអត្ថន័យរវាងពាក្យដែលមានពិន្ទុខ្ពស់របស់ប្រធានបទ។ រង្វាស់ទាំងនេះជួយក្នុងការបែងចែករវាងប្រធានបទដែលអាចបកស្រាយបានតាមន័យធៀប និងប្រធានបទដែលជាវត្ថុបុរាណនៃការសន្និដ្ឋានស្ថិតិ។
ប្រសិនបើក្រុមនៃការអះអាង ឬអង្គហេតុគាំទ្រគ្នាទៅវិញទៅមក ពួកគេត្រូវបានគេនិយាយថាមានភាពស៊ីសង្វាក់គ្នា។
ជាលទ្ធផល សំណុំការពិតដ៏ស្អិតរមួតមួយអាចត្រូវបានយល់នៅក្នុងបរិបទដែលរួមបញ្ចូលការពិតទាំងអស់ ឬភាគច្រើន។ "ហ្គេមគឺជាកីឡាជាក្រុម" "ហ្គេមត្រូវបានលេងដោយបាល់" និង "ហ្គេមតម្រូវឱ្យមានការខិតខំប្រឹងប្រែងខាងរាងកាយយ៉ាងខ្លាំង" គឺជាឧទាហរណ៍ទាំងអស់នៃសំណុំការពិតដែលស្អិតរមួត។
វិធីសាស្រ្តផ្សេងគ្នានៃគំរូប្រធានបទ
នីតិវិធីដ៏សំខាន់នេះអាចត្រូវបានអនុវត្តដោយភាពខុសគ្នានៃក្បួនដោះស្រាយ ឬវិធីសាស្រ្ត។ ក្នុងចំណោមពួកគេមាន៖
- ការបែងចែកឌីជីថលឌីលីចឡេត (លីឌី)
- កត្តាម៉ាទ្រីសមិនអវិជ្ជមាន (NMF)
- ការវិភាគពាក្យសំដីមិនទាន់ឃើញច្បាស់ (LSA)
- ការវិភាគអក្ខរាវិរុទ្ធភាពមិនច្បាស់លាស់ដែលអាចកើតមាន (pLSA)
ការបែងចែក Dirichlet មិនទាន់ឃើញច្បាស់ (LDA)
ដើម្បីស្វែងរកទំនាក់ទំនងរវាងអត្ថបទជាច្រើននៅក្នុងសារពាង្គកាយមួយ គំនិតស្ថិតិ និងក្រាហ្វិកនៃការបែងចែក Dirichlet មិនទាន់ឃើញច្បាស់ត្រូវបានប្រើ។
ដោយប្រើវិធីសាស្ត្របំរែបំរួលបំរែបំរួលបំរែបំរួលអតិបរមា (VEM) ការប៉ាន់ប្រមាណលទ្ធភាពធំបំផុតពីសារពាង្គកាយពេញលេញនៃអត្ថបទត្រូវបានសម្រេច។
ជាប្រពៃណី ពាក្យពីរបីកំពូលពីថង់ពាក្យមួយត្រូវបានជ្រើសរើស។
ទោះជាយ៉ាងណាក៏ដោយ ប្រយោគនេះគឺគ្មានន័យទាំងស្រុង។
យោងតាមបច្ចេកទេសនេះ អត្ថបទនីមួយៗនឹងត្រូវបានតំណាងដោយការចែកចាយប្រូបាប៊ីលីតេនៃប្រធានបទ ហើយប្រធានបទនីមួយៗដោយការចែកចាយប្រូបាប៊ីលីតេនៃពាក្យ។
កត្តាម៉ាទ្រីសមិនអវិជ្ជមាន (NMF)
ម៉ាទ្រីសដែលមានកត្តាតម្លៃមិនអវិជ្ជមានគឺជាវិធីសាស្ត្រទាញយកលក្ខណៈពិសេសចុងក្រោយ។
នៅពេលដែលមានគុណសម្បត្តិជាច្រើន ហើយគុណលក្ខណៈមានភាពមិនច្បាស់លាស់ ឬមានការព្យាករណ៍មិនល្អ NMF មានអត្ថប្រយោជន៍។ NMF អាចបង្កើតគំរូ ប្រធានបទ ឬប្រធានបទសំខាន់ៗដោយការរួមបញ្ចូលគ្នារវាងលក្ខណៈ។
NMF បង្កើតលក្ខណៈពិសេសនីមួយៗជាការរួមបញ្ចូលគ្នាលីនេអ៊ែរនៃសំណុំគុណលក្ខណៈដើម។
លក្ខណៈពិសេសនីមួយៗមានសំណុំនៃមេគុណដែលតំណាងឱ្យសារៈសំខាន់នៃគុណលក្ខណៈនីមួយៗនៅលើលក្ខណៈពិសេស។ គុណលក្ខណៈលេខនីមួយៗ និងតម្លៃនីមួយៗនៃគុណលក្ខណៈប្រភេទនីមួយៗមានមេគុណរៀងៗខ្លួន។
មេគុណទាំងអស់គឺវិជ្ជមាន។
ការវិភាគពាក្យអសុរស
វាគឺជាវិធីសាស្រ្តសិក្សាដែលមិនមានការត្រួតពិនិត្យមួយផ្សេងទៀតដែលត្រូវបានប្រើដើម្បីទាញយកការផ្សារភ្ជាប់គ្នារវាងពាក្យនៅក្នុងសំណុំនៃឯកសារមួយគឺការវិភាគន័យមិនច្បាស់លាស់។
នេះជួយយើងជ្រើសរើសឯកសារត្រឹមត្រូវ។ មុខងារចម្បងរបស់វាគឺកាត់បន្ថយវិមាត្រនៃសារពាង្គកាយដ៏ធំសម្បើមនៃទិន្នន័យអត្ថបទ។
ទិន្នន័យដែលមិនចាំបាច់ទាំងនេះបម្រើជាសំលេងរំខានផ្ទៃខាងក្រោយក្នុងការទទួលបានការយល់ដឹងចាំបាច់ពីទិន្នន័យ។
ការវិភាគអក្ខរាវិរុទ្ធភាពមិនច្បាស់លាស់ដែលអាចកើតមាន (pLSA)
ការវិភាគអត្ថន័យដែលមិនទាន់ឃើញច្បាស់ (PLSA) ដែលជួនកាលគេស្គាល់ថាជាលិបិក្រមអត្ថន័យដែលមិនទាន់ឃើញច្បាស់ប្រូបាប៊ីលីស (PLSI ជាពិសេសនៅក្នុងរង្វង់ការទាញយកព័ត៌មាន) គឺជាវិធីសាស្រ្តស្ថិតិសម្រាប់ការវិភាគទិន្នន័យរបៀបពីរ និងទិន្នន័យដែលកើតឡើងរួមគ្នា។
តាមការពិត ស្រដៀងទៅនឹងការវិភាគអថេរមិនទាន់ឃើញច្បាស់ ដែល PLSA ផុសឡើង តំណាងវិមាត្រទាបនៃអថេរដែលបានសង្កេតអាចមកពីភាពស្និទ្ធស្នាលរបស់ពួកគេចំពោះអថេរលាក់កំបាំងជាក់លាក់។
ដំណើរការជាមួយការធ្វើគំរូប្រធានបទនៅក្នុង Python
ឥឡូវនេះ ខ្ញុំនឹងណែនាំអ្នកតាមរយៈកិច្ចការគំរូប្រធានបទជាមួយ Python ភាសាសរសេរកម្មវិធី ដោយប្រើឧទាហរណ៍ជាក់ស្តែង។
ខ្ញុំនឹងធ្វើគំរូអត្ថបទស្រាវជ្រាវ។ សំណុំទិន្នន័យដែលខ្ញុំនឹងប្រើនៅទីនេះគឺមកពី kaggle.com។ អ្នកអាចទទួលបានឯកសារទាំងអស់ដែលខ្ញុំកំពុងប្រើក្នុងការងារនេះយ៉ាងងាយស្រួលពីនេះ។ ទំព័រ.
តោះចាប់ផ្តើមជាមួយ Topic Modeling ដោយប្រើ Python ដោយនាំចូលបណ្ណាល័យសំខាន់ៗទាំងអស់៖
ជំហានខាងក្រោមគឺត្រូវអានសំណុំទិន្នន័យទាំងអស់ដែលខ្ញុំនឹងប្រើក្នុងកិច្ចការនេះ៖
ការវិភាគទិន្ន័យ
EDA (ការវិភាគទិន្នន័យរុករក) គឺជាវិធីសាស្ត្រស្ថិតិដែលប្រើធាតុដែលមើលឃើញ។ វាប្រើការសង្ខេបស្ថិតិ និងតំណាងក្រាហ្វិកដើម្បីស្វែងរកនិន្នាការ គំរូ និងការសន្មត់សាកល្បង។
ខ្ញុំនឹងធ្វើការវិភាគទិន្នន័យរុករកមួយចំនួន មុនពេលខ្ញុំចាប់ផ្តើមការធ្វើគំរូប្រធានបទ ដើម្បីមើលថាតើមានគំរូ ឬទំនាក់ទំនងណាមួយក្នុងទិន្នន័យ៖
ឥឡូវនេះយើងនឹងរកឃើញតម្លៃ null នៃសំណុំទិន្នន័យសាកល្បង៖
ឥឡូវនេះខ្ញុំនឹងរៀបចំផែនការអ៊ីស្តូក្រាម និងប្រអប់គ្រោង ដើម្បីពិនិត្យមើលទំនាក់ទំនងរវាងអថេរ។
ចំនួនតួអក្សរនៅក្នុង Abstracts of the Train set ប្រែប្រួលយ៉ាងខ្លាំង។
នៅលើរថភ្លើង យើងមានយ៉ាងហោចណាស់ 54 និងអតិបរមា 4551 តួអក្សរ។ 1065 គឺជាចំនួនមធ្យមនៃតួអក្សរ។
ឈុតសាកល្បងមើលទៅគួរអោយចាប់អារម្មណ៍ជាងឈុតហ្វឹកហាត់ព្រោះថាឈុតសាកល្បងមាន 46 តួ ខណៈឈុតហ្វឹកហាត់មាន 2841 ។
ជាលទ្ធផល សំណុំតេស្តនេះមានតួអក្សរមធ្យមចំនួន 1058 ដែលស្រដៀងនឹងសំណុំបណ្តុះបណ្តាល។
ចំនួនពាក្យក្នុងសំណុំការសិក្សាមានលំនាំស្រដៀងគ្នានឹងចំនួនអក្សរ។
យ៉ាងហោចណាស់ 8 ពាក្យ និងអតិបរមា 665 ពាក្យត្រូវបានអនុញ្ញាត។ ជាលទ្ធផលចំនួនពាក្យមធ្យមគឺ 153 ។
អប្បបរមានៃពាក្យប្រាំពីរនៅក្នុងអរូបីមួយនិងអតិបរមានៃ 452 ពាក្យនៅក្នុងសំណុំសាកល្បងត្រូវបានទាមទារ។
មធ្យមភាគក្នុងករណីនេះគឺ 153 ដែលដូចគ្នាបេះបិទទៅនឹងមធ្យមភាគក្នុងសំណុំហ្វឹកហាត់។
ការប្រើប្រាស់ស្លាកសម្រាប់ការធ្វើគំរូប្រធានបទ
មានយុទ្ធសាស្ត្រគំរូប្រធានបទជាច្រើន។ ខ្ញុំនឹងប្រើស្លាកនៅក្នុងលំហាត់នេះ; តោះមើលរបៀបធ្វើដូច្នេះដោយពិនិត្យស្លាកសញ្ញា៖
ការអនុវត្តប្រធានបទគំរូ
- សេចក្តីសង្ខេបអត្ថបទអាចត្រូវបានប្រើដើម្បីស្វែងយល់ពីប្រធានបទនៃឯកសារ ឬសៀវភៅ។
- វាអាចត្រូវបានប្រើដើម្បីលុបភាពលំអៀងរបស់បេក្ខជនចេញពីពិន្ទុប្រឡង។
- គំរូប្រធានបទអាចត្រូវបានប្រើប្រាស់ដើម្បីបង្កើតទំនាក់ទំនងតាមន័យធៀបរវាងពាក្យនៅក្នុងគំរូតាមក្រាហ្វ។
- វាអាចបង្កើនសេវាកម្មអតិថិជនដោយការរកឃើញ និងឆ្លើយតបទៅនឹងពាក្យគន្លឹះនៅក្នុងការសាកសួររបស់អតិថិជន។ អតិថិជននឹងមានជំនឿលើអ្នកកាន់តែច្រើន ចាប់តាំងពីអ្នកបានផ្តល់ជំនួយដែលពួកគេត្រូវការនៅពេលសមស្រប និងដោយមិនធ្វើឱ្យពួកគេមានបញ្ហាអ្វីឡើយ។ ជាលទ្ធផល ភាពស្មោះត្រង់របស់អតិថិជនកើនឡើងយ៉ាងខ្លាំង ហើយតម្លៃរបស់ក្រុមហ៊ុនក៏កើនឡើង។
សន្និដ្ឋាន
ការធ្វើគំរូតាមប្រធានបទគឺជាប្រភេទនៃការធ្វើគំរូស្ថិតិដែលប្រើដើម្បីបង្ហាញ "ប្រធានបទ" អរូបីដែលមាននៅក្នុងបណ្តុំនៃអត្ថបទ។
វាគឺជាទម្រង់នៃគំរូស្ថិតិដែលប្រើក្នុង ការរៀនម៉ាស៊ីន និងដំណើរការភាសាធម្មជាតិ ដើម្បីបង្ហាញពីគំនិតអរូបីដែលមាននៅក្នុងសំណុំនៃអត្ថបទ។
វាគឺជាវិធីសាស្រ្តរុករកអត្ថបទដែលត្រូវបានគេប្រើយ៉ាងទូលំទូលាយដើម្បីស្វែងរកគំរូ semantic មិនទាន់ឃើញច្បាស់នៅក្នុងអត្ថបទតួ។
សូមផ្ដល់យោបល់