យើងចំណាយពេលច្រើនក្នុងការប្រាស្រ័យទាក់ទងជាមួយមនុស្សតាមអ៊ីនធឺណិតតាមរយៈការជជែក អ៊ីមែល គេហទំព័រ និងប្រព័ន្ធផ្សព្វផ្សាយសង្គម។
បរិមាណដ៏ធំនៃទិន្នន័យអត្ថបទដែលយើងផលិតរាល់វិនាទីគេចផុតពីការយកចិត្តទុកដាក់របស់យើង ប៉ុន្តែមិនមែនតែងតែទេ។
សកម្មភាព និងការវាយតម្លៃរបស់អតិថិជនផ្តល់ឱ្យអង្គភាពនូវព័ត៌មានដែលមិនអាចកាត់ថ្លៃបានអំពីអ្វីដែលអតិថិជនផ្តល់តម្លៃ និងការមិនយល់ព្រមចំពោះទំនិញ និងសេវាកម្ម ក៏ដូចជាអ្វីដែលពួកគេចង់បានពីម៉ាកយីហោ។
ទោះជាយ៉ាងណាក៏ដោយ អាជីវកម្មភាគច្រើននៅតែមានការលំបាកក្នុងការកំណត់វិធីសាស្ត្រដ៏មានប្រសិទ្ធភាពបំផុតសម្រាប់ការវិភាគទិន្នន័យ។
ដោយសារទិន្នន័យភាគច្រើនមិនមានរចនាសម្ព័ន្ធ កុំព្យូទ័រមានការលំបាកក្នុងការយល់ដឹងអំពីវា ហើយការតម្រៀបដោយដៃវានឹងចំណាយពេលច្រើន។
ដំណើរការទិន្នន័យជាច្រើនដោយដៃក្លាយជាកម្លាំងពលកម្ម ឯកកោ និងមិនអាចធ្វើមាត្រដ្ឋានបាននៅពេលដែលក្រុមហ៊ុនពង្រីក។
អរគុណណាស់ ការដំណើរការភាសាធម្មជាតិអាចជួយអ្នកក្នុងការស្វែងរកព័ត៌មានដ៏ស៊ីជម្រៅនៅក្នុងអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធ និងដោះស្រាយបញ្ហាការវិភាគអត្ថបទជាច្រើន រួមទាំង ការវិភាគមនោសញ្ចេតនាការចាត់ថ្នាក់ប្រធានបទ និងច្រើនទៀត។
ការធ្វើឱ្យភាសាមនុស្សអាចយល់បានចំពោះម៉ាស៊ីន គឺជាគោលដៅនៃវិស័យបញ្ញាសិប្បនិមិត្តនៃដំណើរការភាសាធម្មជាតិ (NLP) ដែលប្រើប្រាស់ភាសាវិទ្យា និងវិទ្យាសាស្ត្រកុំព្យូទ័រ។
NLP អនុញ្ញាតឱ្យកុំព្យូទ័រធ្វើការវាយតម្លៃដោយស្វ័យប្រវត្តិនូវចំនួនទិន្នន័យដ៏ធំសម្បើម ដែលធ្វើឱ្យវាអាចធ្វើទៅបានសម្រាប់អ្នកក្នុងការកំណត់អត្តសញ្ញាណព័ត៌មានដែលពាក់ព័ន្ធយ៉ាងឆាប់រហ័ស។
អត្ថបទដែលមិនមានរចនាសម្ព័ន្ធ (ឬប្រភេទភាសាធម្មជាតិផ្សេងទៀត) អាចត្រូវបានប្រើជាមួយនឹងបច្ចេកវិទ្យាជាច្រើន ដើម្បីបង្ហាញព័ត៌មានដ៏ស៊ីជម្រៅ និងដោះស្រាយបញ្ហាមួយចំនួន។
ទោះបីជាមិនមានមធ្យោបាយទូលំទូលាយក៏ដោយ បញ្ជីឧបករណ៍ប្រភពបើកចំហដែលបានបង្ហាញខាងក្រោមគឺជាកន្លែងដ៏អស្ចារ្យមួយដើម្បីចាប់ផ្តើមសម្រាប់នរណាម្នាក់ ឬស្ថាប័នណាមួយដែលចាប់អារម្មណ៍ក្នុងការប្រើប្រាស់ដំណើរការភាសាធម្មជាតិនៅក្នុងគម្រោងរបស់ពួកគេ។
1. អិនអិលធី
មនុស្សម្នាក់អាចប្រកែកបានថា Natural Language Toolkit (NLTK) គឺជាឧបករណ៍ដែលមានលក្ខណៈពិសេសបំផុតដែលខ្ញុំបានមើល។
ស្ទើរតែទាំងអស់នៃបច្ចេកទេស NLP ត្រូវបានអនុវត្ត រួមទាំងការចាត់ថ្នាក់ សញ្ញាសម្ងាត់ ដើម ការដាក់ស្លាក ញែក និងហេតុផលតាមន័យ។
អ្នកអាចជ្រើសរើសក្បួនដោះស្រាយច្បាស់លាស់ ឬវិធីសាស្រ្តដែលអ្នកចង់ប្រើ ព្រោះវាជាញឹកញាប់មានការអនុវត្តជាច្រើនសម្រាប់នីមួយៗ។
ភាសាជាច្រើនត្រូវបានគាំទ្រផងដែរ។ ទោះបីជាវាល្អសម្រាប់រចនាសម្ព័ន្ធសាមញ្ញក៏ដោយ ការពិតដែលថាវាតំណាងឱ្យទិន្នន័យទាំងអស់ជាខ្សែអក្សរធ្វើឱ្យវាពិបាកក្នុងការអនុវត្តសមត្ថភាពស្មុគ្រស្មាញមួយចំនួន។
បើប្រៀបធៀបទៅនឹងឧបករណ៍ផ្សេងទៀត បណ្ណាល័យក៏យឺតបន្តិចដែរ។
អ្វីៗទាំងអស់ដែលបានពិចារណា នេះគឺជាឧបករណ៍ដ៏ល្អសម្រាប់ការពិសោធន៍ ការរុករក និងកម្មវិធីដែលតម្រូវឱ្យមានការលាយបញ្ចូលគ្នាជាក់លាក់នៃក្បួនដោះស្រាយ។
គុណសម្បត្តិ
- វាគឺជាបណ្ណាល័យ NLP ដែលពេញនិយមបំផុត និងពេញលេញជាមួយនឹងការបន្ថែមទីបីជាច្រើន។
- បើប្រៀបធៀបទៅនឹងបណ្ណាល័យផ្សេងទៀត វាគាំទ្រភាសាភាគច្រើន។
គុណវិបត្តិ
- ពិបាកយល់ និងប្រើប្រាស់
- វាយឺត
- មិនមានម៉ូដែល បណ្តាញសរសៃប្រសាទ
- វាគ្រាន់តែបែងចែកអត្ថបទទៅជាប្រយោគ ដោយមិនគិតពីអត្ថន័យ
2. លំហ
SpaCy គឺជាគូប្រជែងកំពូលទំនងបំផុតរបស់ NLTK ។ ទោះបីជាវាគ្រាន់តែជាការអនុវត្តមួយសម្រាប់សមាសធាតុ NLP នីមួយៗក៏ដោយ ជាទូទៅវាលឿនជាង។
លើសពីនេះទៀត អ្វីគ្រប់យ៉ាងត្រូវបានតំណាងជាវត្ថុជាជាងខ្សែអក្សរ ដែលសម្រួលដល់ចំណុចប្រទាក់សម្រាប់ការអភិវឌ្ឍន៍កម្មវិធី។
ការយល់កាន់តែស៊ីជម្រៅនៃទិន្នន័យអត្ថបទរបស់អ្នកនឹងអាចឱ្យអ្នកសម្រេចបានកាន់តែច្រើន។
នេះក៏ធ្វើឱ្យវាកាន់តែងាយស្រួលសម្រាប់វាក្នុងការភ្ជាប់ជាមួយក្របខ័ណ្ឌ និងឧបករណ៍វិទ្យាសាស្ត្រទិន្នន័យផ្សេងទៀត។ ប៉ុន្តែបើប្រៀបធៀបទៅនឹង NNTK, SpaCy មិនគាំទ្រភាសាច្រើនទេ។
វាបង្ហាញនូវគំរូសរសៃប្រសាទជាច្រើនសម្រាប់ទិដ្ឋភាពផ្សេងគ្នានៃដំណើរការភាសា និងការវិភាគ ក៏ដូចជាចំណុចប្រទាក់អ្នកប្រើប្រាស់ត្រង់ៗជាមួយនឹងជម្រើសចម្រុះ និងឯកសារដ៏ល្អឥតខ្ចោះ។
លើសពីនេះ SpaCy ត្រូវបានបង្កើតឡើងដើម្បីផ្ទុកទិន្នន័យយ៉ាងច្រើន ហើយត្រូវបានចងក្រងជាឯកសារយ៉ាងម៉ត់ចត់បំផុត។
វាក៏រួមបញ្ចូលផងដែរនូវគំរូជាច្រើនសម្រាប់ដំណើរការភាសាធម្មជាតិដែលត្រូវបានបណ្តុះបណ្តាលរួចហើយ ដែលធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការរៀន បង្រៀន និងប្រើប្រាស់ដំណើរការភាសាធម្មជាតិជាមួយ SpaCy។
សរុបមក នេះគឺជាឧបករណ៍ដ៏ល្អសម្រាប់កម្មវិធីថ្មីដែលមិនត្រូវការវិធីសាស្រ្តជាក់លាក់ ហើយត្រូវការដំណើរការក្នុងផលិតកម្ម។
គុណសម្បត្តិ
- បើធៀបនឹងអ្វីផ្សេងទៀតគឺលឿន។
- ការរៀននិងប្រើវាគឺសាមញ្ញ។
- ម៉ូដែលត្រូវបានបណ្តុះបណ្តាលដោយប្រើបណ្តាញសរសៃប្រសាទ
គុណវិបត្តិ
- អាដាប់ធ័រតិចជាងបើប្រៀបធៀបទៅនឹង NLTK
3. Gensim
វិធីសាស្រ្តដ៏មានប្រសិទ្ធភាព និងងាយស្រួលបំផុតក្នុងការបញ្ចេញឯកសារជាវ៉ិចទ័រ semantic ត្រូវបានសម្រេចដោយប្រើក្របខ័ណ្ឌ Open-source Python ដែលត្រូវបានគេស្គាល់ថា Gensim ។
Gensim ត្រូវបានបង្កើតឡើងដោយអ្នកនិពន្ធដើម្បីគ្រប់គ្រងអត្ថបទធម្មតាដែលមិនមានរចនាសម្ព័ន្ធដោយប្រើជួរ ការរៀនម៉ាស៊ីន វិធីសាស្រ្ត; ដូច្នេះ វាជាគំនិតដ៏ឆ្លាតវៃក្នុងការប្រើ Gensim ដើម្បីដោះស្រាយការងារដូចជា Topic Modelling ។
លើសពីនេះទៀត Gensim មានប្រសិទ្ធភាពស្វែងរកភាពស្រដៀងគ្នានៃអត្ថបទ ធ្វើលិបិក្រមមាតិកា និងរុករករវាងអត្ថបទផ្សេងៗគ្នា។
វាជាឯកទេសខ្ពស់។ បណ្ណាល័យ Python ផ្តោតលើកិច្ចការគំរូប្រធានបទដោយប្រើ Latent Dirichlet Allocation និងវិធីសាស្រ្ត LDA ផ្សេងទៀត។
លើសពីនេះទៀត វាពិតជាល្អណាស់ក្នុងការស្វែងរកអត្ថបទដែលស្រដៀងនឹងគ្នាទៅវិញទៅមក បង្កើតលិបិក្រមអត្ថបទ និងរុករកតាមក្រដាស។
ឧបករណ៍នេះគ្រប់គ្រងទិន្នន័យយ៉ាងច្រើនប្រកបដោយប្រសិទ្ធភាព និងរហ័ស។ នេះគឺជាមេរៀនចាប់ផ្តើមមួយចំនួន។
គុណសម្បត្តិ
- ចំណុចប្រទាក់អ្នកប្រើសាមញ្ញ
- ការប្រើប្រាស់ប្រកបដោយប្រសិទ្ធភាពនៃក្បួនដោះស្រាយល្បី
- នៅលើកុំព្យូទ័រមួយក្រុម វាអាចធ្វើការបែងចែក Dirichlet មិនទាន់ឃើញច្បាស់ និងការវិភាគ semantic មិនទាន់ឃើញច្បាស់។
គុណវិបត្តិ
- ភាគច្រើនវាត្រូវបានបម្រុងទុកសម្រាប់ការធ្វើគំរូអត្ថបទដែលមិនមានការត្រួតពិនិត្យ។
- វាខ្វះបំពង់ NLP ពេញលេញ ហើយគួរតែត្រូវបានប្រើដោយភ្ជាប់ជាមួយបណ្ណាល័យផ្សេងទៀតដូចជា Spacy ឬ NLTK ។
4. TextBlob
TextBlob គឺជាប្រភេទនៃផ្នែកបន្ថែម NLTK ។
តាមរយៈ TextBlob អ្នកអាចចូលប្រើមុខងារ NLTK ជាច្រើនបានកាន់តែងាយស្រួល ហើយ TextBlob ក៏រួមបញ្ចូលនូវមុខងារ Pattern Library ផងដែរ។
នេះអាចជាឧបករណ៍មានប្រយោជន៍ក្នុងការប្រើពេលកំពុងសិក្សា ប្រសិនបើអ្នកទើបតែចាប់ផ្តើម ហើយវាអាចត្រូវបានប្រើនៅក្នុងការផលិតសម្រាប់កម្មវិធីដែលមិនទាមទារឱ្យមានដំណើរការច្រើន។
វាផ្តល់នូវចំណុចប្រទាក់ងាយស្រួលប្រើ និងងាយស្រួលជាងសម្រាប់អនុវត្តមុខងារ NLP ដូចគ្នា។
វាជាជម្រើសដ៏ល្អសម្រាប់អ្នកទើបចាប់ផ្តើមថ្មីដែលចង់ធ្វើកិច្ចការ NLP ដូចជាការវិភាគមនោសញ្ចេតនា ការបែងចែកអត្ថបទ និងការដាក់ស្លាកជាផ្នែកនៃការនិយាយ ពីព្រោះខ្សែកោងនៃការសិក្សារបស់វាតិចជាងឧបករណ៍ប្រភពបើកចំហផ្សេងទៀត។
TextBlob ត្រូវបានគេប្រើយ៉ាងទូលំទូលាយនិងល្អឥតខ្ចោះសម្រាប់គម្រោងតូចជារួម។
គុណសម្បត្តិ
- ចំណុចប្រទាក់អ្នកប្រើរបស់បណ្ណាល័យគឺសាមញ្ញ និងច្បាស់លាស់។
- វាផ្តល់សេវាកម្មកំណត់អត្តសញ្ញាណភាសា និងការបកប្រែដោយប្រើ Google Translate ។
គុណវិបត្តិ
- បើប្រៀបធៀបទៅនឹងអ្នកដទៃ វាយឺតណាស់។
- មិនមានគំរូនៃបណ្តាញសរសៃប្រសាទទេ។
- គ្មានវ៉ិចទ័រពាក្យរួមបញ្ចូលគ្នាទេ។
5. អិលអិនអិលអិន
វាសាមញ្ញក្នុងការបញ្ចូល OpenNLP ជាមួយគម្រោង Apache ផ្សេងទៀតដូចជា Apache Flink, Apache NiFi និង Apache Spark ព្រោះវាត្រូវបានរៀបចំឡើងដោយ Apache Foundation ។
វាគឺជាឧបករណ៍ NLP ដ៏ទូលំទូលាយដែលអាចប្រើបានពីបន្ទាត់ពាក្យបញ្ជា ឬជាបណ្ណាល័យនៅក្នុងកម្មវិធីមួយ។
វារួមបញ្ចូលទាំងសមាសធាតុដំណើរការទូទៅរបស់ NLP ទាំងអស់។
លើសពីនេះទៀតវាផ្តល់នូវការគាំទ្រភាសាយ៉ាងទូលំទូលាយ។ ប្រសិនបើអ្នកកំពុងប្រើ Java នោះ OpenNLP គឺជាឧបករណ៍ដ៏រឹងមាំមួយដែលមានសមត្ថភាពជាច្រើនដែលត្រូវបានរៀបចំសម្រាប់បន្ទុកផលិតកម្ម។
បន្ថែមពីលើការបើកដំណើរការកិច្ចការ NLP ធម្មតាបំផុតដូចជា សញ្ញាសម្ងាត់ ការបែងចែកប្រយោគ និងការដាក់ស្លាកជាផ្នែកនៃការនិយាយ OpenNLP អាចត្រូវបានប្រើដើម្បីបង្កើតកម្មវិធីដំណើរការអត្ថបទដែលស្មុគស្មាញជាងមុន។
Entropy អតិបរមា និងការរៀនម៉ាស៊ីនផ្អែកលើ perceptron ត្រូវបានរួមបញ្ចូលផងដែរ។
គុណសម្បត្តិ
- ឧបករណ៍បណ្តុះបណ្តាលគំរូមួយដែលមានលក្ខណៈពិសេសជាច្រើន។
- ផ្តោតលើកិច្ចការ NLP ជាមូលដ្ឋាន និងពូកែនៅពួកវា រួមទាំងការកំណត់អត្តសញ្ញាណអង្គភាព ការរកឃើញឃ្លា និងសញ្ញាសម្ងាត់។
គុណវិបត្តិ
- ខ្វះសមត្ថភាពស្មុគ្រស្មាញ; ប្រសិនបើអ្នកចង់បន្តជាមួយ JVM ការផ្លាស់ប្តូរទៅ CoreNLP គឺជាជំហានធម្មជាតិបន្ទាប់។
6. AllenNLP
AllenNLP គឺល្អសម្រាប់កម្មវិធីពាណិជ្ជកម្ម និងការវិភាគទិន្នន័យចាប់តាំងពីវាត្រូវបានបង្កើតឡើងនៅលើឧបករណ៍ និងធនធាន PyTorch ។
វាអភិវឌ្ឍទៅជាឧបករណ៍គ្រប់ជ្រុងជ្រោយសម្រាប់ការវិភាគអត្ថបទ។
នេះធ្វើឱ្យវាក្លាយជាឧបករណ៍ដំណើរការភាសាធម្មជាតិដ៏ទំនើបមួយរបស់បញ្ជី។ ខណៈពេលដែលកំពុងបំពេញការងារផ្សេងទៀតដោយឯករាជ្យ AllenNLP ដំណើរការទិន្នន័យជាមុនដោយប្រើកញ្ចប់ប្រភពបើកចំហរ SpaCy ឥតគិតថ្លៃ។
ចំណុចលក់សំខាន់របស់ AllenNLP គឺរបៀបដែលវាងាយស្រួលប្រើ។
AllenNLP សម្រួលដំណើរការដំណើរការភាសាធម្មជាតិ ផ្ទុយពីកម្មវិធី NLP ផ្សេងទៀតដែលរួមបញ្ចូលម៉ូឌុលជាច្រើន។
ជាលទ្ធផល លទ្ធផលលទ្ធផលមិនដែលមានអារម្មណ៍ច្របូកច្របល់ឡើយ។ វាជាឧបករណ៍ដ៏អស្ចារ្យសម្រាប់អ្នកដែលគ្មានចំណេះដឹងច្រើន។
គុណសម្បត្តិ
- បង្កើតឡើងនៅលើកំពូលនៃ PyTorch
- ល្អបំផុតសម្រាប់ការរុករក និងពិសោធន៍ដោយប្រើម៉ូដែលទំនើប
- វាអាចប្រើបានទាំងពាណិជ្ជកម្ម និងការសិក្សា
គុណវិបត្តិ
- មិនស័ក្តិសមសម្រាប់គម្រោងខ្នាតធំដែលបច្ចុប្បន្នកំពុងផលិត។
សន្និដ្ឋាន
ក្រុមហ៊ុនកំពុងប្រើបច្ចេកទេស NLP ដើម្បីទាញយកការយល់ដឹងពីទិន្នន័យអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធដូចជាអ៊ីមែល ការពិនិត្យលើអ៊ីនធឺណិត។ ប្រព័ន្ធផ្សព្វផ្សាយសង្គម ការបង្ហោះ និងច្រើនទៀត។ ឧបករណ៍ប្រភពបើកចំហគឺមិនគិតថ្លៃ ដែលអាចសម្របខ្លួនបាន និងផ្តល់ឱ្យអ្នកអភិវឌ្ឍន៍នូវជម្រើសការប្ដូរតាមបំណងពេញលេញ។
តើអ្នកកំពុងរង់ចាំអ្វី? ប្រើពួកវាភ្លាមៗ ហើយបង្កើតអ្វីដែលមិនគួរឱ្យជឿ។
រីករាយកូដ
សូមផ្ដល់យោបល់