ការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ (NER)

មាតិកា[លាក់][បង្ហាញ]

តើ NER (Nameed Entity Recognition) ជាអ្វី?
តើ NER មានសារៈសំខាន់អ្វីខ្លះ?+-
កម្មវិធីពិភពពិតនៃ NER+-
APIs ស្រង់ចេញរបស់អង្គភាពល្អបំផុត+-
សន្និដ្ឋាន

យើងមានសមត្ថភាពពីកំណើតក្នុងការទទួលស្គាល់ និងចាត់ថ្នាក់ពាក្យទៅជាបុគ្គល ទីកន្លែង ទីតាំង តម្លៃ និងច្រើនទៀតនៅពេលណាដែលយើងឮ ឬអានវា។ មនុស្សអាចបែងចែក កំណត់អត្តសញ្ញាណ និងយល់ពាក្យបានលឿន។

ជាឧទាហរណ៍ អ្នកអាចចាត់ថ្នាក់វត្ថុមួយ ហើយបង្កើតបានយ៉ាងរហ័សនូវគុណសម្បត្ដិយ៉ាងហោចណាស់ XNUMX ទៅ XNUMX នៅពេលអ្នកឮឈ្មោះ "Steve Jobs"។

មនុស្ស៖ "Steve Jobs"

អង្គការ៖ "ក្រុមហ៊ុន Apple"

ទីតាំង៖ "កាលីហ្វ័រញ៉ា"

ដោយសារកុំព្យូទ័រខ្វះជំនាញពីកំណើតនេះ យើងត្រូវជួយពួកគេក្នុងការសម្គាល់ពាក្យ ឬអត្ថបទ និងចាត់ថ្នាក់វា។ ការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ (NER) ត្រូវបានប្រើក្នុងស្ថានភាពនេះ។

នៅក្នុងអត្ថបទនេះ យើងនឹងពិនិត្យមើល NER (Named Entity Recognition) យ៉ាងលម្អិត រួមទាំងសារៈសំខាន់របស់វា អត្ថប្រយោជន៍ កំពូល NER APIs និងច្រើនទៀត។

តើ NER (Nameed Entity Recognition) ជាអ្វី?

វិធីសាស្រ្តដំណើរការភាសាធម្មជាតិ (NLP) ដែលគេស្គាល់ថាជាការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ (NER) ដែលជួនកាលគេស្គាល់ថាជាអត្តសញ្ញាណអង្គភាព ឬការទាញយកអង្គភាព ទទួលស្គាល់ដោយស្វ័យប្រវត្តិនូវអង្គភាពដែលមានឈ្មោះនៅក្នុងអត្ថបទ ហើយដាក់ជាក្រុមទៅក្នុងប្រភេទដែលបានកំណត់ទុកជាមុន។

អង្គភាពរួមមានឈ្មោះបុគ្គល ក្រុម ទីកន្លែង កាលបរិច្ឆេទ ចំនួនប្រាក់ ដុល្លារ ភាគរយ និងច្រើនទៀត។ ជាមួយនឹងការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ អ្នកអាចប្រើប្រាស់វាដើម្បីប្រមូលទិន្នន័យសំខាន់ៗសម្រាប់មូលដ្ឋានទិន្នន័យ ឬទាញយកព័ត៌មានសំខាន់ៗដើម្បីស្វែងយល់ពីអ្វីដែលឯកសារនិយាយអំពី។

NER គឺជាមូលដ្ឋានគ្រឹះដែលប្រព័ន្ធ AI អាស្រ័យដើម្បីវិភាគអត្ថបទសម្រាប់ន័យធៀប និងមនោសញ្ចេតនា ទោះបីជា NLP តំណាងឱ្យការរីកចម្រើនយ៉ាងសំខាន់ក្នុងដំណើរការវិភាគអត្ថបទក៏ដោយ។

តើ NER មានសារៈសំខាន់អ្វីខ្លះ?

មូលដ្ឋានគ្រឹះនៃវិធីសាស្រ្តវិភាគអត្ថបទគឺ NER ។ គំរូ ML ដំបូងត្រូវតែត្រូវបានផ្តល់គំរូរាប់លានជាមួយនឹងប្រភេទដែលបានកំណត់ជាមុន មុនពេលដែលវាអាចយល់ភាសាអង់គ្លេសបាន។

API មានភាពប្រសើរឡើងជាមួយនឹងពេលវេលាក្នុងការទទួលស្គាល់សមាសធាតុទាំងនេះនៅក្នុងអត្ថបទដែលវាកំពុងអានជាលើកដំបូង។ ថាមពលរបស់ម៉ាស៊ីនវិភាគអត្ថបទកើនឡើងជាមួយនឹងសមត្ថភាព និងកម្លាំងរបស់ NER ។

ដូចដែលបានឃើញនៅទីនេះ ប្រតិបត្តិការ ML ជាច្រើនត្រូវបានបង្កឡើងដោយ NER ។

ការស្វែងរកតាមន័យ

ឥឡូវនេះការស្វែងរកតាមន័យមាននៅលើ Google ។ អ្នកអាចបញ្ចូលសំណួរ ហើយវានឹងព្យាយាមឱ្យអស់ពីសមត្ថភាពដើម្បីឆ្លើយតបជាមួយនឹងចម្លើយ។ ដើម្បីស្វែងរកព័ត៌មាន អ្នកប្រើប្រាស់កំពុងស្វែងរក ជំនួយការឌីជីថលដូចជា Alexa, Siri, chatbots និងអ្នកផ្សេងទៀតប្រើប្រាស់ប្រភេទនៃការស្វែងរកតាមន័យធៀប។

មុខងារនេះអាចត្រូវបានវាយប្រហារ ឬខកខាន ប៉ុន្តែមានការកើនឡើងនៃការប្រើប្រាស់សម្រាប់វា ហើយប្រសិទ្ធភាពរបស់ពួកគេកំពុងកើនឡើងយ៉ាងឆាប់រហ័ស។

វិភាគទិន្នន័យ

នេះគឺជាឃ្លាទូទៅសម្រាប់ប្រើក្បួនដោះស្រាយដើម្បីបង្កើតការវិភាគពីទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធ។ វារួមបញ្ចូលវិធីសាស្រ្តសម្រាប់បង្ហាញទិន្នន័យនេះជាមួយនឹងដំណើរការនៃការស្វែងរក និងប្រមូលទិន្នន័យដែលពាក់ព័ន្ធ។

វាអាចយកទម្រង់នៃការពន្យល់ស្ថិតិដោយត្រង់ៗអំពីលទ្ធផល ឬការបង្ហាញរូបភាពនៃទិន្នន័យ។ ការវិភាគលើចំណាប់អារម្មណ៍ និងការចូលរួមជាមួយប្រធានបទជាក់លាក់មួយអាចត្រូវបានធ្វើដោយប្រើព័ត៌មានពីការមើល YouTube រួមទាំងនៅពេលដែលអ្នកមើលចុចលើវីដេអូជាក់លាក់មួយ។

ការវាយតម្លៃជាផ្កាយរបស់ផលិតផលអាចត្រូវបានវិភាគដោយប្រើការដកទិន្នន័យពីគេហទំព័រពាណិជ្ជកម្មអេឡិចត្រូនិក ដើម្បីផ្តល់ពិន្ទុរួមនៃរបៀបដែលផលិតផលដំណើរការល្អ។

ការវិភាគមនោសញ្ចេតនា

ស្វែងយល់បន្ថែម NER, ការវិភាគមនោសញ្ចេតនា អាចបែងចែករវាងការពិនិត្យល្អ និងអាក្រក់ សូម្បីតែក្នុងករណីដែលគ្មានព័ត៌មានពីការវាយតម្លៃផ្កាយក៏ដោយ។

វាត្រូវបានដឹងថាពាក្យដូចជា “លើសចំណុះ” “មិនល្អ” និង “ឆោតល្ងង់” មានន័យអវិជ្ជមាន ចំណែកពាក្យដូចជា “មានប្រយោជន៍” “រហ័ស” និង “ងាយ” ធ្វើ។ ពាក្យ "ងាយស្រួល" អាចត្រូវបានបកស្រាយអវិជ្ជមាននៅក្នុងហ្គេមកុំព្យូទ័រ.

ក្បួនដោះស្រាយស្មុគ្រស្មាញក៏អាចស្គាល់ទំនាក់ទំនងរវាងវត្ថុផងដែរ។

អត្ថបទវិភាគ

ស្រដៀងគ្នាទៅនឹងការវិភាគទិន្នន័យ ការវិភាគអត្ថបទទាញយកព័ត៌មានចេញពីខ្សែអក្សរដែលមិនមានរចនាសម្ព័ន្ធ ហើយប្រើ NER ដើម្បីសូន្យលើទិន្នន័យសំខាន់។

វាអាចត្រូវបានប្រើដើម្បីចងក្រងទិន្នន័យលើការលើកឡើងរបស់ផលិតផល តម្លៃមធ្យម ឬលក្ខខណ្ឌដែលអតិថិជនប្រើញឹកញាប់បំផុតដើម្បីពណ៌នាអំពីម៉ាកជាក់លាក់មួយ។

ការវិភាគមាតិកាវីដេអូ

ប្រព័ន្ធស្មុគ្រស្មាញបំផុតគឺជាប្រព័ន្ធដែលទាញយកទិន្នន័យពីព័ត៌មានវីដេអូដោយប្រើការសម្គាល់ផ្ទៃមុខ ការវិភាគសំឡេង និងការទទួលស្គាល់រូបភាព។

ដោយប្រើការវិភាគខ្លឹមសារវីដេអូ អ្នកអាចស្វែងរកវីដេអូ "Unboxing" របស់ YouTube, ការបង្ហាញហ្គេម Twitch, lip syncs នៃសម្ភារៈសំឡេងរបស់អ្នកនៅលើ Reels និងច្រើនទៀត។

ដើម្បីជៀសវាងការបាត់ព័ត៌មានសំខាន់ៗអំពីរបៀបដែលមនុស្សភ្ជាប់ជាមួយផលិតផល ឬសេវាកម្មរបស់អ្នក នៅពេលដែលបរិមាណនៃសម្ភារៈវីដេអូអនឡាញកើនឡើង បច្ចេកទេសច្នៃប្រឌិតកាន់តែលឿន និងលឿនជាងមុនសម្រាប់ការវិភាគខ្លឹមសារវីដេអូផ្អែកលើ NER គឺចាំបាច់ណាស់។

កម្មវិធីពិភពពិតនៃ NER

ការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ (NER) កំណត់ទិដ្ឋភាពសំខាន់ៗនៅក្នុងអត្ថបទដូចជា ឈ្មោះមនុស្ស ទីតាំង ម៉ាក តម្លៃរូបិយវត្ថុ និងច្រើនទៀត។

ការស្រង់ចេញធាតុសំខាន់ៗនៅក្នុងអត្ថបទជួយក្នុងការតម្រៀបទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធ និងស្វែងរកព័ត៌មានសំខាន់ៗ ដែលមានសារៈសំខាន់នៅពេលដោះស្រាយជាមួយសំណុំទិន្នន័យធំ។

នេះគឺជាឧទាហរណ៍ជាក់ស្តែងគួរឱ្យចាប់អារម្មណ៍មួយចំនួននៃការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ៖

ការវិភាគមតិរបស់អតិថិជន

ការវាយតម្លៃលើអ៊ីនធឺណិតគឺជាប្រភពដ៏អស្ចារ្យនៃមតិកែលម្អរបស់អតិថិជន ដោយសារពួកគេអាចផ្តល់ឱ្យអ្នកនូវព័ត៌មានលំអិតអំពីអ្វីដែលអតិថិជនចូលចិត្ត និងស្អប់អំពីទំនិញរបស់អ្នក ក៏ដូចជាផ្នែកណានៃក្រុមហ៊ុនរបស់អ្នកត្រូវការដើម្បីកែលម្អ។

រាល់ការបញ្ចូលអតិថិជននេះអាចត្រូវបានរៀបចំដោយប្រើប្រព័ន្ធ NER ដែលអាចកំណត់បញ្ហាដែលកើតឡើងម្តងទៀតផងដែរ។

ជាឧទាហរណ៍ ដោយប្រើ NER ដើម្បីកំណត់ទីកន្លែងដែលជារឿយៗត្រូវបានលើកឡើងនៅក្នុងការពិនិត្យអតិថិជនដែលមិនអំណោយផល អ្នកអាចសម្រេចចិត្តផ្តោតលើសាខាការិយាល័យជាក់លាក់មួយ។

អនុសាសន៍សម្រាប់មាតិកា

បញ្ជីនៃអត្ថបទដែលភ្ជាប់ទៅនឹងអត្ថបទដែលអ្នកកំពុងអានអាចរកបាននៅលើគេហទំព័រដូចជា BBC និង CNN នៅពេលអ្នកអានអត្ថបទនៅទីនោះ។

គេហទំព័រទាំងនេះបង្កើតការណែនាំសម្រាប់គេហទំព័របន្ថែមដែលផ្តល់ព័ត៌មានអំពីអង្គភាពដែលពួកគេបានស្រង់ចេញពីខ្លឹមសារដែលអ្នកកំពុងអានដោយប្រើ NER ។

រៀបចំសំបុត្រនៅក្នុងផ្នែកជំនួយអតិថិជន

អ្នកអាចប្រើក្បួនដោះស្រាយការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ ដើម្បីឆ្លើយតបទៅនឹងសំណើរបស់អតិថិជនកាន់តែលឿន ប្រសិនបើអ្នកកំពុងគ្រប់គ្រងការកើនឡើងនៃចំនួនសំបុត្រគាំទ្រពីអតិថិជន។

ធ្វើកិច្ចការថែទាំអតិថិជនដែលចំណាយពេលវេលាដោយស្វ័យប្រវត្តិ ដូចជាការចាត់ថ្នាក់ការត្អូញត្អែរ និងការសាកសួររបស់អតិថិជន ដើម្បីសន្សំប្រាក់ដោយខ្លួនឯង បង្កើនសុភមង្គលរបស់អតិថិជន និងបង្កើនអត្រាការដោះស្រាយ។

ការទាញយកអង្គភាពក៏អាចប្រើដើម្បីទាញយកទិន្នន័យដែលពាក់ព័ន្ធ ដូចជាឈ្មោះផលិតផល ឬលេខសៀរៀល ដើម្បីធ្វើឱ្យវាកាន់តែងាយស្រួលក្នុងការបញ្ជូនសំបុត្រទៅកាន់ភ្នាក់ងារ ឬក្រុមដែលត្រឹមត្រូវសម្រាប់ការដោះស្រាយបញ្ហានោះ។

ក្បួនដោះស្រាយការស្វែងរក

តើអ្នកធ្លាប់សួរថាតើគេហទំព័រដែលមានព័ត៌មានរាប់លានអាចបង្កើតលទ្ធផលដែលទាក់ទងនឹងការស្វែងរករបស់អ្នកដែរឬទេ? ពិចារណាគេហទំព័រវិគីភីឌា។

វិគីភីឌា បង្ហាញទំព័រដែលមានធាតុដែលបានកំណត់ជាមុន ដែលពាក្យស្វែងរកអាចទាក់ទងនឹងនៅពេលអ្នកស្វែងរក "ការងារ" ជំនួសឱ្យការត្រឡប់អត្ថបទទាំងអស់ជាមួយនឹងពាក្យ "ការងារ" នៅក្នុងពួកគេ។

ដូច្នេះ វិគីភីឌាផ្តល់នូវតំណភ្ជាប់ទៅកាន់អត្ថបទដែលកំណត់ "មុខរបរ" ផ្នែកសម្រាប់មនុស្សដែលមានឈ្មោះថា Jobs និងផ្នែកផ្សេងទៀតសម្រាប់ប្រព័ន្ធផ្សព្វផ្សាយដូចជាភាពយន្តជាដើម។ វីដេអូហ្គេមនិងទម្រង់កម្សាន្តផ្សេងទៀត ដែលពាក្យថា "ការងារ" លេចឡើង។

អ្នកក៏នឹងឃើញផ្នែកផ្សេងទៀតសម្រាប់ទីតាំងដែលមានពាក្យស្វែងរកផងដែរ។

ការថែរក្សាប្រវត្តិរូបសង្ខេប

ក្នុងការស្វែងរកបេក្ខជនដ៏ល្អ អ្នកជ្រើសរើសចំណាយពេលមួយផ្នែកសំខាន់នៃថ្ងៃរបស់ពួកគេពិនិត្យមើលប្រវត្តិរូបសង្ខេប។ ប្រវត្តិរូបសង្ខេបនីមួយៗមានព័ត៌មានដូចគ្នា ប៉ុន្តែពួកវាទាំងអស់ត្រូវបានបង្ហាញ និងរៀបចំខុសៗគ្នា ដែលជាឧទាហរណ៍ធម្មតានៃទិន្នន័យដែលមិនមានរចនាសម្ព័ន្ធ។

ព័ត៌មានដែលពាក់ព័ន្ធបំផុតអំពីបេក្ខជនអាចត្រូវបានស្រង់ចេញយ៉ាងឆាប់រហ័សដោយក្រុមជ្រើសរើសដោយប្រើប្រាស់ភ្នាក់ងារស្រង់ចេញ រួមទាំងទិន្នន័យផ្ទាល់ខ្លួន (ដូចជាឈ្មោះ អាស័យដ្ឋាន លេខទូរស័ព្ទ ថ្ងៃខែឆ្នាំកំណើត និងអ៊ីមែល) និងព័ត៌មានអំពីការអប់រំ និងបទពិសោធន៍របស់ពួកគេ (ដូចជា វិញ្ញាបនបត្រ សញ្ញាបត្រ ឈ្មោះក្រុមហ៊ុន ជំនាញ។ល។)។

ពាណិជ្ជកម្មតាមអេឡិចត្រូនិក

ទាក់ទងនឹងក្បួនដោះស្រាយស្វែងរកផលិតផលរបស់ពួកគេ អ្នកលក់រាយតាមអ៊ីនធឺណិតដែលមានទំនិញរាប់រយ ឬរាប់ពាន់មុខនឹងទទួលបានអត្ថប្រយោជន៍ពី NER ។

បើគ្មាន NER ការស្វែងរក "ស្បែកជើងកវែងស្បែកខ្មៅ" នឹងផ្តល់លទ្ធផលដែលរួមមានទាំងស្បែក និងស្បែកជើងដែលមិនមានពណ៌ខ្មៅ។ បើដូច្នេះមែន គេហទំព័រ e-commerce ប្រថុយនឹងការបាត់បង់អតិថិជន។

Iករណីរបស់យើង NER នឹងចាត់ថ្នាក់ពាក្យស្វែងរកជាប្រភេទផលិតផលសម្រាប់ស្បែកជើងកវែងស្បែក និងពណ៌ខ្មៅជាពណ៌។

APIs ស្រង់ចេញរបស់អង្គភាពល្អបំផុត

Google Cloud NLP

សម្រាប់ឧបករណ៍ដែលបានបណ្តុះបណ្តាលរួចហើយ Google Cloud NLP ផ្តល់នូវ API ភាសាធម្មជាតិរបស់វា។ ឬ AutoML Natural Language API គឺអាចសម្របបានសម្រាប់ការទាញយកអត្ថបទ និងការវិភាគជាច្រើនប្រភេទ ប្រសិនបើអ្នកចង់អប់រំឧបករណ៍របស់អ្នកអំពីវាក្យស័ព្ទឧស្សាហកម្មរបស់អ្នក។

APIs ធ្វើអន្តរកម្មយ៉ាងងាយស្រួលជាមួយ Gmail, Google Sheets និងកម្មវិធី Google ផ្សេងទៀត ប៉ុន្តែការប្រើពួកវាជាមួយកម្មវិធីភាគីទីបីអាចត្រូវការកូដស្មុគស្មាញជាងនេះ។

ជម្រើសអាជីវកម្មដ៏ល្អគឺភ្ជាប់កម្មវិធី Google និង Cloud Storage ជាសេវាកម្មគ្រប់គ្រង និង APIs ។

IBM Watson

IBM Watson គឺជាវេទិកាពហុពពកដែលដំណើរការយ៉ាងរហ័សមិនគួរឱ្យជឿ និងផ្តល់នូវសមត្ថភាពដែលបានបង្កើតជាមុន ដូចជាការនិយាយទៅអត្ថបទ ដែលជាកម្មវិធីដ៏អស្ចារ្យដែលអាចវិភាគសំឡេងដែលបានថតទុក និងការហៅទូរស័ព្ទដោយស្វ័យប្រវត្តិ។

ជាមួយនឹងការប្រើប្រាស់ទិន្នន័យ CSV ការសិក្សាស៊ីជម្រៅរបស់ Watson Natural Language Understanding AI អាចបង្កើតគំរូស្រង់ចេញដើម្បីស្រង់ចេញនូវអង្គភាព ឬពាក្យគន្លឹះ។

ហើយជាមួយនឹងការអនុវត្ត អ្នកអាចបង្កើតគំរូដែលកាន់តែទំនើប។ មុខងារទាំងអស់របស់វាអាចចូលប្រើបានតាមរយៈ APIs ទោះបីជាត្រូវការចំណេះដឹងផ្នែកសរសេរកូដយ៉ាងទូលំទូលាយក៏ដោយ។

វាដំណើរការល្អសម្រាប់អាជីវកម្មធំៗ ដែលតម្រូវឱ្យពិនិត្យមើលសំណុំទិន្នន័យដ៏ធំ និងមានធនធានបច្ចេកទេសខាងក្នុង។

Cortical.io

ដោយប្រើ Semantic Folding ដែលជាសញ្ញាណពីសរសៃប្រសាទ Cortical.io ផ្តល់នូវការទាញយកអត្ថបទ និងដំណោះស្រាយ NLU ។

នេះត្រូវបានធ្វើដើម្បីបង្កើត "ស្នាមម្រាមដៃ semantic" ដែលបង្ហាញទាំងអត្ថន័យនៃអត្ថបទនៅក្នុងពាក្យទាំងមូល និងជាក់លាក់របស់វា។ ដើម្បីបង្ហាញពីទំនាក់ទំនងរវាងពាក្យ ចង្កោមពាក្យ ស្នាមម្រាមដៃ semantic ពណ៌នាអំពីទិន្នន័យអត្ថបទ។

ឯកសារ API អន្តរកម្មរបស់ Cortical.io គ្របដណ្តប់មុខងារនៃដំណោះស្រាយការវិភាគអត្ថបទនីមួយៗ ហើយវាមានលក្ខណៈសាមញ្ញក្នុងការចូលប្រើដោយប្រើ Java, Python និង Javascript APIs។

ឧបករណ៍ស៊ើបការណ៍កិច្ចសន្យាពី Cortical.io ត្រូវបានបង្កើតឡើងជាពិសេសសម្រាប់ការវិភាគផ្លូវច្បាប់ ដើម្បីធ្វើការស្វែងរកតាមន័យធៀប បំប្លែងឯកសារដែលបានស្កេន និងជំនួយ និងបង្កើនជាមួយនឹងចំណារពន្យល់។

វាល្អសម្រាប់អាជីវកម្មដែលកំពុងស្វែងរក APIs ងាយស្រួលប្រើ ដែលមិនត្រូវការចំណេះដឹង AI ជាពិសេសនៅក្នុងផ្នែកច្បាប់។

ស្វារៀន

ភាសាកុំព្យូទ័រសំខាន់ៗទាំងអស់ត្រូវបានគាំទ្រដោយ APIs របស់ MonkeyLearn ហើយដំឡើងកូដត្រឹមតែពីរបីបន្ទាត់ប៉ុណ្ណោះដើម្បីបង្កើតឯកសារ JSON ដែលមានធាតុដែលបានស្រង់ចេញរបស់អ្នក។ សម្រាប់អ្នកដកស្រង់ និងអ្នកវិភាគអត្ថបទជាមួយនឹងការបណ្តុះបណ្តាលពីមុន ចំណុចប្រទាក់គឺងាយស្រួលប្រើ។

ឬគ្រាន់តែក្នុងជំហានសាមញ្ញមួយចំនួន អ្នកអាចបង្កើតឧបករណ៍ស្រង់ចេញតែមួយគត់។ ដើម្បីកាត់បន្ថយពេលវេលា និងកែលម្អភាពត្រឹមត្រូវ ដំណើរការភាសាធម្មជាតិកម្រិតខ្ពស់ (NLP) ជាមួយនឹងស៊ីជម្រៅ ការរៀនម៉ាស៊ីន អនុញ្ញាតឱ្យអ្នកវាយតម្លៃអត្ថបទដូចមនុស្សចង់បាន។

លើសពីនេះទៀត SaaS APIs ធានាថាការដំឡើងការតភ្ជាប់ជាមួយឧបករណ៍ដូចជា Google Sheets, Excel, Zapier, Zendesk និងផ្សេងទៀតមិនតម្រូវឱ្យមានចំណេះដឹងផ្នែកវិទ្យាសាស្ត្រកុំព្យូទ័រច្រើនឆ្នាំនោះទេ។

បច្ចុប្បន្ននេះមាននៅក្នុងកម្មវិធីរុករករបស់អ្នកគឺជាកម្មវិធីស្រង់ឈ្មោះ អ្នកស្រង់ចេញក្រុមហ៊ុន និងឧបករណ៍ទាញយកទីតាំង។ សម្រាប់ព័ត៌មានអំពីរបៀបសាងសង់ដោយខ្លួនឯង សូមមើលអត្ថបទប្លក់ទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ។

វាល្អសម្រាប់អាជីវកម្មគ្រប់ទំហំដែលពាក់ព័ន្ធនឹងបច្ចេកវិទ្យា ការលក់រាយ និងពាណិជ្ជកម្មអេឡិចត្រូនិក ដែលត្រូវការ APIs សាមញ្ញដើម្បីអនុវត្តសម្រាប់ប្រភេទផ្សេងៗនៃការទាញយកអត្ថបទ និងការវិភាគអត្ថបទ។

ក្រុមហ៊ុន Amazon យល់។

ដើម្បីធ្វើឱ្យវាសាមញ្ញក្នុងការដោត និងប្រើឧបករណ៍ដែលបង្កើតមុនរបស់ Amazon Comprehend ភ្លាមៗនោះ ពួកគេត្រូវបានបណ្តុះបណ្តាលក្នុងវិស័យផ្សេងៗគ្នារាប់រយ។

មិនចាំបាច់មានម៉ាស៊ីនមេក្នុងផ្ទះទេ ព្រោះនេះជាសេវាកម្មត្រួតពិនិត្យ។ ជាពិសេសប្រសិនបើអ្នកប្រើប្រាស់ cloud របស់ Amazon ដល់កម្រិតណាមួយ APIs របស់ពួកគេរួមបញ្ចូលយ៉ាងងាយស្រួលជាមួយនឹងកម្មវិធីដែលមានពីមុន។ ហើយជាមួយនឹងការបណ្តុះបណ្តាលតែបន្តិចប៉ុណ្ណោះ ភាពត្រឹមត្រូវនៃការស្រង់ចេញអាចត្រូវបានលើកឡើង។

បច្ចេកទេសវិភាគអត្ថបទដែលអាចទុកចិត្តបំផុតមួយសម្រាប់ការទទួលបានទិន្នន័យពីកំណត់ត្រាវេជ្ជសាស្ត្រ និងការសាកល្បងព្យាបាលគឺ Comprehend's Medical Named Entity and Relationship Extraction (NERe) ដែលអាចទាញយកព័ត៌មានលម្អិតអំពីថ្នាំ លក្ខខណ្ឌ លទ្ធផលតេស្ត និងនីតិវិធី។

នៅពេលប្រៀបធៀបទិន្នន័យអ្នកជំងឺទៅនឹងការវាយតម្លៃ និងការវិនិច្ឆ័យត្រឹមត្រូវ អាចមានប្រយោជន៍ណាស់។ ជម្រើសដ៏ល្អបំផុតសម្រាប់អាជីវកម្មដែលស្វែងរកសេវាកម្មគ្រប់គ្រងជាមួយនឹងឧបករណ៍ដែលបានបណ្តុះបណ្តាលជាមុន។

អៃលៀន

ដើម្បីផ្តល់ភាពងាយស្រួលដល់ការវិភាគអត្ថបទនៃការរៀនម៉ាស៊ីនដ៏រឹងមាំ AYLIEN ផ្តល់ជូននូវកម្មវិធីជំនួយ API បីនៅក្នុងភាសាសរសេរកម្មវិធីពេញនិយមចំនួនប្រាំពីរ។

API ព័ត៌មានរបស់ពួកគេផ្តល់នូវការស្វែងរកតាមពេលវេលាជាក់ស្តែង និងការទាញយកអង្គភាពពីប្រភពព័ត៌មានរាប់ម៉ឺនពីជុំវិញពិភពលោក។

Aylien

ការស្រង់ចេញធាតុ និងកិច្ចការវិភាគអត្ថបទមួយចំនួនផ្សេងទៀតអាចត្រូវបានអនុវត្តដោយប្រើ API ការវិភាគអត្ថបទលើឯកសារ ប្រព័ន្ធផ្សព្វផ្សាយសង្គម វេទិកា ការស្ទង់មតិអ្នកប្រើប្រាស់ និងច្រើនទៀត។

ជាចុងក្រោយ ដោយប្រើវេទិកាវិភាគអត្ថបទ អ្នកអាចបង្កើតឧបករណ៍ទាញយកផ្ទាល់ខ្លួនរបស់អ្នក និងត្រង់បន្ថែមទៀតនៅក្នុងកម្មវិធីរុករករបស់អ្នក (TAP)។ វាដំណើរការល្អសម្រាប់ក្រុមហ៊ុនដែលត្រូវការបញ្ចូល APIs ថេរជាចម្បងយ៉ាងឆាប់រហ័ស។

ស្ប៉ាស៊ី

SpaCy គឺជាកញ្ចប់ Python Natural Language Processing (NLP) ដែលមានប្រភពបើកចំហ ឥតគិតថ្លៃ និងមានលក្ខណៈពិសេសជាច្រើនដែលភ្ជាប់មកជាមួយ។

វាកាន់តែច្រើនឡើងៗសម្រាប់ ទិន្នន័យ NLP ដំណើរការនិងការវិភាគ។ ទិន្នន័យអត្ថបទដែលមិនមានរចនាសម្ព័ន្ធត្រូវបានបង្កើតឡើងនៅលើមាត្រដ្ឋានដ៏ធំសម្បើម ដូច្នេះវាមានសារៈសំខាន់ណាស់ក្នុងការវិភាគវា និងទាញយកការយល់ដឹងពីវា។

SpaCy

ដើម្បីសម្រេចបាន អ្នកត្រូវតែបង្ហាញការពិតតាមវិធីដែលកុំព្យូទ័រអាចយល់បាន។ អ្នកអាចធ្វើវាបានតាមរយៈ NLP ។ វាលឿនខ្លាំងណាស់ ជាមួយនឹងពេលវេលាយឺតយ៉ាវត្រឹមតែ 30ms ប៉ុន្តែអ្វីដែលសំខាន់ វាមិនត្រូវបានបម្រុងទុកសម្រាប់ការប្រើប្រាស់ជាមួយទំព័រ HTTPS នោះទេ។

នេះគឺជាជម្រើសដ៏ល្អមួយសម្រាប់ស្កេនម៉ាស៊ីនមេ ឬអ៊ីនត្រាណែតផ្ទាល់ខ្លួនរបស់អ្នក ព្រោះវាដំណើរការក្នុងមូលដ្ឋាន ប៉ុន្តែវាមិនមែនជាឧបករណ៍សម្រាប់សិក្សាអ៊ីនធឺណិតទាំងមូលនោះទេ។

សន្និដ្ឋាន

ការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ (NER) គឺជាប្រព័ន្ធដែលអាជីវកម្មអាចប្រើដើម្បីដាក់ស្លាកព័ត៌មានដែលពាក់ព័ន្ធនៅក្នុងសំណើជំនួយអតិថិជន ស្វែងរកអង្គភាពដែលបានយោងនៅក្នុងមតិកែលម្អរបស់អតិថិជន និងទាញយកទិន្នន័យសំខាន់ៗយ៉ាងឆាប់រហ័សដូចជាព័ត៌មានលម្អិតទំនាក់ទំនង ទីតាំង និងកាលបរិច្ឆេទ ក្នុងចំណោមរបស់ផ្សេងទៀត។

វិធីសាស្រ្តសាមញ្ញបំផុតក្នុងការដាក់ឈ្មោះឱ្យការទទួលស្គាល់អង្គភាពគឺតាមរយៈការប្រើប្រាស់ APIs ទាញយកអង្គភាព (ថាតើពួកគេត្រូវបានផ្តល់ដោយបណ្ណាល័យប្រភពបើកចំហ ឬផលិតផល SaaS)។

ទោះជាយ៉ាងណាក៏ដោយ ការជ្រើសរើសជម្រើសដ៏ល្អបំផុតនឹងពឹងផ្អែកលើពេលវេលា ហិរញ្ញវត្ថុ និងជំនាញរបស់អ្នក។ សម្រាប់ប្រភេទអាជីវកម្មណាមួយ ការទាញយកអង្គភាព និងបច្ចេកវិទ្យាវិភាគអត្ថបទដែលទំនើបជាងនេះ អាចជាអត្ថប្រយោជន៍យ៉ាងច្បាស់។

នៅពេលដែលឧបករណ៍រៀនម៉ាស៊ីនត្រូវបានបង្រៀនយ៉ាងត្រឹមត្រូវ ពួកវាមានភាពត្រឹមត្រូវ និងមិនមើលរំលងទិន្នន័យណាមួយឡើយ ដោយជួយសន្សំសំចៃពេលវេលា និងថវិការបស់អ្នក។ អ្នកអាចកំណត់រចនាសម្ព័ន្ធដំណោះស្រាយទាំងនេះដើម្បីដំណើរការជាបន្តបន្ទាប់ និងដោយស្វ័យប្រវត្តិដោយការរួមបញ្ចូល APIs ។

គ្រាន់តែជ្រើសរើសសកម្មភាពដែលល្អបំផុតសម្រាប់ក្រុមហ៊ុនរបស់អ្នក។

ការទទួលស្គាល់អង្គភាពដែលមានឈ្មោះ (NER) - គំនិត កម្មវិធី និង APIs

តើ NER (Nameed Entity Recognition) ជាអ្វី?