කතාබස්, විද්යුත් තැපෑල, වෙබ් අඩවි සහ සමාජ මාධ්ය හරහා මිනිසුන් සමඟ සබැඳිව සන්නිවේදනය කිරීමට අපි බොහෝ කාලයක් ගත කරමු.
සෑම තත්පරයකම අපි නිපදවන අතිවිශාල පෙළ දත්ත පරිමාවන් අපගේ අවධානයෙන් ගැලවී යයි, නමුත්, සෑම විටම නොවේ.
පාරිභෝගිකයින්ගේ ක්රියාවන් සහ සමාලෝචන මඟින් භාණ්ඩ හා සේවා තුළ පාරිභෝගිකයින් අගය කරන සහ අනුමත නොකරන දේ මෙන්ම වෙළඳ නාමයකින් ඔවුන්ට අවශ්ය දේ පිළිබඳ මිල කළ නොහැකි තොරතුරු ආයතනවලට සපයයි.
කෙසේ වෙතත්, බහුතරයක් ව්යාපාර තවමත් දත්ත විශ්ලේෂණය සඳහා වඩාත් ඵලදායී ක්රමය නිර්ණය කිරීමට අපහසු වේ.
බොහෝ දත්ත ව්යුහගත නොවන බැවින්, පරිගණකවලට එය තේරුම් ගැනීමට අපහසු වන අතර, එය අතින් වර්ග කිරීම අතිශයින් කාලය ගතවනු ඇත.
බොහෝ දත්ත අතින් සැකසීම වෙහෙසකාරී, ඒකාකාරී, සහ සමාගමක් ප්රසාරණය වන විට සරලව පරිමාණය කළ නොහැකි බවට පත්වේ.
ස්තුතියි, ස්වාභාවික භාෂා සැකසුම් මඟින් ව්යුහගත නොකළ පෙළ තුළ තීක්ෂ්ණ බුද්ධි තොරතුරු සොයා ගැනීමට සහ පෙළ විශ්ලේෂණ ගැටලු රාශියක් විසඳීමට ඔබට සහාය විය හැක. මනෝ විශ්ලේෂණයකි, විෂය වර්ගීකරණය, සහ තවත්.
මානව භාෂාව යන්ත්රවලට තේරුම් ගත හැකි කිරීම වාග් විද්යාව සහ පරිගණක විද්යාව භාවිතා කරන ස්වාභාවික භාෂා සැකසුම් (NLP) හි කෘතිම බුද්ධි ක්ෂේත්රයේ ඉලක්කය වේ.
NLP මඟින් පරිගණකවලට අතිවිශාල දත්ත ප්රමාණයක් ස්වයංක්රීයව තක්සේරු කිරීමට හැකියාව ලබා දෙයි, එමඟින් ඔබට අදාළ තොරතුරු ඉක්මනින් හඳුනා ගැනීමට හැකි වේ.
ව්යුහගත නොකළ පෙළ (හෝ වෙනත් ආකාරයේ ස්වභාවික භාෂාවක්) තීක්ෂ්ණ බුද්ධිය සහිත තොරතුරු අනාවරණය කර ගැනීමට සහ ගැටලු ගණනාවක් විසඳීමට විවිධ තාක්ෂණයන් සමඟ භාවිතා කළ හැක.
කිසිසේත්ම සවිස්තරාත්මක නොවූවත්, පහත ඉදිරිපත් කර ඇති විවෘත මූලාශ්ර මෙවලම් ලැයිස්තුව ඔවුන්ගේ ව්යාපෘතිවල ස්වභාවික භාෂා සැකසුම් භාවිතා කිරීමට උනන්දුවක් දක්වන ඕනෑම කෙනෙකුට හෝ ඕනෑම සංවිධානයකට ආරම්භ කිරීමට අපූරු ස්ථානයකි.
1. NLTK
ස්වාභාවික භාෂා මෙවලම් කට්ටලය (NLTK) මා බැලූ වඩාත්ම විශේෂාංග-පොහොසත් මෙවලම බව කෙනෙකුට තර්ක කළ හැකිය.
වර්ගීකරණය, ටෝකනීකරණය, කඳන් කිරීම, ටැග් කිරීම, විග්රහ කිරීම සහ අර්ථකථන තර්ක කිරීම ඇතුළුව සියලුම NLP ශිල්පීය ක්රම පාහේ ක්රියාත්මක වේ.
ඔබට භාවිතා කිරීමට අවශ්ය නිවැරදි ඇල්ගොරිතම හෝ ප්රවේශය තෝරාගත හැක, මන්ද ඒ සෑම එකක් සඳහාම ක්රියාත්මක කිරීම් කිහිපයක් නිතර පවතින බැවිනි.
බොහෝ භාෂා ද සහාය දක්වයි. එය සරල ව්යුහයන් සඳහා හොඳ වුවද, එය සියලුම දත්ත නූල් ලෙස නිරූපනය කිරීම සමහර සංකීර්ණ හැකියාවන් යෙදීමට අභියෝග කරයි.
අනෙකුත් මෙවලම් සමඟ සසඳන විට, පුස්තකාලය ද ටිකක් මන්දගාමී ය.
සෑම දෙයක්ම සලකා බැලූ විට, මෙය යම් ඇල්ගොරිතම මිශ්රණයක් අවශ්ය වන අත්හදා බැලීම්, ගවේෂණය සහ යෙදුම් සඳහා විශිෂ්ට මෙවලම් කට්ටලයකි.
කිහිප දෙනකුගේ
- එය තුන්වන එකතු කිරීම් කිහිපයක් සහිත වඩාත් ජනප්රිය සහ සම්පූර්ණ NLP පුස්තකාලයයි.
- අනෙකුත් පුස්තකාල හා සසඳන විට, එය බොහෝ භාෂා සඳහා සහය දක්වයි.
අවාසි
- තේරුම් ගැනීමට සහ භාවිතා කිරීමට අපහසුය
- එය මන්දගාමී වේ
- ආකෘති නොමැත ස්නායු ජාල
- එය අර්ථ දැක්වීම් නොසලකා හැර පෙළ පමණක් වාක්යවලට බෙදයි
2. අවකාශය
SpaCy යනු NLTK හි බොහෝ විට ඉහළම ප්රතිවාදියා වේ. එය එක් එක් NLP සංරචක සඳහා එක් ක්රියාත්මක කිරීමක් පමණක් තිබුණද, එය සාමාන්යයෙන් වේගවත් වේ.
අතිරේකව, සෑම දෙයක්ම තන්තුවකට වඩා වස්තුවක් ලෙස නිරූපණය කෙරේ, එය යෙදුම් සංවර්ධනය සඳහා අතුරු මුහුණත සරල කරයි.
ඔබගේ පෙළ දත්ත ගැඹුරින් ග්රහණය කර ගැනීමෙන් ඔබට තවත් බොහෝ දේ ඉටු කිරීමට හැකි වේ.
මෙය තවත් රාමු කිහිපයක් සහ දත්ත විද්යා මෙවලම් සමඟ සම්බන්ධ වීම පහසු කරයි. නමුත් NLTK හා සසඳන විට SpaCy බොහෝ භාෂා සඳහා සහය නොදක්වයි.
එය භාෂා සැකසීමේ සහ විශ්ලේෂණයේ විවිධ පැති සඳහා බොහෝ ස්නායු ආකෘති මෙන්ම සංක්ෂිප්ත පරාසයක විකල්ප සහ විශිෂ්ට ලියකියවිලි සහිත සරල පරිශීලක අතුරුමුහුණතක් ද දක්වයි.
මීට අමතරව, SpaCy විශාල දත්ත ප්රමාණයකට ඉඩ සැලසීමට ගොඩනගා ඇති අතර එය අතිශයින් හොඳින් ලේඛනගත කර ඇත.
SpaCy සමඟ ස්වභාවික භාෂා සැකසුම් ඉගෙනීමට, ඉගැන්වීමට සහ භාවිතා කිරීමට පහසු කරමින් දැනටමත් පුහුණු කර ඇති ස්වභාවික භාෂා සැකසුම් සඳහා ආකෘති රාශියක් ද එයට ඇතුළත් වේ.
සමස්තයක් වශයෙන්, මෙය නිශ්චිත ක්රමයක් අවශ්ය නොවන සහ නිෂ්පාදනයේ කාර්ය සාධනය අවශ්ය වන නව යෙදුම් සඳහා විශිෂ්ට මෙවලමකි.
කිහිප දෙනකුගේ
- අනෙක් දේවල් හා සසඳන විට එය ඉක්මන් වේ.
- එය ඉගෙනීම සහ භාවිතා කිරීම සරල ය.
- ආකෘති ස්නායු ජාල භාවිතයෙන් පුහුණු කරනු ලැබේ
අවාසි
- NLTK හා සසඳන විට අඩු අනුවර්තනය වීමේ හැකියාව
3. ජෙන්සිම්
Gensim ලෙස හඳුන්වන විශේෂිත විවෘත-මූලාශ්ර පයිතන් රාමුව භාවිතයෙන් ලේඛන අර්ථ දෛශික ලෙස ප්රකාශ කිරීමට වඩාත් ඵලදායී සහ පහසු ප්රවේශයන් සාක්ෂාත් කරගනු ලැබේ.
කතුවරුන් විසින් Gensim නිර්මාණය කරන ලද්දේ පරාසයක් භාවිතා කරමින් අමු, ව්යුහගත නොවූ සරල පෙළ හැසිරවීමටය යන්ත්ර ඉගෙනීම ක්රම; එබැවින්, මාතෘකා ආකෘති නිර්මාණය වැනි රැකියා සඳහා Gensim භාවිතා කිරීම හොඳ අදහසකි.
මීට අමතරව, Gensim ඵලදායි ලෙස පාඨමය සමානකම් සොයා ගනී, අන්තර්ගතය සුචිගත කරයි, සහ වෙනස් පෙළ අතර සැරිසරයි.
එය ඉතා විශේෂිත වූවකි පයිතන් පුස්තකාලය Latent Dirichlet Allocation සහ අනෙකුත් LDA) ක්රම භාවිතා කරමින් මාතෘකා ආකෘතිකරණ කාර්යයන් කෙරෙහි අවධානය යොමු කිරීම.
මීට අමතරව, එය එකිනෙකට සමාන පෙළ සොයා ගැනීම, පෙළ සුචිගත කිරීම සහ කඩදාසි හරහා සැරිසැරීමට ඉතා හොඳයි.
මෙම මෙවලම කාර්යක්ෂමව සහ ඉක්මනින් දැවැන්ත දත්ත ප්රමාණයක් හසුරුවයි. මෙන්න ආරම්භක නිබන්ධන කිහිපයක්.
කිහිප දෙනකුගේ
- සරල පරිශීලක අතුරුමුහුණත
- සුප්රසිද්ධ ඇල්ගොරිතම කාර්යක්ෂමව භාවිතා කිරීම
- පරිගණක සමූහයක් මත, එය latent Dirichlet වෙන් කිරීම සහ ගුප්ත අර්ථ විශ්ලේෂණ සිදු කළ හැක.
අවාසි
- එය බොහෝ දුරට අධීක්ෂණය නොකළ පෙළ ආකෘති නිර්මාණය සඳහා අදහස් කෙරේ.
- එය සම්පූර්ණ NLP නල මාර්ගයක් නොමැති අතර Spacy හෝ NLTK වැනි අනෙකුත් පුස්තකාල සමඟ ඒකාබද්ධව භාවිතා කළ යුතුය.
4. TextBlob
TextBlob යනු NLTK දිගුවකි.
TextBlob හරහා, ඔබට NLTK කාර්යයන් රාශියකට වඩා පහසුවෙන් ප්රවේශ විය හැකි අතර, TextBlob විසින් රටා පුස්තකාල හැකියාවන් ද ඇතුළත් කරයි.
ඔබ දැන් පටන් ගන්නේ නම්, ඉගෙනීමේදී භාවිතා කිරීමට මෙය ප්රයෝජනවත් මෙවලමක් විය හැකි අතර, එය බොහෝ කාර්ය සාධනයක් අවශ්ය නොවන යෙදුම් සඳහා නිෂ්පාදනයේදී භාවිතා කළ හැක.
එය එකම NLP කාර්යයන් සිදු කිරීම සඳහා වඩාත් පරිශීලක-හිතකාමී සහ සරල අතුරු මුහුණතක් ලබා දෙයි.
එහි ඉගෙනුම් වක්රය අනෙකුත් විවෘත මූලාශ්ර මෙවලම්වලට වඩා අඩු බැවින් හැඟීම් විශ්ලේෂණය, පෙළ වර්ගීකරණය සහ කථනයේ කොටසක් ටැග් කිරීම වැනි NLP කාර්යයන් භාර ගැනීමට කැමති නවකයන් සඳහා එය කදිම විකල්පයකි.
TextBlob බහුලව භාවිතා වන අතර සමස්තයක් වශයෙන් කුඩා ව්යාපෘති සඳහා විශිෂ්ටයි.
කිහිප දෙනකුගේ
- පුස්තකාලයේ පරිශීලක අතුරුමුහුණත සරල සහ පැහැදිලිය.
- එය Google Translate භාවිතයෙන් භාෂා හඳුනාගැනීමේ සහ පරිවර්තන සේවා සපයයි.
අවාසි
- අනෙක් ඒවාට සාපේක්ෂව එය මන්දගාමී වේ.
- ස්නායු ජාල වල ආකෘති නොමැත
- වචන දෛශික ඒකාබද්ධ කර නැත
5. OpenNLP
Apache Flink, Apache NiFi, සහ Apache Spark වැනි අනෙකුත් Apache ව්යාපෘති සමඟ OpenNLP සංස්ථාගත කිරීම සරල වන්නේ එය Apache පදනම මගින් සත්කාරකත්වය සපයන බැවිනි.
එය විධාන රේඛාවෙන් හෝ යෙදුමක පුස්තකාලයක් ලෙස භාවිතා කළ හැකි විස්තීර්ණ NLP මෙවලමකි.
එයට NLP හි සියලුම පොදු සැකසුම් සංරචක ඇතුළත් වේ.
මීට අමතරව, එය පුළුල් භාෂා සහාය ලබා දෙයි. ඔබ ජාවා භාවිතා කරන්නේ නම්, OpenNLP යනු නිෂ්පාදන කාර්ය භාරය සඳහා සූදානම් කර ඇති හැකියාවන් ටොන් ගණනක් සහිත ශක්තිමත් මෙවලමකි.
ටෝකනීකරණය, වාක්ය ඛණ්ඩනය සහ කථනයේ කොටසක් ටැග් කිරීම වැනි සාමාන්ය NLP කාර්යයන් සක්රීය කිරීමට අමතරව, වඩාත් සංකීර්ණ පෙළ සැකසුම් යෙදුම් නිර්මාණය කිරීමට OpenNLP භාවිතා කළ හැක.
උපරිම එන්ට්රොපිය සහ පර්සෙප්ට්රෝන මත පදනම් වූ යන්ත්ර ඉගෙනීම ද ඇතුළත් වේ.
කිහිප දෙනකුගේ
- විශේෂාංග කිහිපයක් සහිත ආදර්ශ පුහුණු මෙවලමක්
- මූලික NLP කාර්යයන් කෙරෙහි අවධානය යොමු කරන අතර ආයතන හඳුනාගැනීම, වාක්ය ඛණ්ඩ හඳුනාගැනීම සහ ටෝකනීකරණය ඇතුළු ඒවායින් විශිෂ්ටයි.
අවාසි
- සංකීර්ණ හැකියාවන් නොමැතිකම; ඔබට JVM සමඟ ඉදිරියට යාමට අවශ්ය නම්, CoreNLP වෙත යාම මීළඟ ස්වභාවික පියවරයි.
6. ඇලන්එන්එල්පී
එය PyTorch මෙවලම් සහ සම්පත් මත ගොඩනගා ඇති බැවින් වාණිජ යෙදුම් සහ දත්ත විශ්ලේෂණය සඳහා AllenNLP වඩාත් සුදුසු වේ.
එය පෙළ විශ්ලේෂණය සඳහා සියල්ල ඇතුළත් මෙවලමක් දක්වා වර්ධනය වේ.
මෙය ලැයිස්තුවේ වඩාත් සංකීර්ණ ස්වභාවික භාෂා සැකසුම් මෙවලම්වලින් එකක් බවට පත් කරයි. අනෙකුත් කාර්යයන් ස්වාධීනව සිදු කරන අතරතුර, AllenNLP නොමිලේ SpaCy විවෘත මූලාශ්ර පැකේජය භාවිතයෙන් දත්ත පෙර සකසයි.
AllenNLP හි ප්රධාන විකුණුම් ස්ථානය වන්නේ එය භාවිතා කිරීම කොතරම් පහසුද යන්නයි.
මොඩියුල කිහිපයක් ඇතුළත් අනෙකුත් NLP වැඩසටහන් වලට ප්රතිවිරුද්ධව, AllenNLP ස්වභාවික භාෂා සැකසුම් ක්රියාවලිය විධිමත් කරයි.
එහි ප්රතිඵලයක් වශයෙන්, නිමැවුම් ප්රතිඵල කිසිවිටක ව්යාකූල බවක් දැනෙන්නේ නැත. වැඩි දැනුමක් නැති අයට එය අපූරු මෙවලමකි.
කිහිප දෙනකුගේ
- PyTorch මත සංවර්ධනය කර ඇත
- අති නවීන මාදිලි භාවිතා කරමින් ගවේෂණය කිරීම සහ අත්හදා බැලීම සඳහා විශිෂ්ටයි
- එය වාණිජමය වශයෙන් මෙන්ම ශාස්ත්රීය වශයෙන්ද භාවිතා කළ හැක
අවාසි
- දැනට නිෂ්පාදනය වෙමින් පවතින මහා පරිමාණ ව්යාපෘති සඳහා සුදුසු නොවේ.
නිගමනය
ඊමේල්, මාර්ගගත සමාලෝචන, වැනි ව්යුහගත නොවන පෙළ දත්ත වලින් තීක්ෂ්ණ බුද්ධිය ලබා ගැනීමට සමාගම් NLP ශිල්පීය ක්රම භාවිතා කරයි. සමාජ මාධ්ය පළ කිරීම්, සහ තවත්. විවෘත මූලාශ්ර මෙවලම් පිරිවැය-නිදහස්, අනුවර්තනය කළ හැකි සහ සංවර්ධකයින්ට සම්පූර්ණ අභිරුචිකරණ විකල්ප ලබා දෙයි.
ඔබ බලා සිටින්නේ කුමක් සඳහාද? ඒවා වහාම භාවිතා කර ඇදහිය නොහැකි දෙයක් නිර්මාණය කරන්න.
සුබ කේතීකරණයක්!
ඔබමයි