පටුන[සඟවන්න][පෙන්වන්න]
ඔබ කෘතිම බුද්ධිය ගැන මෙන්ම යන්ත්ර ඉගෙනීම සහ ස්වාභාවික භාෂා සැකසුම් (NLP) වැනි වචන ගැන අසා ඇති බව මට විශ්වාසයි.
විශේෂයෙන් ඔබ සෑම දිනකම සේවාදායක සම්බන්ධතා සිය ගණනක්, එසේත් නැතිනම් දහස් ගණනක් හසුරුවන සමාගමක් සඳහා වැඩ කරන්නේ නම්.
සමාජ මාධ්ය පළ කිරීම්, ඊමේල්, කතාබස්, විවෘත සමීක්ෂණ පිළිතුරු සහ වෙනත් මූලාශ්රවල දත්ත විශ්ලේෂණය සරල ක්රියාවලියක් නොවන අතර පුද්ගලයන්ට පමණක් භාර දුන් විට එය වඩාත් අපහසු වේ.
බොහෝ අය විභවය ගැන උද්යෝගිමත් වන්නේ එබැවිනි කෘතිම බුද්ධිය ඔවුන්ගේ එදිනෙදා වැඩ සහ ව්යවසායන් සඳහා .
AI බලයෙන් ක්රියාත්මක වන පෙළ විශ්ලේෂණය මඟින් භාෂාව ඓන්ද්රීයව අර්ථකථනය කිරීම සඳහා පුළුල් පරාසයක ප්රවේශයන් හෝ ඇල්ගොරිතම භාවිතා කරයි, ඉන් එකක් මාතෘකා විශ්ලේෂණය, එය පෙළවලින් විෂයයන් ස්වයංක්රීයව සොයා ගැනීමට භාවිතා කරයි.
ව්යාපාරවලට මාතෘකා විශ්ලේෂණ ආකෘති භාවිත කළ හැකි අතර, වැඩි දත්ත සහිත සේවකයන්ට බර පටවනවාට වඩා පහසු රැකියා යන්ත්රවලට මාරු කළ හැකිය.
සෑම උදෑසනකම පාරිභෝගික සමීක්ෂණ හෝ ආධාරක ගැටළු නිමක් නැති ලැයිස්තු හරහා පරිගණකයකට පෙරීමට හැකි නම්, ඔබේ කණ්ඩායමට කොපමණ කාලයක් ඉතිරි කර ගැනීමට සහ වඩාත් අත්යවශ්ය වැඩ සඳහා කැප කළ හැකිද යන්න සලකා බලන්න.
මෙම මාර්ගෝපදේශය තුළ, අපි මාතෘකා ආකෘති නිර්මාණය, මාතෘකා ආකෘතිකරණයේ විවිධ ක්රම පිළිබඳව සොයා බලමින්, ඒ සමඟ ප්රායෝගික අත්දැකීමක් ලබා ගනිමු.
මාතෘකා ආකෘතිකරණය යනු කුමක්ද?
මාතෘකා ආකෘති නිර්මාණය යනු අධීක්ෂණය නොකළ සහ අධීක්ෂණය කරන ලද සංඛ්යානමය පෙළ පතල් වර්ගයකි යන්ත්ර ඉගෙනීම සංගතයක ප්රවණතා හඳුනා ගැනීමට හෝ ව්යුහගත නොකළ පෙළෙහි සැලකිය යුතු පරිමාවක් සඳහා ශිල්පීය ක්රම භාවිත කෙරේ.
එයට ඔබේ දැවැන්ත ලේඛන එකතුවක් ගෙන වචන පද පොකුරුවලට සැකසීමට සහ විෂයයන් සොයා ගැනීමට සමානතා ක්රමයක් භාවිත කළ හැක.
එය ටිකක් සංකීර්ණ හා දුෂ්කර බව පෙනේ, එබැවින් අපි විෂය ආකෘති සැකසීමේ ක්රියා පටිපාටිය සරල කරමු!
ඔබ ඔබේ අතේ පාට හයිලයිටර් කට්ටලයක් සමඟ පුවත්පතක් කියවනවා යැයි සිතන්න.
පරණ තාලේ නැද්ද?
මට තේරෙනවා මේ දවස්වල මුද්රිත පත්තර කියවන්නේ ටික දෙනයි කියලා; සෑම දෙයක්ම ඩිජිටල් වන අතර, ඉස්මතු කරන්නන් අතීතයට අයත් දෙයක්! ඔබේ පියා හෝ මව ලෙස පෙනී සිටින්න!
එබැවින්, ඔබ පුවත්පත කියවන විට, ඔබ වැදගත් නියමයන් ඉස්මතු කරයි.
තවත් එක් උපකල්පනයක්!
විවිධ තේමා වල මූල පද අවධාරණය කිරීමට ඔබ වෙනස් පැහැයක් භාවිතා කරයි. සපයන ලද වර්ණය සහ මාතෘකා අනුව ඔබ මූල පද වර්ග කරයි.
යම් වර්ණයකින් සලකුණු කරන ලද සෑම වචන එකතුවක්ම දී ඇති මාතෘකාවක් සඳහා වන මූල පද ලැයිස්තුවකි. ඔබ තෝරාගත් විවිධ වර්ණ ප්රමාණය තේමා ගණන පෙන්වයි.
මෙය වඩාත් මූලික මාතෘකා ආකෘති නිර්මාණයයි. එය විශාල පෙළ එකතු කිරීම් තේරුම් ගැනීමට, සංවිධානය කිරීමට සහ සාරාංශ කිරීමට උපකාරී වේ.
කෙසේ වෙතත්, ඵලදායී වීමට නම්, ස්වයංක්රීය මාතෘකා ආකෘති සඳහා බොහෝ අන්තර්ගතයන් අවශ්ය බව මතක තබා ගන්න. ඔබට කෙටි කඩදාසි තිබේ නම්, ඔබට පැරණි පාසලට ගොස් හයිලයිටර් භාවිතා කිරීමට අවශ්ය විය හැකිය!
දත්ත දැන ගැනීමට යම් කාලයක් ගත කිරීම ද ප්රයෝජනවත් වේ. මාතෘකා ආකෘතිය සොයා ගත යුතු දේ පිළිබඳ මූලික හැඟීමක් මෙය ඔබට ලබා දෙනු ඇත.
නිදසුනක් වශයෙන්, එම දිනපොත ඔබගේ වර්තමාන සහ පෙර සබඳතා ගැන විය හැකිය. මේ අනුව, මගේ පෙළ පතල් රොබෝ මිතුරාට සමාන අදහස් ඉදිරිපත් කිරීමට මම අපේක්ෂා කරමි.
මෙය ඔබට ඔබ හඳුනාගෙන ඇති විෂයයන්හි ගුණාත්මකභාවය වඩා හොඳින් විශ්ලේෂණය කිරීමට සහ අවශ්ය නම්, මූල පද කට්ටල වෙනස් කිරීමට උපකාරී වේ.
මාතෘකා ආකෘති නිර්මාණයේ සංරචක
සම්භාවිතා ආකෘතිය
අහඹු විචල්යයන් සහ සම්භාවිතා ව්යාප්තිය සම්භාවිතා ආකෘතිවල සිදුවීමක් හෝ සංසිද්ධියක් නිරූපණය කිරීමට ඇතුළත් වේ.
නියතිවාදී ආකෘතියක් සිදුවීමක් සඳහා තනි විභව නිගමනයක් සපයන අතර, සම්භාවිතා ආකෘතියක් විසඳුමක් ලෙස සම්භාවිතා ව්යාප්තියක් සපයයි.
මෙම ආකෘතීන් අපට යම් තත්වයක් පිළිබඳ සම්පූර්ණ දැනුමක් ඇත්තේ කලාතුරකිනි යන යථාර්ථය සලකා බලයි. සෑම විටම පාහේ සලකා බැලිය යුතු අහඹුකමේ අංගයක් තිබේ.
නිදසුනක් වශයෙන්, ජීවිත රක්ෂණය පුරෝකථනය කර ඇත්තේ අප මිය යනු ඇති බව අප දන්නා නමුත් කවදාදැයි අපි නොදනිමු. මෙම ආකෘති අර්ධ වශයෙන් තීරණාත්මක, අර්ධ වශයෙන් අහඹු හෝ සම්පූර්ණයෙන්ම අහඹු විය හැකිය.
තොරතුරු ලබා ගැනීම
තොරතුරු ලබා ගැනීම (IR) යනු ලේඛන ගබඩාවලින් තොරතුරු, විශේෂයෙන් පාඨමය තොරතුරු සංවිධානය කිරීම, ගබඩා කිරීම, ලබා ගැනීම සහ ඇගයීම සිදු කරන මෘදුකාංග වැඩසටහනකි.
තාක්ෂණය පරිශීලකයින්ට අවශ්ය තොරතුරු සොයා ගැනීමට උපකාර කරයි, නමුත් එය ඔවුන්ගේ විමසීම්වලට පිළිතුරු පැහැදිලිව ලබා නොදේ. අවශ්ය තොරතුරු සැපයිය හැකි පත්රිකා තිබීම සහ පිහිටීම පිළිබඳව එය දැනුම් දෙයි.
අදාළ ලේඛන යනු පරිශීලකයාගේ අවශ්යතා සපුරාලන ඒවා වේ. දෝෂ රහිත IR පද්ධතියක් තෝරාගත් ලේඛන පමණක් ආපසු ලබා දෙනු ඇත.
මාතෘකා සහජීවනය
මාතෘකාවේ ඉහළ ලකුණු ලබා ගැනීමේ නියමයන් අතර අර්ථකථන සමානතා මට්ටම ගණනය කිරීම මගින් Topic Coherence තනි මාතෘකාවක් ලකුණු කරයි. මෙම ප්රමිතික අර්ථ නිරූපණය කළ හැකි විෂයයන් සහ සංඛ්යාන අනුමාන කෞතුක භාණ්ඩ වන මාතෘකා අතර වෙනස හඳුනා ගැනීමට උපකාරී වේ.
හිමිකම් හෝ කරුණු සමූහයක් එකිනෙකාට සහය දක්වන්නේ නම්, ඒවා සුසංයෝගී යැයි කියනු ලැබේ.
එහි ප්රතිඵලයක් වශයෙන්, සියලු කරුණු හෝ බහුතරයක් ඇතුළත් සන්දර්භයක් තුළ සමෝධානික කරුණු සමූහයක් තේරුම් ගත හැකිය. "ක්රීඩාව කණ්ඩායම් ක්රීඩාවකි," "ක්රීඩාව බෝලයකින් ක්රීඩා කරයි" සහ "ක්රීඩාවට දැවැන්ත ශාරීරික වෙහෙසක් අවශ්ය වේ" යන සියල්ල සමෝධානික කරුණු කට්ටල සඳහා උදාහරණ වේ.
මාතෘකා ආකෘතිකරණයේ විවිධ ක්රම
මෙම තීරණාත්මක ක්රියා පටිපාටිය විවිධ ඇල්ගොරිතම හෝ ක්රමවේද මගින් සිදු කළ හැක. ඒවා අතර:
- ගුප්ත ඩිරිච්ලට් වෙන් කිරීම (LDA)
- සෘණ නොවන අනුකෘති සාධකකරණය (NMF)
- ගුප්ත අර්ථ විශ්ලේෂණ (LSA)
- සම්භාවිතා ගුප්ත අර්ථ විශ්ලේෂණ (pLSA)
ගුප්ත ඩිරිච්ලට් වෙන් කිරීම (LDA)
කෝපස් එකක බහු පාඨ අතර සම්බන්ධතා හඳුනා ගැනීමට, Latent Dirichlet Allocation හි සංඛ්යානමය සහ චිත්රක සංකල්පය භාවිතා වේ.
විචල්ය ව්යතිරේක උපරිම කිරීමේ (VEM) ප්රවේශය භාවිතා කරමින්, සම්පූර්ණ පෙළ එකතුවෙන් විශාලතම සම්භාවිතා ඇස්තමේන්තුව සාක්ෂාත් කරගනු ලැබේ.
සම්ප්රදායිකව, වචන මල්ලකින් ඉහළම වචන කිහිපයක් තෝරා ගනු ලැබේ.
කෙසේ වෙතත්, වාක්යය සම්පූර්ණයෙන්ම අර්ථ විරහිත ය.
මෙම තාක්ෂණයට අනුව, සෑම පාඨයක්ම විෂයයන්වල සම්භාවිතා ව්යාප්තියකින් ද, සෑම මාතෘකාවක්ම වචනවල සම්භාවිතා ව්යාප්තියකින් ද නිරූපණය කෙරේ.
සෘණ නොවන අනුකෘති සාධකකරණය (NMF)
ඍණ නොවන අගයන් සාධකකරණය සහිත Matrix යනු අති නවීන විශේෂාංග නිස්සාරණය කිරීමේ ප්රවේශයකි.
බොහෝ ගුණාංග ඇති විට සහ ගුණාංග අපැහැදිලි හෝ දුර්වල අනාවැකි ඇති විට, NMF ප්රයෝජනවත් වේ. NMF ලක්ෂණ ඒකාබද්ධ කිරීමෙන් සැලකිය යුතු රටා, විෂයයන් හෝ තේමා ජනනය කළ හැක.
NMF විසින් සෑම අංගයක්ම මුල් ගුණාංග කට්ටලයේ රේඛීය සංයෝජනයක් ලෙස ජනනය කරයි.
සෑම විශේෂාංගයක්ම විශේෂාංගයේ එක් එක් ගුණාංගයේ වැදගත්කම නියෝජනය කරන සංගුණක සමූහයක් අඩංගු වේ. සෑම සංඛ්යාත්මක ගුණාංගයකටම සහ එක් එක් කාණ්ඩයේ ගුණාංගවල සෑම අගයකටම තමන්ගේම සංගුණකය ඇත.
සියලුම සංගුණක ධනාත්මක වේ.
ගුප්ත අර්ථ විශ්ලේෂණ
ලේඛන සමූහයක වචන අතර සම්බන්ධකම් උකහා ගැනීමට භාවිතා කරන තවත් අධීක්ෂණය නොකළ ඉගෙනුම් ක්රමයක් වන්නේ ගුප්ත අර්ථ විශ්ලේෂනයයි.
මෙය නිවැරදි ලේඛන තෝරා ගැනීමට අපට උපකාරී වේ. එහි මූලික කාර්යය වන්නේ පෙළ දත්තවල අතිවිශාල කෝපස් වල මානය අඩු කිරීමයි.
මෙම අනවශ්ය දත්ත දත්ත වලින් අවශ්ය තීක්ෂ්ණ බුද්ධිය ලබා ගැනීමේ පසුබිම් ශබ්දයක් ලෙස ක්රියා කරයි.
සම්භාවිතා ගුප්ත අර්ථ විශ්ලේෂණ (pLSA)
සම්භාවිතා ගුප්ත අර්ථකථන විශ්ලේෂණය (PLSA), සමහර විට සම්භාවිතා ගුප්ත අර්ථකථන සුචිකරණය (PLSI, විශේෂයෙන් තොරතුරු ලබා ගැනීමේ කවයන් තුළ) ලෙස හැඳින්වේ, ද්වි-මාදිලි සහ සම-සිදුවීම් දත්ත විශ්ලේෂණය කිරීම සඳහා සංඛ්යානමය ප්රවේශයකි.
ඇත්ත වශයෙන්ම, PLSA මතු වූ ගුප්ත අර්ථ විශ්ලේෂණවලට සමානව, නිරීක්ෂණය කරන ලද විචල්යවල අඩු-මාන නිරූපණයක් විශේෂිත සැඟවුණු විචල්යයන් සමඟ ඇති සම්බන්ධය අනුව ව්යුත්පන්න කළ හැකිය.
Python හි මාතෘකා ආකෘතිකරණය සමඟ අත්වැල් බැඳගන්න
දැන්, මම ඔබට පයිතන් සමඟ විෂය ආකෘති නිර්මාණ පැවරුමක් හරහා යන්නම් ක්රමලේඛන භාෂාව සැබෑ ලෝක උදාහරණයක් භාවිතා කරමින්.
මම පර්යේෂණ ලිපි ආකෘති නිර්මාණය කරන්නම්. මම මෙහි භාවිතා කරන දත්ත කට්ටලය kaggle.com වෙතින් පැමිණේ. මම මේ වැඩේට පාවිච්චි කරන ෆයිල් ඔක්කොම මේකෙන් ලේසියෙන්ම ගන්න පුළුවන් පිටුව.
අත්යවශ්ය පුස්තකාල සියල්ල ආනයනය කිරීමෙන් පයිතන් භාවිතයෙන් මාතෘකා ආකෘතිකරණය ආරම්භ කරමු:
පහත පියවර වන්නේ මම මෙම කාර්යයේදී භාවිතා කරන සියලුම දත්ත කට්ටල කියවීමයි:
ගවේෂණාත්මක දත්ත විශ්ලේෂණය
EDA (ගවේෂණාත්මක දත්ත විශ්ලේෂණය) යනු දෘශ්ය මූලද්රව්ය භාවිතා කරන සංඛ්යානමය ක්රමයකි. එය ප්රවණතා, රටා සහ පරීක්ෂණ උපකල්පන සොයා ගැනීමට සංඛ්යානමය සාරාංශ සහ චිත්රක නිරූපණය භාවිතා කරයි.
මම මාතෘකා ආකෘතිකරණය ආරම්භ කිරීමට පෙර දත්තවල කිසියම් රටාවක් හෝ සම්බන්ධතා තිබේදැයි බැලීමට ගවේෂණාත්මක දත්ත විශ්ලේෂණයක් කරන්නෙමි:
දැන් අපි පරීක්ෂණ දත්ත කට්ටලයේ ශුන්ය අගයන් සොයා ගනිමු:
දැන් මම විචල්යයන් අතර සම්බන්ධය පරීක්ෂා කිරීමට හිස්ටෝග්රෑම් සහ බොක්ස්ප්ලොට් සැලසුම් කරමි.
දුම්රිය කට්ටලයේ සාරාංශවල අක්ෂර ප්රමාණය බොහෝ සෙයින් වෙනස් වේ.
දුම්රියේ, අපට අවම වශයෙන් අක්ෂර 54 ක් සහ උපරිම 4551 ක් ඇත. 1065 යනු සාමාන්ය අක්ෂර ප්රමාණයයි.
පරීක්ෂණ කට්ටලයේ අක්ෂර 46 ක් සහ පුහුණු කට්ටලයේ 2841 ක් ඇති බැවින් පරීක්ෂණ කට්ටලය පුහුණු කට්ටලයට වඩා රසවත් බව පෙනේ.
එහි ප්රතිඵලයක් වශයෙන්, පරීක්ෂණ කට්ටලයට අක්ෂර 1058 ක මධ්යයක් තිබුණි, එය පුහුණු කට්ටලයට සමාන වේ.
ඉගෙනුම් කට්ටලයේ වචන ගණන අකුරු ගණනට සමාන රටාවක් අනුගමනය කරයි.
අවම වශයෙන් වචන 8 ක් සහ උපරිම වචන 665 ක් සඳහා අවසර දෙනු ලැබේ. එහි ප්රතිඵලයක් ලෙස මධ්ය වචන ගණන 153 කි.
සාරාංශයක අවම වශයෙන් වචන හතක් සහ පරීක්ෂණ කට්ටලයේ උපරිම වචන 452ක් අවශ්ය වේ.
මධ්යන්යය, මෙම නඩුවේ, පුහුණු කට්ටලයේ මධ්යන්යයට සමාන වන 153 වේ.
මාතෘකා ආකෘතිකරණය සඳහා ටැග් භාවිතා කිරීම
මාතෘකා ආකෘතිකරණ උපාය මාර්ග කිහිපයක් තිබේ. මම මෙම අභ්යාසයේදී ටැග් භාවිතා කරමි; ටැග් පරීක්ෂා කිරීමෙන් එය කරන්නේ කෙසේදැයි බලමු:
මාතෘකා ආකෘතිකරණයේ යෙදුම්
- ලේඛනයක හෝ පොතක මාතෘකාව හඳුනා ගැනීමට පෙළ සාරාංශයක් භාවිතා කළ හැක.
- විභාග ලකුණු වලින් අපේක්ෂක නැඹුරුව ඉවත් කිරීමට එය භාවිතා කළ හැකිය.
- ප්රස්ථාර-පාදක ආකෘතිවල වචන අතර අර්ථකථන සම්බන්ධතා ගොඩනැගීමට මාතෘකා ආකෘතිකරණය භාවිතා කළ හැක.
- සේවාලාභියාගේ විමසුමේදී මූල පද හඳුනාගෙන ඒවාට ප්රතිචාර දැක්වීමෙන් පාරිභෝගික සේවාව වැඩිදියුණු කළ හැක. ඔබ ඔවුන්ට අවශ්ය සහය ඔවුන්ට අවශ්ය මොහොතේ දී සහ ඔවුන්ට කරදරයක් නොවන පරිදි ලබා දී ඇති බැවින් පාරිභෝගිකයන් ඔබ කෙරෙහි වැඩි විශ්වාසයක් තබනු ඇත. එහි ප්රතිඵලයක් වශයෙන්, සේවාලාභීන්ගේ පක්ෂපාතිත්වය නාටකාකාර ලෙස ඉහළ යන අතර, සමාගමේ වටිනාකම වැඩිවේ.
නිගමනය
මාතෘකා ආකෘති නිර්මාණය යනු පෙළ එකතුවක පවතින වියුක්ත "විෂයයන්" අනාවරණය කර ගැනීමට භාවිතා කරන සංඛ්යානමය ආකෘති නිර්මාණයකි.
එය භාවිතා කරන සංඛ්යාන ආකෘතියේ ආකාරයකි යන්ත්ර ඉගෙනීම සහ පාඨ මාලාවක පවතින වියුක්ත සංකල්ප අනාවරණය කර ගැනීම සඳහා ස්වභාවික භාෂා සැකසීම.
එය ශරීර පෙළෙහි ගුප්ත අර්ථකථන රටා සෙවීමට බහුලව භාවිතා වන පෙළ පතල් ක්රමයකි.
ඔබමයි