පටුන[සඟවන්න][පෙන්වන්න]
2021 වන විට පාරිභෝගික අන්තර්ක්රියා දත්ත අත්පත් කර ගැනීම ව්යාපාර විසින් ප්රගුණ කර ඇත.
අනෙක් අතට, මෙම දත්ත ලක්ෂ්ය මත අධික ලෙස රඳා පැවතීම, පාරිභෝගිකයාගේ හඬට සවන් දීම සඳහා තරමක් ඒකමාන ප්රවේශයක් වන පාරිභෝගික ආදානය සංඛ්යාලේඛනයක් ලෙස සැලකීමට ආයතන නිතර යොමු කරයි.
පාරිභෝගිකයාගේ හඬ ලාංඡනය හෝ අංකයක් බවට පරිවර්තනය කළ නොහැක.
එය කියවිය යුතුය, ඝනීභවනය කළ යුතු අතර, සියල්ලටත් වඩා, තේරුම් ගත යුතුය.
කාරණය නම්, දුරකථන ඇමතුම්, ඊමේල් හෝ සජීවී කතාබස් හරහා ඔවුන් සමඟ අන්තර් ක්රියා කරන සෑම නාලිකාවකම තම පාරිභෝගිකයින්ට පවසන දේට සමාගම් ක්රියාකාරීව සවන් දිය යුතු බවයි.
සෑම සමාගමක්ම පාරිභෝගික ප්රතිපෝෂණ මනෝභාවයන් අධීක්ෂණය සහ ඇගයීමට ප්රමුඛත්වය දිය යුතුය, නමුත් සමාගම් සම්ප්රදායිකව මෙම දත්ත හැසිරවීමට සහ එය අර්ථවත් බුද්ධියක් බවට පරිවර්තනය කිරීමට අරගල කර ඇත.
හැඟීම් විශ්ලේෂණය සම්බන්ධයෙන් මෙය තවදුරටත් සිදු නොවේ.
මෙම නිබන්ධනයේදී, අපි හැඟීම් විශ්ලේෂණය, එහි වාසි සහ භාවිතා කරන ආකාරය දෙස සමීපව බලමු. NLTK දත්ත මත හැඟීම් විශ්ලේෂණය කිරීමට පුස්තකාලය.
හැඟීම් විශ්ලේෂණය යනු කුමක්ද?
හැඟීම් විශ්ලේෂණය, බොහෝ විට සංවාද පතල් ලෙස හැඳින්වේ, මිනිසුන්ගේ හැඟීම්, සිතුවිලි සහ අදහස් විශ්ලේෂණය කිරීමේ ක්රමයකි.
හැඟීම් විශ්ලේෂණය ව්යාපාරවලට තම පාරිභෝගිකයන් පිළිබඳ වඩා හොඳ අවබෝධයක් ලබා ගැනීමට, ආදායම වැඩි කිරීමට සහ සේවාදායක ආදානය මත පදනම්ව ඔවුන්ගේ නිෂ්පාදන සහ සේවාවන් වැඩිදියුණු කිරීමට ඉඩ සලසයි.
පාරිභෝගික හැඟීම් විශ්ලේෂණය කළ හැකි මෘදුකාංග පද්ධතියක් සහ එය අඩු කිරීමට උත්සාහ කරන විකුණුම්කරු/පාරිභෝගික සේවා නියෝජිතයෙකු අතර වෙනස වන්නේ අමු පාඨයෙන් වෛෂයික ප්රතිඵල ලබා ගැනීමට හිටපු පුද්ගලයාගේ සම්පූර්ණ හැකියාවයි - මෙය මූලික වශයෙන් ස්වාභාවික භාෂා සැකසුම් (NLP) හරහා සිදු කෙරේ. යන්ත්ර ඉගෙනීම තාක්ෂණය.
හැඟීම් හඳුනාගැනීමේ සිට පෙළ වර්ගීකරණය දක්වා, හැඟීම් විශ්ලේෂණයට පුළුල් පරාසයක යෙදුම් තිබේ. නිෂ්පාදන ඇගයීම්වල හෝ පාරිභෝගික ප්රතිපෝෂණවල හැඟීම් අධීක්ෂණය කිරීමට සමාගමකට සහාය වීම සඳහා අපි පෙළ දත්ත මත හැඟීම් විශ්ලේෂණය භාවිතා කරමු.
පළකිරීම්වල හැඟීම් තක්සේරු කිරීමට විවිධ සමාජ මාධ්ය වෙබ් අඩවි එය භාවිතා කරන අතර, හැඟීම් ඉතා ප්රබල හෝ ප්රචණ්ඩකාරී නම්, හෝ ඔවුන්ගේ සීමාවට වඩා පහළට වැටේ නම්, පළ කිරීම මකා හෝ සඟවනු ලැබේ.
හැඟීම් හඳුනාගැනීමේ සිට පෙළ වර්ගීකරණය දක්වා සෑම දෙයක් සඳහාම හැඟීම් විශ්ලේෂණය භාවිතා කළ හැක.
චිත්තවේගීය විශ්ලේෂණයේ වඩාත් ජනප්රිය භාවිතය වන්නේ පාඨමය දත්ත මත වන අතර, එය නිෂ්පාදන ඇගයීම් හෝ පාරිභෝගික අදහස් පිළිබඳ මනෝභාවයන් හඹා යාමට සමාගමකට උපකාර කිරීමට භාවිතා කරයි.
විවිධ සමාජ මාධ්ය වෙබ් අඩවි ද පළකිරීම්වල හැඟීම් තක්සේරු කිරීමට එය භාවිතා කරන අතර, හැඟීම් ඉතා ප්රබල හෝ ප්රචණ්ඩකාරී නම්, හෝ ඔවුන්ගේ සීමාවට වඩා අඩු නම්, ඔවුන් පළ කිරීම මකා හෝ සඟවයි.
හැඟීම් විශ්ලේෂණයේ ප්රතිලාභ
පහත දැක්වෙන්නේ නොසලකා හැරිය යුතු හැඟීම් විශ්ලේෂණයේ වැදගත්ම ප්රතිලාභ කිහිපයකි.
- ඔබේ ඉලක්ක ජනවිකාස අතර ඔබේ වෙළඳ නාමය පිළිබඳ සංජානනය තක්සේරු කිරීමට උදවු කරන්න.
- ඔබේ නිෂ්පාදනය දියුණු කිරීමට ඔබට උපකාර කිරීම සඳහා සෘජු සේවාදායක ප්රතිපෝෂණ සපයනු ලැබේ.
- විකුණුම් ආදායම සහ අපේක්ෂාවන් වැඩි කරයි.
- ඔබේ නිෂ්පාදනයේ ශූරයන් සඳහා ඉහළ විකුණුම් අවස්ථා වැඩි වී ඇත.
- ක්රියාශීලී පාරිභෝගික සේවාව ප්රායෝගික විකල්පයකි.
අලෙවිකරණ ව්යාපාරයක අමු කාර්ය සාධනය, අපේක්ෂා කරන ඇමතුමක නියැලීමේ ප්රමාණය, සහ පාරිභෝගික සහය තුළ අපේක්ෂිත ප්රවේශපත්ර සංඛ්යාව වැනි තොරතුරු අංකවලට ඔබට සැපයිය හැකිය.
කෙසේ වෙතත්, නිශ්චිත සිදුවීමක් සිදු වූයේ ඇයිද යන්න හෝ එයට හේතුව කුමක්ද යන්න එය ඔබට නොකියයි. උදාහරණයක් ලෙස, Google සහ Facebook වැනි විශ්ලේෂණ මෙවලම්, ඔබේ අලෙවිකරණ ප්රයත්නවල කාර්ය සාධනය තක්සේරු කිරීමට ඔබට උදවු කළ හැක.
නමුත් එම නිශ්චිත ව්යාපාරය සාර්ථක වූයේ මන්දැයි ඔවුන් ඔබට ගැඹුරු දැනුමක් ලබා නොදේ.
හැඟීම් විශ්ලේෂණයට මේ සම්බන්ධයෙන් ක්රීඩාව වෙනස් කිරීමේ හැකියාව ඇත.
හැඟීම් විශ්ලේෂණය - ගැටළු ප්රකාශය
ට්වීට් මත පදනම්ව එක්සත් ජනපද ගුවන් සමාගම් හයක් සම්බන්ධයෙන් ට්වීට් එකකට හිතකර, සෘණාත්මක හෝ මධ්යස්ථ හැඟීම් තිබේද යන්න තීරණය කිරීම අරමුණයි.
මෙය සම්මත අධීක්ෂිත ඉගෙනුම් කාර්යයක් වන අතර, අපි පෙළ තන්තුවක් ලබා දී ඇති පෙර තීරණය කළ ප්රවර්ගවලට පෙළ තන්තුවක් වර්ග කළ යුතුය.
විසඳුමක්
මෙම ගැටළුව විසඳීම සඳහා අපි සම්මත යන්ත්ර ඉගෙනුම් ක්රියාවලිය භාවිතා කරන්නෙමු. අවශ්ය පුස්තකාල සහ දත්ත කට්ටල ආයාත කිරීමෙන් අපි ආරම්භ කරන්නෙමු.
ඉන්පසුව අපි දත්තවල කිසියම් රටාවක් තිබේද යන්න තීරණය කිරීමට ගවේෂණාත්මක දත්ත විශ්ලේෂණයක් සිදු කරන්නෙමු. ඉන්පසුව, අපි පාඨමය ආදාන සංඛ්යාත්මක දත්ත හැරවීමට පෙළ පෙර සැකසුම් සිදු කරන්නෙමු a යන්ත්ර ඉගෙනීම පද්ධතිය භාවිතා කළ හැක.
අවසාන වශයෙන්, අපි යන්ත්ර ඉගෙනීමේ ක්රම භාවිතයෙන් අපගේ හැඟීම් විශ්ලේෂණ ආකෘති පුහුණු කර ඇගයීමට ලක් කරන්නෙමු.
1. පුස්තකාල ආනයනය කිරීම
අවශ්ය පුස්තකාල පූරණය කරන්න.
2. දත්ත කට්ටලය ආයාත කරන්න
මෙම ලිපිය සොයා ගත හැකි දත්ත කට්ටලයක් මත පදනම් වනු ඇත Github. පහත දැක්වෙන පරිදි, Pandas හි කියවීමේ CSV ශ්රිතය භාවිතයෙන් දත්ත කට්ටලය ආයාත කෙරේ:
head() ශ්රිතය භාවිතා කරමින්, දත්ත කට්ටලයේ පළමු පේළි පහ පරීක්ෂා කරන්න:
ප්රතිදාන:
3. දත්ත විශ්ලේෂණය
යම් ප්රවණතා තිබේදැයි තීරණය කිරීමට අපි දත්ත පරීක්ෂා කරමු. නමුත් පළමුව, අපි ප්රස්ථාර වඩාත් දෘශ්යමාන කිරීමට පෙරනිමි බිම් ප්රමාණය වෙනස් කරන්නෙමු.
එක් එක් ගුවන් සමාගමට ලැබුණු ට්වීට් සංඛ්යාවෙන් අපි පටන් ගනිමු. අපි මේ සඳහා පයි ප්රස්ථාරයක් භාවිතා කරමු:
එක් එක් ගුවන් සමාගම සඳහා පොදු ට්වීට් ප්රතිශතය ප්රතිදානයේ සංදර්ශන කෙරේ.
සියලුම ට්වීට් හරහා හැඟීම් බෙදා හරින ආකාරය දෙස බලමු.
ප්රතිදාන:
අපි දැන් එක් එක් විශේෂිත ගුවන් සේවය සඳහා මනෝභාවය බෙදා හැරීම පරීක්ෂා කරමු.
ප්රතිඵලවලට අනුව, මධ්යස්ථ සහ හොඳ ට්වීට් අනුගමනය කරමින්, සියලුම ගුවන් සමාගම් සඳහා ට්වීට් විශාල ප්රමාණයක් අහිතකර ය. වර්ජින් ඇමරිකා සමහර විට හැඟීම් තුනේ අනුපාතය සැසඳිය හැකි එකම ගුවන් සේවය විය හැකිය.
ප්රතිදාන:
අවසාන වශයෙන්, අපි හැඟීම් කාණ්ඩ තුනකින් ට්වීට් සඳහා සාමාන්ය විශ්වාසනීය මට්ටම ලබා ගැනීමට Seaborn පුස්තකාලය භාවිතා කරන්නෙමු.
ප්රතිදාන:
ප්රතිඵලය පෙන්නුම් කරන්නේ ධනාත්මක හෝ මධ්යස්ථ ට්වීට් වලට වඩා සෘණ ට්වීට් සඳහා විශ්වාස මට්ටම වැඩි බවයි.
4. දත්ත පිරිසිදු කිරීම
බොහෝ ස්ලැන්ග් පද සහ විරාම ලකුණු ට්වීට් වල සොයාගත හැකිය. යන්ත්ර ඉගෙනීමේ ආකෘතිය පුහුණු කිරීමට පෙර, අපි අපගේ ට්වීට් පිරිසිදු කළ යුතුය.
කෙසේ වෙතත්, අපි ට්වීට් පිරිසිදු කිරීම ආරම්භ කිරීමට පෙර, අපි අපගේ දත්ත කට්ටලය විශේෂාංග සහ ලේබල් කට්ටලවලට වෙන් කළ යුතුය.
අපි එය විශේෂාංග සහ පුහුණු කට්ටලවලට වෙන් කළ පසු අපට දත්ත පිරිසිදු කළ හැක. මෙය සිදු කිරීම සඳහා නිතිපතා ප්රකාශන භාවිතා කරනු ඇත.
5. පෙළෙහි සංඛ්යාත්මක නිරූපණය
යන්ත්ර ඉගෙනුම් ආකෘති පුහුණු කිරීම සඳහා සංඛ්යානමය ඇල්ගොරිතම ගණිතය යොදා ගනී. අනෙක් අතට, ගණිතය ක්රියා කරන්නේ සංඛ්යා සමඟ පමණි.
සංඛ්යානමය ඇල්ගොරිතම සමඟ කටයුතු කිරීම සඳහා අපි පළමුව පෙළ සංඛ්යා බවට පරිවර්තනය කළ යුතුය. එසේ කිරීමට මූලික ක්රම තුනක් තිබේ: වචන මල්ල, TF-IDF, සහ Word2Vec.
වාසනාවකට මෙන්, Python's Scikit-Learn මොඩියුලයේ TfidfVectorizer පන්තිය TF-IDF විශේෂාංග දෛශික බවට පෙළ විශේෂාංග පරිවර්තනය කිරීමට භාවිතා කළ හැක.
6. දත්ත මත පදනම් වූ පුහුණු සහ පරීක්ෂණ කට්ටල නිර්මාණය කිරීම
අවසාන වශයෙන්, අපගේ ඇල්ගොරිතම පුහුණු කිරීමට පෙර අපගේ දත්ත පුහුණු සහ පරීක්ෂණ කට්ටලවලට බෙදිය යුතුය.
පුහුණු කට්ටලය ඇල්ගොරිතම පුහුණු කිරීම සඳහා භාවිතා කරනු ඇති අතර, යන්ත්ර ඉගෙනුම් ආකෘතියේ ක්රියාකාරීත්වය තක්සේරු කිරීමට පරීක්ෂණ කට්ටලය භාවිතා කරනු ඇත.
7. ආදර්ශ සංවර්ධනය
දත්ත පුහුණු සහ පරීක්ෂණ කට්ටලවලට වෙන් කළ පසු, පුහුණු දත්ත වලින් ඉගෙන ගැනීමට යන්ත්ර ඉගෙනුම් ශිල්පීය ක්රම භාවිතා කරයි.
ඔබට ඕනෑම යන්ත්ර ඉගෙනීමේ ඇල්ගොරිතමයක් භාවිතා කළ හැකිය. කෙසේ වෙතත්, සසම්භාවී වනාන්තර ප්රවේශය සාමාන්යකරණය නොවූ දත්ත සමඟ කටයුතු කිරීමට ඇති හැකියාව නිසා භාවිතා කරනු ඇත.
8. අනාවැකි සහ ආදර්ශ ඇගයීම
ආකෘතිය පුහුණු කිරීමෙන් පසු අවසාන අදියර වන්නේ අනාවැකි පළ කිරීමයි. මෙය සිදු කිරීම සඳහා, අප විසින් පුහුණු කරන ලද RandomForestClassifier පන්තියේ වස්තුවට අනාවැකි ක්රමය යෙදිය යුතුය.
අවසාන වශයෙන්, ව්යාකූල ප්රමිතික, F1 මිනුම්, නිරවද්යතාවය සහ යනාදී වර්ගීකරණ පියවර යන්ත්ර ඉගෙනුම් ආකෘතිවල ක්රියාකාරීත්වය ඇගයීම සඳහා භාවිතා කළ හැක.
ප්රතිදාන:
ප්රතිඵලවලින් පෙනෙන පරිදි අපගේ ඇල්ගොරිතම 75.30ක නිරවද්යතාවක් ලබා ගත්තේය.
නිගමනය
චිත්තවේගීය විශ්ලේෂණය යනු විශේෂිත ගැටළුවක් පිළිබඳ සමස්ත මහජන මතය හඳුනා ගැනීමට උපකාර වන බැවින් එය වඩාත් නිරන්තර NLP රැකියා වලින් එකකි.
Python පුස්තකාල කිහිපයක් හැඟීම් විශ්ලේෂණයට උපකාර වන ආකාරය අපි දුටුවෙමු.
අපි එක්සත් ජනපද ගුවන් සමාගම් හයක් ගැන පොදු ට්වීට් අධ්යයනයක් කළ අතර දළ වශයෙන් 75% ක නිරවද්යතාවයකට ළඟා විය.
ඔබට වඩා හොඳ ප්රතිඵල ලබා ගත හැකිදැයි බැලීමට, logistic regression, SVM, හෝ KNN වැනි වෙනත් යන්ත්ර ඉගෙනුම් ඇල්ගොරිතමයක් උත්සාහ කරන ලෙස මම ඔබට යෝජනා කරමි.
ඔබමයි