Python - HashDork ব্যবহার করে NLP সেন্টিমেন্ট বিশ্লেষণ

সুচিপত্র[লুকান][দেখান]

অনুভূতি বিশ্লেষণ কি?
সেন্টিমেন্ট বিশ্লেষণের সুবিধা
অনুভূতি বিশ্লেষণ - সমস্যা বিবৃতি+-
উপসংহার

ব্যবসাগুলি 2021 সালের মধ্যে ভোক্তা মিথস্ক্রিয়া ডেটা অর্জনে দক্ষতা অর্জন করবে।

এই ডেটা পয়েন্টগুলির উপর অতিরিক্ত নির্ভরতা, অন্যদিকে, প্রায়শই সংস্থাগুলিকে গ্রাহকের ইনপুটকে পরিসংখ্যান হিসাবে বিবেচনা করে - গ্রাহকের ভয়েস শোনার জন্য একটি বরং এক-মাত্রিক পদ্ধতি।

গ্রাহকের ভয়েস ব্যাজ করা যাবে না বা নম্বরে রূপান্তর করা যাবে না।

এটি অবশ্যই পড়তে হবে, ঘনীভূত করতে হবে এবং সর্বোপরি, বুঝতে হবে।

আসল বিষয়টি হ'ল কোম্পানিগুলিকে অবশ্যই সক্রিয়ভাবে শুনতে হবে যে প্রতিটি চ্যানেলের মাধ্যমে তারা তাদের সাথে যোগাযোগ করে, তা ফোন কল, ইমেল বা লাইভ চ্যাটের মাধ্যমেই হোক না কেন তাদের ভোক্তাদের কী বলতে হবে।

প্রতিটি কোম্পানির ভোক্তা প্রতিক্রিয়ার অনুভূতি পর্যবেক্ষণ এবং মূল্যায়নকে অগ্রাধিকার দেওয়া উচিত, কিন্তু কোম্পানিগুলি ঐতিহ্যগতভাবে এই ডেটা পরিচালনা করতে এবং এটিকে অর্থপূর্ণ বুদ্ধিমত্তায় রূপান্তর করতে সংগ্রাম করেছে।

সেন্টিমেন্ট অ্যানালাইসিসের ক্ষেত্রে এখন আর এমনটা হয় না।

এই টিউটোরিয়ালে, আমরা সেন্টিমেন্ট বিশ্লেষণ, এর সুবিধাগুলি এবং কীভাবে ব্যবহার করতে হয় তা ঘনিষ্ঠভাবে দেখব NLTK লাইব্রেরি তথ্যের অনুভূতি বিশ্লেষণ করতে।

অনুভূতি বিশ্লেষণ কি?

সেন্টিমেন্ট বিশ্লেষণ, প্রায়ই কথোপকথন মাইনিং হিসাবে পরিচিত, মানুষের অনুভূতি, চিন্তাভাবনা এবং দৃষ্টিভঙ্গি বিশ্লেষণ করার একটি পদ্ধতি।

সেন্টিমেন্ট বিশ্লেষণ ব্যবসাগুলিকে তাদের ভোক্তাদের সম্পর্কে আরও ভাল বোঝার, রাজস্ব বাড়াতে এবং ক্লায়েন্ট ইনপুটের উপর ভিত্তি করে তাদের পণ্য এবং পরিষেবাগুলিকে উন্নত করতে দেয়।

গ্রাহকের অনুভূতি বিশ্লেষণ করতে সক্ষম একটি সফ্টওয়্যার সিস্টেম এবং একজন বিক্রয়কর্মী/গ্রাহক পরিষেবা প্রতিনিধি যে এটি অনুমান করার চেষ্টা করে তার মধ্যে পার্থক্য হল পূর্বের কাঁচা পাঠ থেকে উদ্দেশ্যমূলক ফলাফল অর্জনের নিছক ক্ষমতা — এটি প্রাথমিকভাবে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এবং এর মাধ্যমে সম্পন্ন হয়। মেশিন লার্নিং কৌশল।

আবেগ শনাক্তকরণ থেকে পাঠ্য শ্রেণীকরণ পর্যন্ত, অনুভূতি বিশ্লেষণের বিস্তৃত অ্যাপ্লিকেশন রয়েছে। আমরা একটি দৃঢ় পণ্য মূল্যায়ন বা ভোক্তা প্রতিক্রিয়ার অনুভূতি নিরীক্ষণে সহায়তা করার জন্য পাঠ্য ডেটাতে অনুভূতি বিশ্লেষণ নিযুক্ত করি।

বিভিন্ন সোশ্যাল মিডিয়া সাইট পোস্ট করার অনুভূতি মূল্যায়ন করতে এটি ব্যবহার করে, এবং যদি আবেগ খুব শক্তিশালী বা হিংস্র হয়, বা তাদের থ্রেশহোল্ডের নিচে পড়ে, পোস্টটি মুছে ফেলা বা লুকানো হয়।

আবেগ শনাক্তকরণ থেকে পাঠ্য শ্রেণীকরণ পর্যন্ত সবকিছুর জন্য সেন্টিমেন্ট বিশ্লেষণ ব্যবহার করা যেতে পারে।

অনুভূতি বিশ্লেষণের সবচেয়ে জনপ্রিয় ব্যবহার পাঠ্য ডেটাতে, যেখানে এটি পণ্য মূল্যায়ন বা ভোক্তাদের মন্তব্যের অনুভূতি ট্র্যাক করতে একটি কোম্পানিকে সাহায্য করতে ব্যবহৃত হয়।

বিভিন্ন সোশ্যাল মিডিয়া সাইটগুলি পোস্টিংয়ের অনুভূতি মূল্যায়ন করতেও এটি ব্যবহার করে, এবং যদি আবেগ খুব শক্তিশালী বা হিংস্র হয়, বা তাদের থ্রেশহোল্ডের নিচে পড়ে, তারা পোস্টটি মুছে বা গোপন করে।

সেন্টিমেন্ট বিশ্লেষণের সুবিধা

নিম্নলিখিত সেন্টিমেন্ট বিশ্লেষণের কিছু গুরুত্বপূর্ণ সুবিধা রয়েছে যা উপেক্ষা করা উচিত নয়।

আপনার লক্ষ্য জনসংখ্যার মধ্যে আপনার ব্র্যান্ডের উপলব্ধি মূল্যায়নে সহায়তা করুন।
আপনার পণ্য বিকাশে আপনাকে সাহায্য করার জন্য সরাসরি ক্লায়েন্ট প্রতিক্রিয়া প্রদান করা হয়।
বিক্রয় আয় এবং প্রত্যাশা বাড়ায়।
আপনার পণ্যের চ্যাম্পিয়নদের আপসেল সুযোগ বেড়েছে।
সক্রিয় গ্রাহক পরিষেবা একটি বাস্তব বিকল্প।

নম্বরগুলি আপনাকে একটি বিপণন প্রচারাভিযানের অপরিশোধিত কর্মক্ষমতা, একটি সম্ভাব্য কলে ব্যস্ততার পরিমাণ এবং গ্রাহক সহায়তায় মুলতুবি থাকা টিকিটের সংখ্যার মতো তথ্য সরবরাহ করতে পারে।

যাইহোক, এটি আপনাকে বলবে না কেন একটি নির্দিষ্ট ঘটনা ঘটেছে বা কী কারণে এটি ঘটেছে। উদাহরণস্বরূপ, Google এবং Facebook-এর মতো অ্যানালিটিক্স টুলগুলি আপনাকে আপনার বিপণন প্রচেষ্টার কর্মক্ষমতা মূল্যায়ন করতে সাহায্য করতে পারে।

কিন্তু কেন সেই নির্দিষ্ট প্রচারাভিযান সফল হয়েছে সে সম্পর্কে তারা আপনাকে গভীর জ্ঞান প্রদান করে না।

সেন্টিমেন্ট অ্যানালাইসিস এই বিষয়ে গেম-চেঞ্জিং হওয়ার সম্ভাবনা রয়েছে।

অনুভূতি বিশ্লেষণ - সমস্যা বিবৃতি

উদ্দেশ্য হল টুইটের উপর ভিত্তি করে ছয়টি ইউএস এয়ারলাইন সম্পর্কে একটি টুইটের অনুকূল, নেতিবাচক বা নিরপেক্ষ আবেগ আছে কিনা তা নির্ধারণ করা।

এটি একটি স্ট্যান্ডার্ড তত্ত্বাবধান করা শেখার কাজ যেখানে আমাদের অবশ্যই একটি পাঠ্য স্ট্রিংকে একটি পাঠ্য স্ট্রিং দেওয়া পূর্বনির্ধারিত বিভাগে শ্রেণিবদ্ধ করতে হবে।

সমাধান

আমরা এই সমস্যা সমাধানের জন্য আদর্শ মেশিন লার্নিং প্রক্রিয়া ব্যবহার করব। আমরা প্রয়োজনীয় লাইব্রেরি এবং ডেটাসেট আমদানি করে শুরু করব।

তারপরে আমরা ডেটাতে কোনও নিদর্শন আছে কিনা তা নির্ধারণ করতে কিছু অনুসন্ধানমূলক ডেটা বিশ্লেষণ করব। এর পরে, আমরা পাঠ্য ইনপুট সংখ্যাসূচক ডেটা চালু করার জন্য পাঠ্য প্রিপ্রসেসিং গ্রহণ করব যা একটি মেশিন লার্নিং সিস্টেম ব্যবহার করতে পারেন।

অবশেষে, আমরা মেশিন লার্নিং পদ্ধতি ব্যবহার করে আমাদের অনুভূতি বিশ্লেষণ মডেলগুলিকে প্রশিক্ষণ দেব এবং মূল্যায়ন করব।

1. লাইব্রেরি আমদানি করা

প্রয়োজনীয় লাইব্রেরি লোড করুন।

লাইব্রেরি আমদানি করা

2. ডেটাসেট আমদানি করুন

এই নিবন্ধটি একটি ডেটাসেটের উপর ভিত্তি করে তৈরি করা হবে যা পাওয়া যাবে গিটহাব. ডাটাসেটটি পান্ডাসের রিড CSV ফাংশন ব্যবহার করে আমদানি করা হবে, যেমনটি নীচে দেখানো হয়েছে:

ডেটাসেট আমদানি করা হচ্ছে

head() ফাংশন ব্যবহার করে, ডেটাসেটের প্রথম পাঁচটি সারি পরীক্ষা করুন:

হেড ডেটাসেট

আউটপুট:

হেড ডেটাসেটের আউটপুট

3. তথ্য বিশ্লেষণ

কোন প্রবণতা আছে কিনা তা নির্ধারণ করতে আমাদের ডেটা পরীক্ষা করা যাক। কিন্তু প্রথমে, চার্টগুলিকে আরও দৃশ্যমান করতে আমরা ডিফল্ট প্লটের আকার পরিবর্তন করব।

প্লটের আকার সামঞ্জস্য করা

আসুন প্রতিটি এয়ারলাইন দ্বারা প্রাপ্ত টুইটের সংখ্যা দিয়ে শুরু করা যাক। আমরা এর জন্য একটি পাই চার্ট ব্যবহার করব:

পাই চিত্র

প্রতিটি এয়ারলাইনের জন্য পাবলিক টুইটের শতাংশ আউটপুটে প্রদর্শিত হয়।

পাই চার্ট আউটপুট

আসুন দেখে নেওয়া যাক কীভাবে অনুভূতিগুলি সমস্ত টুইটগুলিতে বিতরণ করা হয়৷

শব্দার্থিক পাই চার্ট

আউটপুট:

শব্দার্থিক পাই চার্ট আউটপুট

আসুন এখন প্রতিটি নির্দিষ্ট এয়ারলাইনের জন্য অনুভূতির বিতরণ পরীক্ষা করা যাক।

ফলাফল অনুসারে, প্রায় সব এয়ারলাইন্সের জন্য বেশিরভাগ টুইটগুলি প্রতিকূল, নিরপেক্ষ এবং ভাল টুইটগুলি অনুসরণ করে৷ ভার্জিন আমেরিকাই সম্ভবত একমাত্র এয়ারলাইন যেখানে তিনটি অনুভূতির অনুপাত তুলনামূলক।

প্রতিটি এয়ারলাইন বিতরণ

আউটপুট:

প্রতিটি এয়ারলাইন আউটপুট বিতরণ

অবশেষে, আমরা তিনটি অনুভূতি বিভাগ থেকে টুইটের জন্য গড় আত্মবিশ্বাসের স্তর পেতে Seaborn লাইব্রেরি ব্যবহার করব।

বার প্লট

আউটপুট:

বার প্লট আউটপুট

ফলাফল দেখায় যে নেতিবাচক টুইটগুলির জন্য আত্মবিশ্বাসের মাত্রা ইতিবাচক বা নিরপেক্ষ টুইটগুলির চেয়ে বেশি।

4. ডেটা পরিষ্কার করা

অনেক অপবাদ পদ এবং বিরাম চিহ্ন টুইটগুলিতে পাওয়া যাবে। আমরা মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার আগে, আমাদের টুইটগুলি পরিষ্কার করতে হবে।

যাইহোক, আমরা টুইটগুলি পরিষ্কার করা শুরু করার আগে, আমাদের ডেটাসেটকে বৈশিষ্ট্য এবং লেবেল সেটগুলিতে আলাদা করা উচিত।

বৈশিষ্ট্য এবং লেবেল

ফিচার এবং ট্রেনিং সেটে আলাদা করার পর আমরা ডেটা পরিষ্কার করতে পারি। এটি করতে নিয়মিত এক্সপ্রেশন ব্যবহার করা হবে।

রেগুলার এক্সপ্রেশন

5. পাঠ্যের সংখ্যাসূচক প্রতিনিধিত্ব

মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য, পরিসংখ্যানগত অ্যালগরিদম গণিত নিয়োগ করে। অন্যদিকে, গণিত শুধুমাত্র সংখ্যা নিয়ে কাজ করে।

পরিসংখ্যানগত অ্যালগরিদমের সাথে মোকাবিলা করার জন্য আমাদের প্রথমে পাঠ্যটিকে সংখ্যায় রূপান্তর করতে হবে। এটি করার তিনটি মৌলিক উপায় রয়েছে: শব্দের ব্যাগ, TF-IDF এবং Word2Vec।

সৌভাগ্যবশত, Python এর Scikit-Learn মডিউলের TfidfVectorizer ক্লাসটি পাঠ্য বৈশিষ্ট্যগুলিকে TF-IDF বৈশিষ্ট্য ভেক্টরে রূপান্তর করতে ব্যবহার করা যেতে পারে।

টিএফ আইডিএফ

6. ডেটা-চালিত প্রশিক্ষণ এবং পরীক্ষার সেট তৈরি করা

পরিশেষে, আমাদের অ্যালগরিদম প্রশিক্ষণের আগে আমাদের অবশ্যই প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে আমাদের ডেটা ভাগ করতে হবে।

প্রশিক্ষণ সেটটি অ্যালগরিদম প্রশিক্ষণের জন্য ব্যবহার করা হবে, এবং পরীক্ষার সেটটি মেশিন লার্নিং মডেলের কর্মক্ষমতা মূল্যায়ন করতে ব্যবহার করা হবে।

ট্রেন পরীক্ষা

7. মডেল উন্নয়ন

প্রশিক্ষণ এবং পরীক্ষার সেটে ডেটা আলাদা করার পরে, প্রশিক্ষণের ডেটা থেকে শেখার জন্য মেশিন লার্নিং কৌশলগুলি ব্যবহার করা হয়।

আপনি যেকোনো মেশিন লার্নিং অ্যালগরিদম ব্যবহার করতে পারেন। র্যান্ডম ফরেস্ট পদ্ধতি, তবে, অ-স্বাভাবিক ডেটা মোকাবেলা করার ক্ষমতার কারণে ব্যবহার করা হবে।

মডেল প্রশিক্ষণ

8. ভবিষ্যদ্বাণী এবং মডেল মূল্যায়ন

মডেল প্রশিক্ষিত হওয়ার পরে, চূড়ান্ত পর্যায়ে ভবিষ্যদ্বাণী করা হয়। এটি করার জন্য, আমাদের প্রশিক্ষিত RandomForestClassifier ক্লাস অবজেক্টে ভবিষ্যদ্বাণী পদ্ধতি প্রয়োগ করতে হবে।

মডেল ভবিষ্যদ্বাণী

অবশেষে, বিভ্রান্তি মেট্রিক্স, F1 পরিমাপ, নির্ভুলতা ইত্যাদির মতো শ্রেণিবিন্যাস ব্যবস্থাগুলি মেশিন লার্নিং মডেলগুলির কার্যকারিতা মূল্যায়ন করতে ব্যবহার করা যেতে পারে।

শ্রেণিবিন্যাস মেট্রিক্স

আউটপুট:

শ্রেণিবিন্যাস মেট্রিক্স আউটপুট

আমাদের অ্যালগরিদম 75.30 এর নির্ভুলতা অর্জন করেছে, যা ফলাফল দ্বারা দেখা গেছে।

উপসংহার

সেন্টিমেন্ট বিশ্লেষণ হল সবচেয়ে ঘন ঘন NLP কাজগুলির মধ্যে একটি কারণ এটি একটি নির্দিষ্ট বিষয়ে সার্বিক জনমত সনাক্ত করতে সাহায্য করে।

আমরা দেখেছি কিভাবে বেশ কয়েকটি পাইথন লাইব্রেরি অনুভূতি বিশ্লেষণে সাহায্য করতে পারে।

আমরা ছয়টি ইউএস এয়ারলাইন সম্পর্কে পাবলিক টুইটগুলির একটি অধ্যয়ন পরিচালনা করেছি এবং প্রায় 75% এর নির্ভুলতায় পৌঁছেছি।

আমি পরামর্শ দিচ্ছি যে আপনি আরও ভাল ফলাফল অর্জন করতে পারেন কিনা তা দেখতে আপনি অন্য মেশিন লার্নিং অ্যালগরিদম চেষ্টা করুন, যেমন লজিস্টিক রিগ্রেশন, SVM বা KNN।

পাইথন ব্যবহার করে NLP সেন্টিমেন্ট বিশ্লেষণ

অনুভূতি বিশ্লেষণ কি?

সেন্টিমেন্ট বিশ্লেষণের সুবিধা