সুচিপত্র[লুকান][দেখান]
আমি নিশ্চিত আপনি কৃত্রিম বুদ্ধিমত্তা, সেইসাথে মেশিন লার্নিং এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এর মতো শব্দ শুনেছেন।
বিশেষ করে যদি আপনি এমন একটি ফার্মের জন্য কাজ করেন যেটি প্রতিদিন শত শত, হাজার হাজার না হলেও প্রতিদিন ক্লায়েন্ট পরিচিতি পরিচালনা করে।
সোশ্যাল মিডিয়া পোস্টিং, ইমেল, চ্যাট, ওপেন-এন্ডেড জরিপ উত্তর এবং অন্যান্য উত্সগুলির ডেটা বিশ্লেষণ একটি সহজ প্রক্রিয়া নয়, এবং এটি আরও কঠিন হয়ে ওঠে যখন শুধুমাত্র লোকেদের উপর ন্যস্ত করা হয়।
যে কারণে অনেকের সম্ভাবনা নিয়ে উৎসাহী কৃত্রিম বুদ্ধিমত্তা তাদের দৈনন্দিন কাজের জন্য এবং উদ্যোগের জন্য।
এআই-চালিত পাঠ্য বিশ্লেষণে ভাষাকে অর্গানিকভাবে ব্যাখ্যা করার জন্য বিস্তৃত পন্থা বা অ্যালগরিদম ব্যবহার করা হয়, যার মধ্যে একটি বিষয় বিশ্লেষণ, যা পাঠ্য থেকে স্বয়ংক্রিয়ভাবে বিষয়গুলি আবিষ্কার করতে ব্যবহৃত হয়।
ব্যবসাগুলি খুব বেশি ডেটা সহ কর্মীদের অতিরিক্ত চাপ দেওয়ার পরিবর্তে মেশিনে সহজ কাজ স্থানান্তর করতে বিষয় বিশ্লেষণের মডেলগুলি ব্যবহার করতে পারে।
আপনার দল কতটা সময় বাঁচাতে পারে এবং আরও প্রয়োজনীয় কাজে ব্যয় করতে পারে তা বিবেচনা করুন যদি একটি কম্পিউটার প্রতিদিন সকালে গ্রাহক সমীক্ষা বা সহায়তা সংক্রান্ত সমস্যাগুলির অফুরন্ত তালিকার মাধ্যমে ফিল্টার করতে পারে।
এই গাইডে, আমরা টপিক মডেলিং, টপিক মডেলিং এর বিভিন্ন পদ্ধতি দেখব এবং এর সাথে কিছু অভিজ্ঞতা লাভ করব।
টপিক মডেলিং কি?
টপিক মডেলিং হল এক ধরনের টেক্সট মাইনিং যাতে তত্ত্বাবধান করা হয় না এবং পরিসংখ্যান তত্ত্বাবধান করা হয় মেশিন লার্নিং কৌশলগুলি একটি কর্পাস বা অসংগঠিত পাঠ্যের উল্লেখযোগ্য পরিমাণে প্রবণতা সনাক্ত করতে ব্যবহৃত হয়।
এটি আপনার নথির বিশাল সংগ্রহ নিতে পারে এবং শব্দগুলিকে পদগুলির ক্লাস্টারে সাজাতে এবং বিষয়গুলি আবিষ্কার করতে একটি সাদৃশ্য পদ্ধতি ব্যবহার করতে পারে।
এটি একটু জটিল এবং কঠিন বলে মনে হচ্ছে, তাই আসুন বিষয় মডেলিং পদ্ধতিটি সহজ করা যাক!
ধরুন আপনি আপনার হাতে রঙিন হাইলাইটারের সেট নিয়ে একটি সংবাদপত্র পড়ছেন।
এটা কি সেকেলে নয়?
আমি বুঝতে পারি যে আজকাল, খুব কম লোকই ছাপা সংবাদপত্র পড়ে; সবকিছু ডিজিটাল, এবং হাইলাইটার অতীতের একটি জিনিস! নিজের বাবা বা মা হওয়ার ভান!
সুতরাং, আপনি যখন সংবাদপত্র পড়েন, তখন আপনি গুরুত্বপূর্ণ পদগুলি তুলে ধরেন।
আর একটা অনুমান!
আপনি বিভিন্ন থিমের কীওয়ার্ডের উপর জোর দিতে একটি ভিন্ন রঙ ব্যবহার করেন। আপনি প্রদত্ত রঙ এবং বিষয়ের উপর নির্ভর করে কীওয়ার্ডগুলিকে শ্রেণীবদ্ধ করুন৷
একটি নির্দিষ্ট রঙ দ্বারা চিহ্নিত শব্দের প্রতিটি সংগ্রহ একটি প্রদত্ত বিষয়ের জন্য কীওয়ার্ডের একটি তালিকা। আপনি বাছাই করা বিভিন্ন রঙের পরিমাণ থিমের সংখ্যা দেখায়।
এটি সবচেয়ে মৌলিক বিষয় মডেলিং. এটি বৃহৎ পাঠ্য সংগ্রহের বোধগম্যতা, সংগঠন এবং সারসংক্ষেপে সাহায্য করে।
যাইহোক, মনে রাখবেন যে কার্যকর হতে, স্বয়ংক্রিয় টপিক মডেলগুলিতে প্রচুর সামগ্রীর প্রয়োজন হয়৷ আপনার যদি একটি ছোট কাগজ থাকে, আপনি পুরানো স্কুলে যেতে এবং হাইলাইটার ব্যবহার করতে চাইতে পারেন!
ডেটা জানার জন্য কিছু সময় ব্যয় করাও উপকারী। এটি আপনাকে টপিক মডেলটি কী খুঁজে পাওয়া উচিত তার একটি প্রাথমিক ধারণা দেবে।
উদাহরণস্বরূপ, সেই ডায়েরিটি আপনার বর্তমান এবং পূর্ববর্তী সম্পর্ক সম্পর্কে হতে পারে। এইভাবে, আমি আমার পাঠ্য মাইনিং রোবট-বন্ধু অনুরূপ ধারনা সঙ্গে আসা আশা চাই.
এটি আপনাকে আপনার চিহ্নিত বিষয়গুলির গুণমানকে আরও ভালভাবে বিশ্লেষণ করতে সাহায্য করতে পারে এবং প্রয়োজনে, কীওয়ার্ড সেটগুলিকে পরিবর্তন করতে পারে৷
টপিক মডেলিং এর উপাদান
সম্ভাব্য মডেল
এলোমেলো ভেরিয়েবল এবং সম্ভাব্যতা বন্টনগুলি সম্ভাব্য মডেলগুলিতে একটি ঘটনা বা ঘটনাকে উপস্থাপন করার জন্য একত্রিত করা হয়।
একটি নির্ধারক মডেল একটি ইভেন্টের জন্য একটি একক সম্ভাব্য উপসংহার প্রদান করে, যেখানে একটি সম্ভাব্য মডেল একটি সমাধান হিসাবে একটি সম্ভাব্যতা বন্টন প্রদান করে।
এই মডেলগুলি বাস্তবতা বিবেচনা করে যে আমাদের খুব কমই একটি পরিস্থিতি সম্পর্কে সম্পূর্ণ জ্ঞান আছে। বিবেচনা করার জন্য প্রায় সবসময় এলোমেলোতার একটি উপাদান থাকে।
উদাহরণস্বরূপ, জীবন বীমা বাস্তবতার উপর পূর্বাভাস দেওয়া হয় যে আমরা জানি আমরা মারা যাব, কিন্তু কখন আমরা জানি না। এই মডেলগুলি আংশিকভাবে নির্ধারক, আংশিকভাবে এলোমেলো, বা সম্পূর্ণরূপে এলোমেলো হতে পারে।
তথ্য পুনরুদ্ধার
তথ্য পুনরুদ্ধার (IR) হল একটি সফ্টওয়্যার প্রোগ্রাম যা নথি সংগ্রহস্থল থেকে তথ্য সংগঠিত করে, সঞ্চয় করে, পুনরুদ্ধার করে এবং মূল্যায়ন করে, বিশেষ করে পাঠ্য তথ্য।
প্রযুক্তি ব্যবহারকারীদের তাদের প্রয়োজনীয় তথ্য আবিষ্কার করতে সাহায্য করে, কিন্তু এটি তাদের জিজ্ঞাসার উত্তর স্পষ্টভাবে প্রদান করে না। এটি প্রয়োজনীয় তথ্য প্রদান করতে পারে এমন কাগজপত্রের উপস্থিতি এবং অবস্থান সম্পর্কে অবহিত করে।
প্রাসঙ্গিক নথিগুলি হল সেইগুলি যা ব্যবহারকারীর চাহিদা পূরণ করে৷ একটি ত্রুটিহীন IR সিস্টেম শুধুমাত্র নির্বাচিত নথি ফেরত দেবে।
টপিক কোহেরেন্স
টপিক কোহেরেন্স টপিকের উচ্চ-স্কোরিং পদগুলির মধ্যে শব্দার্থগত মিলের মাত্রা গণনা করে একটি একক বিষয় স্কোর করে। এই মেট্রিক্সগুলি শব্দার্থগতভাবে ব্যাখ্যাযোগ্য বিষয় এবং পরিসংখ্যানগত অনুমান আর্টিফ্যাক্টগুলির মধ্যে পার্থক্য করতে সহায়তা করে।
যদি দাবি বা তথ্যের একটি গ্রুপ একে অপরকে সমর্থন করে, তবে তাদের বলা হয় সুসংগত।
ফলস্বরূপ, একটি সমন্বিত ফ্যাক্ট সেট এমন একটি প্রেক্ষাপটে বোঝা যায় যা সমস্ত বা বেশিরভাগ তথ্যকে অন্তর্ভুক্ত করে। "খেলাটি একটি দলগত খেলা," "গেমটি একটি বল দিয়ে খেলা হয়," এবং "গেমটির জন্য প্রচুর শারীরিক পরিশ্রমের প্রয়োজন হয়" এগুলি সমন্বিত সত্য সেটের উদাহরণ।
টপিক মডেলিং এর বিভিন্ন পদ্ধতি
এই জটিল পদ্ধতিটি বিভিন্ন অ্যালগরিদম বা পদ্ধতির মাধ্যমে করা যেতে পারে। তাদের মধ্যে হল:
- সুপ্ত ডিরিচলেট অ্যালোকেশন (এলডিএ)
- নন নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন (NMF)
- সুপ্ত শব্দার্থ বিশ্লেষণ (LSA)
- সম্ভাব্য সুপ্ত শব্দার্থ বিশ্লেষণ (pLSA)
সুপ্ত ডিরিচলেট বরাদ্দ (এলডিএ)
একটি কর্পাসে একাধিক পাঠ্যের মধ্যে সম্পর্ক সনাক্ত করতে, ল্যাটেন্ট ডিরিচলেট অ্যালোকেশনের পরিসংখ্যানগত এবং গ্রাফিক্যাল ধারণা ব্যবহার করা হয়।
ভেরিয়েশনাল এক্সেপশন ম্যাক্সিমাইজেশন (VEM) পদ্ধতি ব্যবহার করে, টেক্সটের সম্পূর্ণ কর্পাস থেকে সবচেয়ে বড় সম্ভাবনার অনুমান অর্জিত হয়।
ঐতিহ্যগতভাবে, শব্দের ব্যাগ থেকে শীর্ষ কয়েকটি শব্দ বেছে নেওয়া হয়।
তবে বাক্যটি সম্পূর্ণ অর্থহীন।
এই কৌশল অনুসারে, প্রতিটি পাঠ্য বিষয়গুলির একটি সম্ভাব্য বন্টন দ্বারা এবং প্রতিটি বিষয় শব্দগুলির একটি সম্ভাব্য বন্টন দ্বারা প্রতিনিধিত্ব করা হবে।
অ নেতিবাচক ম্যাট্রিক্স ফ্যাক্টরাইজেশন (NMF)
অ-নেতিবাচক মান ফ্যাক্টরাইজেশন সহ ম্যাট্রিক্স একটি অত্যাধুনিক বৈশিষ্ট্য নিষ্কাশন পদ্ধতি।
যখন অনেক গুণ থাকে এবং গুণাবলী অস্পষ্ট হয় বা দুর্বল ভবিষ্যদ্বাণী করা যায়, তখন NMF উপকারী। NMF বৈশিষ্ট্যগুলি একত্রিত করে উল্লেখযোগ্য নিদর্শন, বিষয় বা থিম তৈরি করতে পারে।
NMF মূল বৈশিষ্ট্য সেটের একটি রৈখিক সমন্বয় হিসাবে প্রতিটি বৈশিষ্ট্য তৈরি করে।
প্রতিটি বৈশিষ্ট্যে সহগগুলির একটি সেট রয়েছে যা বৈশিষ্ট্যের প্রতিটি বৈশিষ্ট্যের গুরুত্বকে উপস্থাপন করে। প্রতিটি সংখ্যাসূচক বৈশিষ্ট্য এবং প্রতিটি বিভাগের বৈশিষ্ট্যের প্রতিটি মান এর নিজস্ব সহগ রয়েছে।
সমস্ত সহগ ইতিবাচক।
সুপ্ত শব্দার্থিক বিশ্লেষণ
এটি নথিগুলির একটি সেটে শব্দগুলির মধ্যে সংযোগগুলি বের করার জন্য ব্যবহৃত আরেকটি অ-তত্ত্বাবধানহীন শিক্ষা পদ্ধতি হল সুপ্ত শব্দার্থিক বিশ্লেষণ।
এটি আমাদের সঠিক নথি নির্বাচন করতে সাহায্য করে। এর প্রাথমিক কাজটি পাঠ্য ডেটার বিশাল কর্পাসের মাত্রা হ্রাস করা।
এই অপ্রয়োজনীয় ডেটা ডেটা থেকে প্রয়োজনীয় অন্তর্দৃষ্টি অর্জনের জন্য পটভূমির শব্দ হিসাবে কাজ করে।
সম্ভাব্য সুপ্ত শব্দার্থ বিশ্লেষণ (pLSA)
সম্ভাব্য সুপ্ত শব্দার্থক বিশ্লেষণ (PLSA), কখনও কখনও সম্ভাব্য সুপ্ত শব্দার্থিক সূচক (PLSI, বিশেষত তথ্য পুনরুদ্ধার বৃত্তে) নামে পরিচিত, হল দুই-মোড এবং সহ-ঘটনা ডেটা বিশ্লেষণের জন্য একটি পরিসংখ্যানগত পদ্ধতি।
প্রকৃতপক্ষে, সুপ্ত শব্দার্থিক বিশ্লেষণের মতো, যেখান থেকে PLSA উদ্ভূত হয়েছে, পর্যবেক্ষণ করা ভেরিয়েবলের একটি নিম্ন-মাত্রিক উপস্থাপনা নির্দিষ্ট লুকানো ভেরিয়েবলের সাথে তাদের সখ্যতার পরিপ্রেক্ষিতে উদ্ভূত হতে পারে।
পাইথনে টপিক মডেলিং এর সাথে হ্যান্ডস-অন
এখন, আমি পাইথনের সাথে একটি সাবজেক্ট মডেলিং অ্যাসাইনমেন্টের মাধ্যমে আপনাকে নিয়ে যাবো প্রোগ্রাম ভাষা একটি বাস্তব বিশ্বের উদাহরণ ব্যবহার করে।
আমি গবেষণা নিবন্ধ মডেলিং করা হবে. আমি এখানে যে ডেটাসেটটি ব্যবহার করব তা kaggle.com থেকে এসেছে। আমি এই কাজে যে সকল ফাইল ব্যবহার করছি তা থেকে আপনি সহজেই পেতে পারেন পৃষ্ঠা.
আসুন সমস্ত প্রয়োজনীয় লাইব্রেরি আমদানি করে পাইথন ব্যবহার করে টপিক মডেলিং শুরু করি:
আমি এই টাস্কে যে সমস্ত ডেটাসেট ব্যবহার করব সেগুলি পড়ার জন্য নিম্নলিখিত ধাপটি হল:
অনুসন্ধানের ডেটা বিশ্লেষণ
ইডিএ (অন্বেষণকারী ডেটা বিশ্লেষণ) একটি পরিসংখ্যানগত পদ্ধতি যা ভিজ্যুয়াল উপাদানগুলিকে নিয়োগ করে। এটি প্রবণতা, নিদর্শন এবং পরীক্ষা অনুমানগুলি আবিষ্কার করতে পরিসংখ্যানগত সারাংশ এবং গ্রাফিকাল উপস্থাপনা ব্যবহার করে।
আমি টপিক মডেলিং শুরু করার আগে ডেটাতে কোনো প্যাটার্ন বা সম্পর্ক আছে কিনা তা দেখতে আমি কিছু অনুসন্ধানমূলক ডেটা বিশ্লেষণ করব:
এখন আমরা পরীক্ষার ডেটাসেটের নাল মানগুলি খুঁজে পাব:
এখন আমি ভেরিয়েবলের মধ্যে সম্পর্ক পরীক্ষা করার জন্য একটি হিস্টোগ্রাম এবং বক্সপ্লট তৈরি করব।
ট্রেন সেটের অ্যাবস্ট্রাক্টে অক্ষরের পরিমাণ ব্যাপকভাবে পরিবর্তিত হয়।
ট্রেনে, আমাদের সর্বনিম্ন 54টি এবং সর্বাধিক 4551টি অক্ষর রয়েছে৷ 1065 হল অক্ষরের গড় পরিমাণ।
পরীক্ষার সেটটি প্রশিক্ষণ সেটের চেয়ে বেশি আকর্ষণীয় বলে মনে হচ্ছে কারণ পরীক্ষার সেটটিতে 46টি অক্ষর রয়েছে যখন প্রশিক্ষণ সেটটিতে 2841টি রয়েছে৷
ফলস্বরূপ, পরীক্ষার সেটটিতে 1058 অক্ষরের একটি মধ্যম ছিল, যা প্রশিক্ষণ সেটের অনুরূপ।
শেখার সেটে শব্দের সংখ্যা অক্ষর সংখ্যার অনুরূপ প্যাটার্ন অনুসরণ করে।
সর্বনিম্ন 8 শব্দ এবং সর্বোচ্চ 665 শব্দ অনুমোদিত। ফলস্বরূপ, মধ্যমা শব্দ সংখ্যা হল 153।
একটি বিমূর্ত ন্যূনতম সাতটি শব্দ এবং পরীক্ষার সেটে সর্বাধিক 452 শব্দ প্রয়োজন।
এই ক্ষেত্রে, মধ্যমা হল 153, যা প্রশিক্ষণ সেটের মধ্যমাটির অনুরূপ।
টপিক মডেলিংয়ের জন্য ট্যাগ ব্যবহার করা
বিভিন্ন বিষয় মডেলিং কৌশল আছে. আমি এই অনুশীলনে ট্যাগ ব্যবহার করব; ট্যাগগুলি পরীক্ষা করে কীভাবে তা করা যায় তা দেখা যাক:
বিষয় মডেলিং অ্যাপ্লিকেশন
- একটি টেক্সট সারাংশ একটি নথি বা বইয়ের বিষয় বোঝার জন্য ব্যবহার করা যেতে পারে।
- এটি পরীক্ষার স্কোরিং থেকে প্রার্থীর পক্ষপাত দূর করতে ব্যবহার করা যেতে পারে।
- টপিক মডেলিং গ্রাফ-ভিত্তিক মডেলের শব্দের মধ্যে শব্দার্থিক সম্পর্ক তৈরি করতে ব্যবহার করা যেতে পারে।
- এটি ক্লায়েন্টের অনুসন্ধানে কীওয়ার্ডগুলি সনাক্ত করে এবং প্রতিক্রিয়া জানিয়ে গ্রাহক পরিষেবা উন্নত করতে পারে। গ্রাহকদের আপনার প্রতি আরও বেশি আস্থা থাকবে কারণ আপনি তাদের উপযুক্ত মুহূর্তে তাদের প্রয়োজনীয় সহায়তা প্রদান করেছেন এবং তাদের কোনো ঝামেলা ছাড়াই। ফলস্বরূপ, ক্লায়েন্টের আনুগত্য নাটকীয়ভাবে বৃদ্ধি পায় এবং কোম্পানির মূল্য বৃদ্ধি পায়।
উপসংহার
টপিক মডেলিং হল এক ধরণের পরিসংখ্যানগত মডেলিং যা পাঠ্যের সংগ্রহে বিদ্যমান বিমূর্ত "বিষয়" উন্মোচন করতে ব্যবহৃত হয়।
এটি ব্যবহার করা পরিসংখ্যানগত মডেলের একটি ফর্ম মেশিন লার্নিং এবং পাঠ্যের একটি সেটে বিদ্যমান বিমূর্ত ধারণাগুলি উন্মোচন করার জন্য প্রাকৃতিক ভাষা প্রক্রিয়াকরণ।
এটি একটি টেক্সট মাইনিং পদ্ধতি যা বডি টেক্সটে লুকানো শব্দার্থিক নিদর্শন খুঁজে পেতে ব্যাপকভাবে ব্যবহৃত হয়।
নির্দেশিকা সমন্ধে মতামত দিন