معرفی موضوع مدلسازی برای مبتدیان

فهرست مندرجات[پنهان شدن][نمایش]

مدل سازی موضوعی چیست؟
مولفه های مدل سازی موضوع+-
- مدل احتمالی
- بازیابی اطلاعات
روش های مختلف مدل سازی موضوع+-
کار با مدل سازی موضوع در پایتون+-
- تجزیه و تحلیل داده های اکتشافی
- استفاده از برچسب ها برای مدل سازی موضوع
کاربردهای مدل سازی موضوعی
نتیجه

مطمئنم در مورد هوش مصنوعی و همچنین کلماتی مانند یادگیری ماشینی و پردازش زبان طبیعی (NLP) شنیده اید.

به خصوص اگر برای شرکتی کار می کنید که هر روز صدها، و نه هزاران تماس با مشتری را مدیریت می کند.

تجزیه و تحلیل داده‌های پست‌های رسانه‌های اجتماعی، ایمیل‌ها، چت‌ها، پاسخ‌های نظرسنجی باز و سایر منابع فرآیند ساده‌ای نیست و زمانی که فقط به افراد سپرده شود، دشوارتر می‌شود.

به همین دلیل است که بسیاری از مردم در مورد پتانسیل آن مشتاق هستند هوش مصنوعی برای کارهای روزمره و برای شرکت ها.

تجزیه و تحلیل متن مبتنی بر هوش مصنوعی از طیف گسترده ای از رویکردها یا الگوریتم ها برای تفسیر ارگانیک زبان استفاده می کند، یکی از آنها تجزیه و تحلیل موضوع است که برای کشف خودکار موضوعات از متون استفاده می شود.

کسب‌وکارها می‌توانند از مدل‌های تجزیه و تحلیل موضوع برای انتقال کارهای آسان به ماشین‌ها استفاده کنند تا اینکه کارگران را با داده‌های بیش از حد سربار کنند.

در نظر بگیرید که اگر یک رایانه بتواند هر روز صبح لیست های بی پایانی از نظرسنجی های مشتریان یا مشکلات پشتیبانی را فیلتر کند، تیم شما چه مقدار وقت ممکن است صرفه جویی کند و به کارهای ضروری تر اختصاص دهد.

در این راهنما، مدل‌سازی موضوع، روش‌های مختلف مدل‌سازی موضوع را بررسی می‌کنیم و تجربه عملی در مورد آن به دست می‌آوریم.

مدل سازی موضوعی چیست؟

مدل سازی موضوعی نوعی متن کاوی است که در آن آماری بدون نظارت و نظارت انجام می شود فراگیری ماشین تکنیک ها برای تشخیص روندها در یک مجموعه یا حجم قابل توجهی از متن بدون ساختار استفاده می شود.

می‌تواند مجموعه عظیم اسناد شما را بگیرد و از روش مشابهی برای مرتب کردن کلمات در دسته‌هایی از اصطلاحات و کشف موضوعات استفاده کند.

این کمی پیچیده و سخت به نظر می رسد، بنابراین بیایید روش مدل سازی موضوع را ساده کنیم!

فرض کنید در حال خواندن روزنامه ای هستید که مجموعه ای از هایلایترهای رنگی در دست دارید.

این از مد افتاده نیست؟

می‌دانم که این روزها کمتر کسی روزنامه‌های چاپی را می‌خواند. همه چیز دیجیتال است و هایلایترها متعلق به گذشته هستند! وانمود کن که پدر یا مادرت هستی!

بنابراین، وقتی روزنامه را می خوانید، اصطلاحات مهم را برجسته می کنید.

یک فرض دیگر!

شما از رنگ متفاوتی برای تاکید بر کلمات کلیدی مضامین مختلف استفاده می کنید. شما کلمات کلیدی را بسته به رنگ و موضوع ارائه شده دسته بندی می کنید.

هر مجموعه ای از کلمات که با رنگ خاصی مشخص شده اند، فهرستی از کلمات کلیدی برای یک موضوع خاص است. تعداد رنگ های مختلفی که انتخاب کرده اید تعداد تم ها را نشان می دهد.

این اساسی ترین مدل سازی موضوع است. به درک، سازماندهی و خلاصه سازی مجموعه های متنی بزرگ کمک می کند.

با این حال، به خاطر داشته باشید که برای موثر بودن، مدل‌های موضوعی خودکار به محتوای زیادی نیاز دارند. اگر مقاله کوتاهی دارید، ممکن است بخواهید به مدرسه قدیمی بروید و از هایلایتر استفاده کنید!

همچنین صرف مدتی برای شناخت داده ها مفید است. این به شما یک حس اساسی از آنچه مدل موضوع باید پیدا کند به شما می دهد.

به عنوان مثال، آن دفترچه خاطرات ممکن است در مورد روابط فعلی و قبلی شما باشد. بنابراین، من انتظار دارم ربات-رفیق متن کاوی من ایده های مشابهی را ارائه دهد.

این می تواند به شما کمک کند تا کیفیت موضوعاتی را که شناسایی کرده اید بهتر تجزیه و تحلیل کنید و در صورت لزوم مجموعه کلمات کلیدی را تغییر دهید.

مولفه های مدل سازی موضوع

مدل احتمالی

متغیرهای تصادفی و توزیع‌های احتمال در نمایش یک رویداد یا پدیده در مدل‌های احتمالی گنجانده می‌شوند.

یک مدل قطعی یک نتیجه گیری بالقوه واحد برای یک رویداد ارائه می دهد، در حالی که یک مدل احتمالی یک توزیع احتمال را به عنوان یک راه حل ارائه می دهد.

این مدل ها این واقعیت را در نظر می گیرند که ما به ندرت از یک موقعیت آگاهی کامل داریم. تقریباً همیشه یک عنصر تصادفی وجود دارد که باید در نظر گرفته شود.

به عنوان مثال، بیمه عمر بر این واقعیت استوار است که ما می دانیم می میریم، اما نمی دانیم چه زمانی. این مدل ها ممکن است تا حدی قطعی، تا حدی تصادفی یا کاملا تصادفی باشند.

بازیابی اطلاعات

بازیابی اطلاعات (IR) یک برنامه نرم افزاری است که اطلاعات را از مخازن اسناد، به ویژه اطلاعات متنی، سازماندهی، ذخیره، بازیابی و ارزیابی می کند.

این فناوری به کاربران کمک می کند تا اطلاعات مورد نیاز خود را کشف کنند، اما به وضوح پاسخ سؤالات آنها را ارائه نمی دهد. وجود و محل اسنادی را که ممکن است اطلاعات لازم را ارائه دهند، اطلاع می دهد.

اسناد مربوطه آنهایی هستند که نیازهای کاربر را برآورده می کنند. یک سیستم IR بدون عیب فقط اسناد انتخاب شده را برمی گرداند.

انسجام موضوع

انسجام موضوعی با محاسبه میزان تشابه معنایی بین عبارات با امتیاز بالای موضوع، به یک موضوع امتیاز می‌دهد. این معیارها به تمایز بین موضوعاتی که از نظر معنایی قابل تفسیر هستند و موضوعاتی که مصنوعات استنتاج آماری هستند کمک می کند.

اگر گروهی از ادعاها یا حقایق همدیگر را تأیید کنند، گفته می شود که منسجم هستند.

در نتیجه، یک مجموعه واقعیت منسجم را می توان در زمینه ای درک کرد که همه یا اکثریت واقعیت ها را در بر می گیرد. «بازی یک ورزش گروهی است»، «بازی با توپ انجام می‌شود»، و «بازی به تلاش فیزیکی فوق‌العاده نیاز دارد» همگی نمونه‌هایی از مجموعه‌های واقعی منسجم هستند.

روش های مختلف مدل سازی موضوع

این روش حیاتی را می توان با الگوریتم ها یا روش های مختلفی انجام داد. از جمله آنها عبارتند از:

تخصیص دیریکله نهفته (LDA)
فاکتورسازی ماتریس غیر منفی (NMF)
تحلیل معنایی پنهان (LSA)
تحلیل معنایی پنهان احتمالی (pLSA)

تخصیص دیریکله نهفته (LDA)

برای تشخیص روابط بین متون متعدد در یک پیکره، از مفهوم آماری و گرافیکی تخصیص دیریکله پنهان استفاده می شود.

با استفاده از رویکرد حداکثر سازی استثنای متغیر (VEM)، بزرگترین تخمین احتمال از مجموعه کامل متن به دست می آید.

LDA

به طور سنتی، چند کلمه برتر از مجموعه ای از کلمات انتخاب می شود.

با این حال، جمله کاملا بی معنی است.

بر اساس این تکنیک، هر متن با توزیع احتمالی موضوعات و هر موضوع با توزیع احتمالی کلمات نمایش داده می شود.

فاکتورسازی ماتریس غیر منفی (NMF)

ماتریس با فاکتورسازی مقادیر غیر منفی یک رویکرد استخراج ویژگی پیشرفته است.

هنگامی که کیفیت های زیادی وجود دارد و ویژگی ها مبهم هستند یا قابلیت پیش بینی ضعیفی دارند، NMF سودمند است. NMF می تواند الگوها، موضوعات یا مضامین قابل توجهی را با ترکیب ویژگی ها ایجاد کند.

فاکتورسازی ماتریس غیر منفی

NMF هر ویژگی را به عنوان یک ترکیب خطی از مجموعه ویژگی های اصلی تولید می کند.

هر ویژگی شامل مجموعه ای از ضرایب است که نشان دهنده اهمیت هر یک از ویژگی ها در ویژگی است. هر صفت عددی و هر مقدار از هر ویژگی دسته ضریب خاص خود را دارد.

همه ضرایب مثبت هستند.

تحلیل معنایی پنهان

یکی دیگر از روش‌های یادگیری بدون نظارت که برای استخراج ارتباط بین کلمات در مجموعه‌ای از اسناد استفاده می‌شود، تحلیل معنایی پنهان است.

این به ما در انتخاب اسناد مناسب کمک می کند. عملکرد اصلی آن کاهش ابعاد حجم عظیم داده های متنی است.

این داده های غیر ضروری به عنوان نویز پس زمینه در به دست آوردن بینش های لازم از داده ها عمل می کنند.

تحلیل معنایی پنهان

تحلیل معنایی پنهان احتمالی (pLSA)

تحلیل معنایی پنهان احتمالی (PLSA)، که گاهی اوقات به عنوان نمایه سازی معنایی پنهان احتمالی (PLSI، به ویژه در حلقه های بازیابی اطلاعات) شناخته می شود، یک رویکرد آماری برای تجزیه و تحلیل داده های دو حالته و همزمان است.

در واقع، مشابه تجزیه و تحلیل معنایی نهفته، که PLSA از آن پدید آمد، می‌توان یک نمایش کم‌بعدی از متغیرهای مشاهده‌شده بر حسب تمایل آنها به متغیرهای پنهان خاص به دست آورد.

تحلیل سنانتیک پنهان احتمالی

کار با مدل سازی موضوع در پایتون

اکنون، من شما را از طریق یک تکلیف مدل‌سازی موضوعی با پایتون راهنمایی می‌کنم زبان برنامه نویسی با استفاده از یک مثال در دنیای واقعی

من مقالات تحقیقاتی را مدلسازی خواهم کرد. مجموعه داده ای که من در اینجا استفاده خواهم کرد از kaggle.com می آید. شما به راحتی می توانید تمام فایل هایی را که من در این کار استفاده می کنم از اینجا بدست آورید با ما.

بیایید با وارد کردن تمام کتابخانه‌های ضروری، مدل‌سازی موضوع را با استفاده از پایتون شروع کنیم:

واردات کتابخانه ها

مرحله زیر خواندن تمام مجموعه داده هایی است که در این کار استفاده خواهم کرد:

مجموعه داده را بخوانید

تجزیه و تحلیل داده های اکتشافی

EDA (Exploratory Data Analysis) یک روش آماری است که از عناصر بصری استفاده می کند. از خلاصه های آماری و نمایش های گرافیکی برای کشف روندها، الگوها و فرضیات آزمون استفاده می کند.

قبل از شروع مدل‌سازی موضوع، تجزیه و تحلیل داده‌های اکتشافی را انجام می‌دهم تا ببینم آیا الگوها یا روابطی در داده‌ها وجود دارد یا خیر:

مقادیر تهی مجموعه داده قطار را بیابید

خروجی مقادیر تهی قطار

اکنون مقادیر تهی مجموعه داده آزمایشی را پیدا خواهیم کرد:

مقادیر تهی مجموعه داده تست را بیابید

خروجی مقادیر صفر تست

اکنون یک هیستوگرام و باکس پلات برای بررسی رابطه بین متغیرها ترسیم خواهم کرد.

توطئه

خروجی طرح 1

تعداد کاراکترهای مجموعه Abstracts of the Train بسیار متفاوت است.

در قطار حداقل 54 و حداکثر 4551 کاراکتر داریم. 1065 میانگین تعداد کاراکترها است.

نقشه کشی 2

خروجی طرح 2

به نظر می رسد مجموعه تست جالب تر از مجموعه آموزشی باشد زیرا مجموعه تست دارای 46 کاراکتر است در حالی که مجموعه آموزشی دارای 2841 کاراکتر است.

در نتیجه، مجموعه تست دارای میانه 1058 کاراکتر بود که مشابه مجموعه آموزشی است.

نقشه کشی 3

خروجی طرح 3

تعداد کلمات در مجموعه آموزشی از الگوی مشابهی با تعداد حروف پیروی می کند.

حداقل 8 کلمه و حداکثر 665 کلمه مجاز است. در نتیجه، میانگین تعداد کلمات 153 است.

نقشه کشی 4

خروجی طرح 4

حداقل هفت کلمه در چکیده و حداکثر 452 کلمه در مجموعه آزمون الزامی است.

میانه، در این مورد، 153 است که با میانه در مجموعه آموزشی یکسان است.

استفاده از برچسب ها برای مدل سازی موضوع

چندین استراتژی مدل سازی موضوع وجود دارد. من از برچسب ها در این تمرین استفاده خواهم کرد. بیایید نحوه انجام این کار را با بررسی برچسب ها بررسی کنیم:

استفاده از برچسب ها برای مدل سازی موضوع

خروجی مدلسازی موضوع

کاربردهای مدل سازی موضوعی

می توان از خلاصه متن برای تشخیص موضوع یک سند یا کتاب استفاده کرد.
می توان از آن برای حذف سوگیری داوطلب از نمره گذاری امتحان استفاده کرد.
مدل‌سازی موضوع ممکن است برای ایجاد روابط معنایی بین کلمات در مدل‌های مبتنی بر نمودار استفاده شود.
این می تواند خدمات مشتری را با شناسایی و پاسخ به کلمات کلیدی در درخواست مشتری افزایش دهد. مشتریان به شما اعتماد بیشتری خواهند داشت، زیرا شما در لحظه مناسب و بدون ایجاد دردسر، کمک مورد نیاز خود را به آنها ارائه کرده اید. در نتیجه، وفاداری مشتری به طور چشمگیری افزایش می یابد و ارزش شرکت افزایش می یابد.

نتیجه

مدل‌سازی موضوعی نوعی مدل‌سازی آماری است که برای کشف «موضوعات» انتزاعی موجود در مجموعه‌ای از متون استفاده می‌شود.

شکلی از مدل آماری مورد استفاده در فراگیری ماشین و پردازش زبان طبیعی برای کشف مفاهیم انتزاعی که در مجموعه ای از متون وجود دارد.

این یک روش متن کاوی است که به طور گسترده برای یافتن الگوهای معنایی پنهان در متن بدن استفاده می شود.

معرفی موضوع مدلسازی برای مبتدیان

مدل سازی موضوعی چیست؟