فهرست مندرجات[پنهان شدن][نمایش]
مطمئنم در مورد هوش مصنوعی و همچنین کلماتی مانند یادگیری ماشینی و پردازش زبان طبیعی (NLP) شنیده اید.
به خصوص اگر برای شرکتی کار می کنید که هر روز صدها، و نه هزاران تماس با مشتری را مدیریت می کند.
تجزیه و تحلیل دادههای پستهای رسانههای اجتماعی، ایمیلها، چتها، پاسخهای نظرسنجی باز و سایر منابع فرآیند سادهای نیست و زمانی که فقط به افراد سپرده شود، دشوارتر میشود.
به همین دلیل است که بسیاری از مردم در مورد پتانسیل آن مشتاق هستند هوش مصنوعی برای کارهای روزمره و برای شرکت ها.
تجزیه و تحلیل متن مبتنی بر هوش مصنوعی از طیف گسترده ای از رویکردها یا الگوریتم ها برای تفسیر ارگانیک زبان استفاده می کند، یکی از آنها تجزیه و تحلیل موضوع است که برای کشف خودکار موضوعات از متون استفاده می شود.
کسبوکارها میتوانند از مدلهای تجزیه و تحلیل موضوع برای انتقال کارهای آسان به ماشینها استفاده کنند تا اینکه کارگران را با دادههای بیش از حد سربار کنند.
در نظر بگیرید که اگر یک رایانه بتواند هر روز صبح لیست های بی پایانی از نظرسنجی های مشتریان یا مشکلات پشتیبانی را فیلتر کند، تیم شما چه مقدار وقت ممکن است صرفه جویی کند و به کارهای ضروری تر اختصاص دهد.
در این راهنما، مدلسازی موضوع، روشهای مختلف مدلسازی موضوع را بررسی میکنیم و تجربه عملی در مورد آن به دست میآوریم.
مدل سازی موضوعی چیست؟
مدل سازی موضوعی نوعی متن کاوی است که در آن آماری بدون نظارت و نظارت انجام می شود فراگیری ماشین تکنیک ها برای تشخیص روندها در یک مجموعه یا حجم قابل توجهی از متن بدون ساختار استفاده می شود.
میتواند مجموعه عظیم اسناد شما را بگیرد و از روش مشابهی برای مرتب کردن کلمات در دستههایی از اصطلاحات و کشف موضوعات استفاده کند.
این کمی پیچیده و سخت به نظر می رسد، بنابراین بیایید روش مدل سازی موضوع را ساده کنیم!
فرض کنید در حال خواندن روزنامه ای هستید که مجموعه ای از هایلایترهای رنگی در دست دارید.
این از مد افتاده نیست؟
میدانم که این روزها کمتر کسی روزنامههای چاپی را میخواند. همه چیز دیجیتال است و هایلایترها متعلق به گذشته هستند! وانمود کن که پدر یا مادرت هستی!
بنابراین، وقتی روزنامه را می خوانید، اصطلاحات مهم را برجسته می کنید.
یک فرض دیگر!
شما از رنگ متفاوتی برای تاکید بر کلمات کلیدی مضامین مختلف استفاده می کنید. شما کلمات کلیدی را بسته به رنگ و موضوع ارائه شده دسته بندی می کنید.
هر مجموعه ای از کلمات که با رنگ خاصی مشخص شده اند، فهرستی از کلمات کلیدی برای یک موضوع خاص است. تعداد رنگ های مختلفی که انتخاب کرده اید تعداد تم ها را نشان می دهد.
این اساسی ترین مدل سازی موضوع است. به درک، سازماندهی و خلاصه سازی مجموعه های متنی بزرگ کمک می کند.
با این حال، به خاطر داشته باشید که برای موثر بودن، مدلهای موضوعی خودکار به محتوای زیادی نیاز دارند. اگر مقاله کوتاهی دارید، ممکن است بخواهید به مدرسه قدیمی بروید و از هایلایتر استفاده کنید!
همچنین صرف مدتی برای شناخت داده ها مفید است. این به شما یک حس اساسی از آنچه مدل موضوع باید پیدا کند به شما می دهد.
به عنوان مثال، آن دفترچه خاطرات ممکن است در مورد روابط فعلی و قبلی شما باشد. بنابراین، من انتظار دارم ربات-رفیق متن کاوی من ایده های مشابهی را ارائه دهد.
این می تواند به شما کمک کند تا کیفیت موضوعاتی را که شناسایی کرده اید بهتر تجزیه و تحلیل کنید و در صورت لزوم مجموعه کلمات کلیدی را تغییر دهید.
مولفه های مدل سازی موضوع
مدل احتمالی
متغیرهای تصادفی و توزیعهای احتمال در نمایش یک رویداد یا پدیده در مدلهای احتمالی گنجانده میشوند.
یک مدل قطعی یک نتیجه گیری بالقوه واحد برای یک رویداد ارائه می دهد، در حالی که یک مدل احتمالی یک توزیع احتمال را به عنوان یک راه حل ارائه می دهد.
این مدل ها این واقعیت را در نظر می گیرند که ما به ندرت از یک موقعیت آگاهی کامل داریم. تقریباً همیشه یک عنصر تصادفی وجود دارد که باید در نظر گرفته شود.
به عنوان مثال، بیمه عمر بر این واقعیت استوار است که ما می دانیم می میریم، اما نمی دانیم چه زمانی. این مدل ها ممکن است تا حدی قطعی، تا حدی تصادفی یا کاملا تصادفی باشند.
بازیابی اطلاعات
بازیابی اطلاعات (IR) یک برنامه نرم افزاری است که اطلاعات را از مخازن اسناد، به ویژه اطلاعات متنی، سازماندهی، ذخیره، بازیابی و ارزیابی می کند.
این فناوری به کاربران کمک می کند تا اطلاعات مورد نیاز خود را کشف کنند، اما به وضوح پاسخ سؤالات آنها را ارائه نمی دهد. وجود و محل اسنادی را که ممکن است اطلاعات لازم را ارائه دهند، اطلاع می دهد.
اسناد مربوطه آنهایی هستند که نیازهای کاربر را برآورده می کنند. یک سیستم IR بدون عیب فقط اسناد انتخاب شده را برمی گرداند.
انسجام موضوع
انسجام موضوعی با محاسبه میزان تشابه معنایی بین عبارات با امتیاز بالای موضوع، به یک موضوع امتیاز میدهد. این معیارها به تمایز بین موضوعاتی که از نظر معنایی قابل تفسیر هستند و موضوعاتی که مصنوعات استنتاج آماری هستند کمک می کند.
اگر گروهی از ادعاها یا حقایق همدیگر را تأیید کنند، گفته می شود که منسجم هستند.
در نتیجه، یک مجموعه واقعیت منسجم را می توان در زمینه ای درک کرد که همه یا اکثریت واقعیت ها را در بر می گیرد. «بازی یک ورزش گروهی است»، «بازی با توپ انجام میشود»، و «بازی به تلاش فیزیکی فوقالعاده نیاز دارد» همگی نمونههایی از مجموعههای واقعی منسجم هستند.
روش های مختلف مدل سازی موضوع
این روش حیاتی را می توان با الگوریتم ها یا روش های مختلفی انجام داد. از جمله آنها عبارتند از:
- تخصیص دیریکله نهفته (LDA)
- فاکتورسازی ماتریس غیر منفی (NMF)
- تحلیل معنایی پنهان (LSA)
- تحلیل معنایی پنهان احتمالی (pLSA)
تخصیص دیریکله نهفته (LDA)
برای تشخیص روابط بین متون متعدد در یک پیکره، از مفهوم آماری و گرافیکی تخصیص دیریکله پنهان استفاده می شود.
با استفاده از رویکرد حداکثر سازی استثنای متغیر (VEM)، بزرگترین تخمین احتمال از مجموعه کامل متن به دست می آید.
به طور سنتی، چند کلمه برتر از مجموعه ای از کلمات انتخاب می شود.
با این حال، جمله کاملا بی معنی است.
بر اساس این تکنیک، هر متن با توزیع احتمالی موضوعات و هر موضوع با توزیع احتمالی کلمات نمایش داده می شود.
فاکتورسازی ماتریس غیر منفی (NMF)
ماتریس با فاکتورسازی مقادیر غیر منفی یک رویکرد استخراج ویژگی پیشرفته است.
هنگامی که کیفیت های زیادی وجود دارد و ویژگی ها مبهم هستند یا قابلیت پیش بینی ضعیفی دارند، NMF سودمند است. NMF می تواند الگوها، موضوعات یا مضامین قابل توجهی را با ترکیب ویژگی ها ایجاد کند.
NMF هر ویژگی را به عنوان یک ترکیب خطی از مجموعه ویژگی های اصلی تولید می کند.
هر ویژگی شامل مجموعه ای از ضرایب است که نشان دهنده اهمیت هر یک از ویژگی ها در ویژگی است. هر صفت عددی و هر مقدار از هر ویژگی دسته ضریب خاص خود را دارد.
همه ضرایب مثبت هستند.
تحلیل معنایی پنهان
یکی دیگر از روشهای یادگیری بدون نظارت که برای استخراج ارتباط بین کلمات در مجموعهای از اسناد استفاده میشود، تحلیل معنایی پنهان است.
این به ما در انتخاب اسناد مناسب کمک می کند. عملکرد اصلی آن کاهش ابعاد حجم عظیم داده های متنی است.
این داده های غیر ضروری به عنوان نویز پس زمینه در به دست آوردن بینش های لازم از داده ها عمل می کنند.
تحلیل معنایی پنهان احتمالی (pLSA)
تحلیل معنایی پنهان احتمالی (PLSA)، که گاهی اوقات به عنوان نمایه سازی معنایی پنهان احتمالی (PLSI، به ویژه در حلقه های بازیابی اطلاعات) شناخته می شود، یک رویکرد آماری برای تجزیه و تحلیل داده های دو حالته و همزمان است.
در واقع، مشابه تجزیه و تحلیل معنایی نهفته، که PLSA از آن پدید آمد، میتوان یک نمایش کمبعدی از متغیرهای مشاهدهشده بر حسب تمایل آنها به متغیرهای پنهان خاص به دست آورد.
کار با مدل سازی موضوع در پایتون
اکنون، من شما را از طریق یک تکلیف مدلسازی موضوعی با پایتون راهنمایی میکنم زبان برنامه نویسی با استفاده از یک مثال در دنیای واقعی
من مقالات تحقیقاتی را مدلسازی خواهم کرد. مجموعه داده ای که من در اینجا استفاده خواهم کرد از kaggle.com می آید. شما به راحتی می توانید تمام فایل هایی را که من در این کار استفاده می کنم از اینجا بدست آورید با ما.
بیایید با وارد کردن تمام کتابخانههای ضروری، مدلسازی موضوع را با استفاده از پایتون شروع کنیم:
مرحله زیر خواندن تمام مجموعه داده هایی است که در این کار استفاده خواهم کرد:
تجزیه و تحلیل داده های اکتشافی
EDA (Exploratory Data Analysis) یک روش آماری است که از عناصر بصری استفاده می کند. از خلاصه های آماری و نمایش های گرافیکی برای کشف روندها، الگوها و فرضیات آزمون استفاده می کند.
قبل از شروع مدلسازی موضوع، تجزیه و تحلیل دادههای اکتشافی را انجام میدهم تا ببینم آیا الگوها یا روابطی در دادهها وجود دارد یا خیر:
اکنون مقادیر تهی مجموعه داده آزمایشی را پیدا خواهیم کرد:
اکنون یک هیستوگرام و باکس پلات برای بررسی رابطه بین متغیرها ترسیم خواهم کرد.
تعداد کاراکترهای مجموعه Abstracts of the Train بسیار متفاوت است.
در قطار حداقل 54 و حداکثر 4551 کاراکتر داریم. 1065 میانگین تعداد کاراکترها است.
به نظر می رسد مجموعه تست جالب تر از مجموعه آموزشی باشد زیرا مجموعه تست دارای 46 کاراکتر است در حالی که مجموعه آموزشی دارای 2841 کاراکتر است.
در نتیجه، مجموعه تست دارای میانه 1058 کاراکتر بود که مشابه مجموعه آموزشی است.
تعداد کلمات در مجموعه آموزشی از الگوی مشابهی با تعداد حروف پیروی می کند.
حداقل 8 کلمه و حداکثر 665 کلمه مجاز است. در نتیجه، میانگین تعداد کلمات 153 است.
حداقل هفت کلمه در چکیده و حداکثر 452 کلمه در مجموعه آزمون الزامی است.
میانه، در این مورد، 153 است که با میانه در مجموعه آموزشی یکسان است.
استفاده از برچسب ها برای مدل سازی موضوع
چندین استراتژی مدل سازی موضوع وجود دارد. من از برچسب ها در این تمرین استفاده خواهم کرد. بیایید نحوه انجام این کار را با بررسی برچسب ها بررسی کنیم:
کاربردهای مدل سازی موضوعی
- می توان از خلاصه متن برای تشخیص موضوع یک سند یا کتاب استفاده کرد.
- می توان از آن برای حذف سوگیری داوطلب از نمره گذاری امتحان استفاده کرد.
- مدلسازی موضوع ممکن است برای ایجاد روابط معنایی بین کلمات در مدلهای مبتنی بر نمودار استفاده شود.
- این می تواند خدمات مشتری را با شناسایی و پاسخ به کلمات کلیدی در درخواست مشتری افزایش دهد. مشتریان به شما اعتماد بیشتری خواهند داشت، زیرا شما در لحظه مناسب و بدون ایجاد دردسر، کمک مورد نیاز خود را به آنها ارائه کرده اید. در نتیجه، وفاداری مشتری به طور چشمگیری افزایش می یابد و ارزش شرکت افزایش می یابد.
نتیجه
مدلسازی موضوعی نوعی مدلسازی آماری است که برای کشف «موضوعات» انتزاعی موجود در مجموعهای از متون استفاده میشود.
شکلی از مدل آماری مورد استفاده در فراگیری ماشین و پردازش زبان طبیعی برای کشف مفاهیم انتزاعی که در مجموعه ای از متون وجود دارد.
این یک روش متن کاوی است که به طور گسترده برای یافتن الگوهای معنایی پنهان در متن بدن استفاده می شود.
پاسخ دهید