Yangi boshlanuvchilar uchun mavzuni modellashtirishga kirish

Mundarija[Yashirish][Show]

Mavzuni modellashtirish nima?
Mavzuni modellashtirish komponentlari+-
- Ehtimoliy model
- Ma'lumot olish
Mavzuni modellashtirishning turli usullari+-
Pythonda mavzularni modellashtirish bo'yicha amaliy mashg'ulotlar+-
- Tekshirish ma'lumotlarini tahlil qilish
- Mavzuni modellashtirish uchun teglardan foydalanish
Mavzuni modellashtirishning qo'llanilishi
Xulosa

Ishonchim komilki, siz sun'iy intellekt, shuningdek, mashinani o'rganish va tabiiy tilni qayta ishlash (NLP) kabi so'zlarni eshitgansiz.

Ayniqsa, agar siz har kuni yuzlab, balki minglab mijozlar bilan aloqa qiladigan firmada ishlasangiz.

Ijtimoiy tarmoqlardagi eʼlonlar, elektron pochta xabarlari, chatlar, ochiq soʻrovnomalar va boshqa manbalar maʼlumotlarini tahlil qilish oddiy jarayon emas va faqat odamlarga ishonib topshirilganda yanada qiyinlashadi.

Shuning uchun ko'p odamlar potentsialiga ishtiyoq bilan qarashadi sun'iy intellekt ularning kundalik ishlari uchun va korxonalar uchun.

Sun’iy intellekt asosidagi matn tahlili tilni organik izohlash uchun keng ko‘lamli yondashuvlar yoki algoritmlarni qo‘llaydi, ulardan biri mavzularni tahlil qilish bo‘lib, u matnlardan mavzularni avtomatik aniqlash uchun ishlatiladi.

Korxonalar ishchilarni haddan tashqari ko'p ma'lumotlar bilan yuklashdan ko'ra, oson ishlarni mashinalarga o'tkazish uchun mavzuni tahlil qilish modellaridan foydalanishi mumkin.

Agar kompyuter har kuni ertalab mijozlar so'rovlarining cheksiz ro'yxatlarini yoki qo'llab-quvvatlash muammolarini filtrlashi mumkin bo'lsa, jamoangiz qancha vaqtni tejashi va muhimroq ishlarga bag'ishlashi mumkinligini ko'rib chiqing.

Ushbu qo'llanmada biz mavzuni modellashtirish, mavzuni modellashtirishning turli usullarini ko'rib chiqamiz va u bilan amaliy tajribaga ega bo'lamiz.

Mavzuni modellashtirish nima?

Mavzuni modellashtirish - bu nazoratsiz va nazorat ostida statistik ma'lumotlarga ega bo'lgan matn qazib olishning bir turi kompyuterni o'rganish metodlar korpusdagi tendentsiyalarni yoki tuzilmagan matnning muhim hajmini aniqlash uchun ishlatiladi.

U sizning katta hajmdagi hujjatlar to'plamini olib, so'zlarni atamalar klasterlariga joylashtirish va mavzularni ochish uchun o'xshashlik usulidan foydalanishi mumkin.

Bu biroz murakkab va qiyin ko'rinadi, shuning uchun mavzuni modellashtirish tartibini soddalashtiraylik!

Tasavvur qiling, siz qo'lingizda rangli yoritgichlar to'plami bilan gazeta o'qiyapsiz.

Bu eski uslub emasmi?

Tushundimki, bugungi kunda bosma nashrlarda gazetalarni kam odam o'qiydi; hamma narsa raqamli, va highlighterlar o'tmishdagi narsa! O'zingizni otangiz yoki onangiz deb ko'rsating!

Shunday qilib, siz gazetani o'qiyotganingizda, siz muhim shartlarni ta'kidlaysiz.

Yana bir taxmin!

Turli mavzulardagi kalit so'zlarni ta'kidlash uchun siz boshqa rangdan foydalanasiz. Siz taqdim etilgan rang va mavzularga qarab kalit so'zlarni toifalarga ajratasiz.

Muayyan rang bilan belgilangan so'zlarning har bir to'plami ma'lum bir mavzu uchun kalit so'zlar ro'yxatidir. Siz tanlagan turli xil ranglar miqdori mavzular sonini ko'rsatadi.

Bu mavzuni modellashtirishning eng asosiy usuli. Bu katta matn to'plamlarini tushunish, tartibga solish va umumlashtirishda yordam beradi.

Biroq, samarali bo'lishi uchun avtomatlashtirilgan mavzu modellari juda ko'p tarkibni talab qilishini yodda tuting. Agar sizda qisqa qog'oz bo'lsa, eski maktabga o'tib, yoritgichlardan foydalanishni xohlashingiz mumkin!

Ma'lumotlar bilan tanishish uchun biroz vaqt sarflash ham foydalidir. Bu sizga mavzu modeli nimani topishi kerakligi haqida asosiy tushuncha beradi.

Masalan, bu kundalik sizning hozirgi va oldingi munosabatlaringiz haqida bo'lishi mumkin. Shunday qilib, men matnni qazib oluvchi robot-do'stim shunga o'xshash g'oyalarni o'ylab topishini kutgan bo'lardim.

Bu siz aniqlagan mavzular sifatini yaxshiroq tahlil qilishga yordam beradi va agar kerak bo'lsa, kalit so'zlar to'plamini o'zgartiradi.

Mavzuni modellashtirish komponentlari

Ehtimoliy model

Tasodifiy o'zgaruvchilar va ehtimollik taqsimotlari ehtimollik modellarida hodisa yoki hodisaning tasviriga kiritilgan.

Deterministik model hodisa uchun yagona potentsial xulosani beradi, ehtimollik modeli esa yechim sifatida ehtimollik taqsimotini ta'minlaydi.

Ushbu modellar haqiqatni ko'rib chiqadiki, biz kamdan-kam hollarda vaziyat haqida to'liq ma'lumotga egamiz. Deyarli har doim tasodifiylik elementini hisobga olish kerak.

Misol uchun, hayotni sug'urtalash biz o'lishimizni biladigan haqiqatga asoslanadi, lekin qachon bo'lishini bilmaymiz. Ushbu modellar qisman deterministik, qisman tasodifiy yoki butunlay tasodifiy bo'lishi mumkin.

Ma'lumot olish

Axborot qidirish (IR) - bu hujjatlar omborlaridan ma'lumotlarni, xususan, matnli ma'lumotlarni tartibga solish, saqlash, olish va baholash uchun dasturiy ta'minot.

Texnologiya foydalanuvchilarga kerakli ma'lumotlarni topishga yordam beradi, lekin u ularning so'rovlariga aniq javob bermaydi. U kerakli ma'lumotlarni taqdim etishi mumkin bo'lgan hujjatlarning mavjudligi va joylashuvi haqida xabar beradi.

Tegishli hujjatlar foydalanuvchi ehtiyojlariga javob beradigan hujjatlardir. Nosozliksiz IR tizimi faqat tanlangan hujjatlarni qaytaradi.

Mavzuning muvofiqligi

Mavzuning uyg‘unligi mavzuning yuqori ball olgan atamalari o‘rtasidagi semantik o‘xshashlik darajasini hisoblab, bitta mavzuni baholaydi. Ushbu ko'rsatkichlar semantik talqin qilinadigan mavzular va statistik xulosalar artefaktlari bo'lgan mavzularni farqlashda yordam beradi.

Agar bir guruh da'volar yoki faktlar bir-birini qo'llab-quvvatlasa, ular izchil deb ataladi.

Natijada, yaxlit faktlar to'plami faktlarning barchasini yoki aksariyatini qamrab oladigan kontekstda tushunilishi mumkin. "O'yin - jamoaviy sport", "o'yin to'p bilan o'ynaladi" va "o'yin juda katta jismoniy kuch talab qiladi" - bularning barchasi birlashtirilgan faktlar to'plamiga misoldir.

Mavzuni modellashtirishning turli usullari

Ushbu muhim protsedura turli xil algoritmlar yoki metodologiyalar yordamida amalga oshirilishi mumkin. Ular orasida:

Yashirin Dirixlet taqsimoti (LDA)
Salbiy bo'lmagan matritsa faktorizatsiyasi (NMF)
Yashirin semantik tahlil (LSA)
Ehtimoliy latent semantik tahlil (pLSA)

Yashirin Dirixlet taqsimoti (LDA)

Korpusdagi bir nechta matnlar orasidagi munosabatlarni aniqlash uchun Yashirin Dirixlet taqsimotining statistik va grafik kontseptsiyasi qo'llaniladi.

Variatsion istisnolardan maksimallashtirish (VEM) yondashuvidan foydalanib, matnning to'liq korpusidan eng katta ehtimollik bahosiga erishiladi.

LDA

An'anaga ko'ra, so'zlar to'plamidan eng yuqori so'zlar tanlanadi.

Biroq, jumla mutlaqo ma'nosizdir.

Ushbu uslubga ko'ra, har bir matn mavzularning ehtimollik taqsimoti bilan va har bir mavzu so'zlarning ehtimollik taqsimoti bilan ifodalanadi.

Salbiy bo'lmagan matritsa faktorizatsiyasi (NMF)

Salbiy bo'lmagan qiymatlarga ega matritsalarni faktorizatsiya qilish - bu xususiyatlarni ajratib olishning zamonaviy yondashuvidir.

Agar ko'p fazilatlar mavjud bo'lsa va atributlar noaniq bo'lsa yoki bashorat qilish yomon bo'lsa, NMF foydalidir. NMF xususiyatlarni birlashtirib, muhim naqshlar, mavzular yoki mavzularni yaratishi mumkin.

Manfiy bo'lmagan matritsalarni faktorizatsiya qilish

NMF har bir xususiyatni asl atributlar to'plamining chiziqli birikmasi sifatida yaratadi.

Har bir xususiyat xususiyatdagi har bir atributning ahamiyatini ifodalovchi koeffitsientlar to'plamini o'z ichiga oladi. Har bir raqamli atribut va har bir toifa atributining har bir qiymati o'z koeffitsientiga ega.

Barcha koeffitsientlar ijobiydir.

Yashirin semantik tahlil

Hujjatlar to'plamidagi so'zlar o'rtasidagi assotsiatsiyalarni olish uchun foydalaniladigan boshqa nazoratsiz o'rganish usuli bu yashirin semantik tahlildir.

Bu to'g'ri hujjatlarni tanlashga yordam beradi. Uning asosiy vazifasi matn ma'lumotlarining ulkan korpusining o'lchamini kamaytirishdir.

Ushbu keraksiz ma'lumotlar ma'lumotlardan kerakli tushunchalarni olishda fon shovqini bo'lib xizmat qiladi.

Yashirin semantik tahlil

Ehtimoliy latent semantik tahlil (pLSA)

Ehtimoliy yashirin semantik tahlil (PLSA), ba'zan ehtimollik yashirin semantik indekslash (PLSI, ayniqsa ma'lumot qidirish doiralarida) sifatida tanilgan, ikki rejimli va birgalikdagi ma'lumotlarni tahlil qilish uchun statistik yondashuvdir.

Aslida, PLSA paydo bo'lgan yashirin semantik tahlilga o'xshab, kuzatilayotgan o'zgaruvchilarning past o'lchovli ko'rinishi ularning ma'lum yashirin o'zgaruvchilarga yaqinligi nuqtai nazaridan olinishi mumkin.

Ehtimoliy yashirin senantik tahlil

Pythonda mavzularni modellashtirish bo'yicha amaliy mashg'ulotlar

Endi men sizga Python bilan mavzuni modellashtirish bo'yicha topshiriqni ko'rsataman dasturlash tili real dunyo misolidan foydalanish.

Men tadqiqot maqolalarini modellashtiraman. Bu erda men foydalanadigan ma'lumotlar to'plami kaggle.com saytidan olingan. Bu ishda men foydalanadigan barcha fayllarni osongina olishingiz mumkin bet.

Keling, barcha muhim kutubxonalarni import qilish orqali Python yordamida mavzularni modellashtirishni boshlaylik:

Kutubxonalarni import qilish

Quyidagi qadam men ushbu vazifada foydalanadigan barcha ma'lumotlar to'plamini o'qishdir:

Ma'lumotlar to'plamini o'qing

Tekshirish ma'lumotlarini tahlil qilish

EDA (Exploratory Data Analysis) vizual elementlardan foydalanadigan statistik usuldir. U tendentsiyalarni, naqshlarni va taxminlarni sinash uchun statistik xulosalar va grafik tasvirlardan foydalanadi.

Mavzuni modellashtirishni boshlashdan oldin ma'lumotlarda qandaydir naqsh yoki munosabatlar bor-yo'qligini tekshirish uchun ma'lumotlarni tahliliy tahlil qilaman:

Poezd ma'lumotlar to'plamining nol qiymatlarini toping

Poyezdning nol qiymatlari chiqishi

Endi biz test ma'lumotlar to'plamining null qiymatlarini topamiz:

Test ma'lumotlar to'plamining nol qiymatlarini toping

Test nol qiymatlarining chiqishi

Endi men o'zgaruvchilar orasidagi munosabatni tekshirish uchun gistogramma va quti chizmasini tuzaman.

Hiyla

Chizmaning natijasi 1

Poyezdning tezislari to‘plamidagi belgilar miqdori juda katta farq qiladi.

Poezdda bizda kamida 54 va maksimal 4551 belgi bor. 1065 - belgilarning o'rtacha miqdori.

Chizma 2

Chizmaning natijasi 2

Test to'plami o'quv to'plamidan ko'ra qiziqarliroq ko'rinadi, chunki test to'plamida 46 belgi, o'quv to'plamida esa 2841 belgi bor.

Natijada test to‘plami o‘rtacha 1058 ta belgiga ega bo‘ldi, bu o‘quv majmuasiga o‘xshash.

Chizma 3

Chizmaning natijasi 3

O'quv to'plamidagi so'zlar soni harflar soniga o'xshash naqshga mos keladi.

Minimal 8 so'z va maksimal 665 so'zdan foydalanishga ruxsat beriladi. Natijada, o'rtacha so'zlar soni 153 ni tashkil qiladi.

Chizma 4

Chizmaning natijasi 4

Referatda kamida etti so'z va test to'plamida maksimal 452 so'z talab qilinadi.

Bu holda o'rtacha ko'rsatkich 153 ni tashkil qiladi, bu o'quv majmuasidagi mediana bilan bir xil.

Mavzuni modellashtirish uchun teglardan foydalanish

Bir nechta mavzuni modellashtirish strategiyalari mavjud. Men bu mashqda teglardan foydalanaman; Keling, teglarni tekshirish orqali buni qanday qilishni ko'rib chiqaylik:

Mavzuni Modellashtirish uchun teglardan foydalanish

Mavzuni modellashtirish natijalari

Mavzuni modellashtirishning qo'llanilishi

Matn xulosasidan hujjat yoki kitob mavzusini aniqlash uchun foydalanish mumkin.
U imtihon natijalaridan nomzodning noto'g'riligini olib tashlash uchun ishlatilishi mumkin.
Mavzuni modellashtirish grafik asosidagi modellarda so'zlar o'rtasida semantik munosabatlarni o'rnatish uchun ishlatilishi mumkin.
U mijoz so'rovidagi kalit so'zlarni aniqlash va ularga javob berish orqali mijozlarga xizmat ko'rsatishni yaxshilashi mumkin. Mijozlar sizga ko'proq ishonishadi, chunki siz ularga kerakli vaqtda va hech qanday qiyinchilik tug'dirmasdan ularga kerakli yordamni ko'rsatganingiz uchun. Natijada, mijozlarning sodiqligi keskin oshadi va kompaniyaning qiymati oshadi.

Xulosa

Mavzuni modellashtirish - bu matnlar to'plamida mavjud bo'lgan mavhum "mavzular" ni ochish uchun ishlatiladigan statistik modellashtirishning bir turi.

Bu ishlatiladigan statistik modelning bir shakli kompyuterni o'rganish matnlar to'plamida mavjud bo'lgan mavhum tushunchalarni ochish uchun tabiiy tilni qayta ishlash.

Bu asosiy matnda yashirin semantik naqshlarni topish uchun keng qo'llaniladigan matnni qazib olish usuli.

Yangi boshlanuvchilar uchun modellashtirish mavzusiga kirish

Mavzuni modellashtirish nima?