Başlayanlar üçün Mövzu Modelləşdirmə Girişi

Mündəricat[Gizlət][Göstər]

Mövzu Modelləşdirmə nədir?
Mövzunun Modelləşdirilməsinin Komponentləri+-
- Ehtimal modeli
- Məlumat axtarışı
Mövzuların Modelləşdirilməsinin Müxtəlif Metodları+-
Python-da Mövzuların Modelləşdirilməsi ilə praktiki+-
- Araşdırma məlumatlarının təhlili
- Mövzuların Modelləşdirilməsi üçün Teqlərdən istifadə
Mövzuların Modelləşdirilməsinin Tətbiqləri
Nəticə

Əminəm ki, siz süni intellekt, eləcə də maşın öyrənməsi və təbii dil emal (NLP) kimi sözləri eşitmisiniz.

Xüsusilə hər gün yüzlərlə, hətta minlərlə müştəri ilə əlaqə saxlayan bir firmada işləyirsinizsə.

Sosial media yazılarının, e-poçtların, çatların, açıq sorğu cavablarının və digər mənbələrin məlumat təhlili sadə proses deyil və yalnız insanlara həvalə edildikdə daha da çətinləşir.

Buna görə bir çox insan potensialına həvəslə baxır süni intellekt onların gündəlik işləri və müəssisələr üçün.

Süni intellektlə işləyən mətn təhlili dili üzvi şəkildə şərh etmək üçün geniş çeşidli yanaşma və ya alqoritmlərdən istifadə edir, bunlardan biri mətnlərdən subyektləri avtomatik aşkar etmək üçün istifadə olunan mövzu təhlilidir.

Müəssisələr işçiləri çox məlumatla yükləmək əvəzinə, asan işləri maşınlara ötürmək üçün mövzu təhlili modellərindən istifadə edə bilərlər.

Kompüter hər səhər müştəri sorğularının və ya dəstək problemlərinin sonsuz siyahılarını süzgəcdən keçirə bilsə, komandanızın nə qədər vaxta qənaət edə və daha vacib işə həsr edə biləcəyini düşünün.

Bu təlimatda biz mövzu modelləşdirməsinə, mövzu modelləşdirmənin müxtəlif üsullarına nəzər salacağıq və bununla bağlı bəzi praktiki təcrübə əldə edəcəyik.

Mövzu Modelləşdirmə nədir?

Mövzu modelləşdirməsi nəzarətsiz və nəzarət edilən statistik məlumatların olduğu mətnin öyrənilməsi növüdür maşın təlim üsullar korpusda və ya strukturlaşdırılmamış mətnin əhəmiyyətli həcmində meylləri aşkar etmək üçün istifadə olunur.

O, sizin böyük sənədlər kolleksiyanızı götürə bilər və sözləri terminlər qruplarına uyğunlaşdırmaq və mövzuları tapmaq üçün oxşarlıq metodundan istifadə edə bilər.

Bu bir az mürəkkəb və çətin görünür, ona görə də mövzu modelləşdirmə prosedurunu sadələşdirək!

Tutaq ki, əlinizdə rəngli işıqlandırıcılar dəsti ilə qəzet oxuyursunuz.

Bu köhnə dəb deyilmi?

Başa düşürəm ki, bu günlərdə çap olunmuş qəzetləri az adam oxuyur; hər şey rəqəmsaldır və işıqlandırıcılar keçmişdə qaldı! Özünüzü ata və ya ananız kimi göstərin!

Deməli, qəzeti oxuyanda vacib şərtləri vurğulayırsan.

Daha bir fərziyyə!

Müxtəlif mövzuların açar sözlərini vurğulamaq üçün fərqli çalarlardan istifadə edirsiniz. Təqdim olunan rəng və mövzulardan asılı olaraq açar sözləri kateqoriyalara ayırırsınız.

Müəyyən bir rənglə qeyd olunan hər bir söz toplusu müəyyən bir mövzu üçün açar sözlər siyahısıdır. Seçdiyiniz müxtəlif rənglərin miqdarı mövzuların sayını göstərir.

Bu, ən əsas mövzu modelləşdirməsidir. Bu, böyük mətn kolleksiyalarının başa düşülməsinə, təşkilinə və ümumiləşdirilməsinə kömək edir.

Bununla belə, yadda saxlayın ki, effektiv olmaq üçün avtomatlaşdırılmış mövzu modelləri çoxlu məzmun tələb edir. Qısa bir kağızınız varsa, köhnə məktəbə getmək və işıqlandırıcılardan istifadə etmək istəyə bilərsiniz!

Məlumatlarla tanış olmaq üçün bir az vaxt sərf etmək də faydalıdır. Bu, mövzu modelinin nə tapması lazım olduğuna dair əsas fikir verəcəkdir.

Məsələn, o gündəlik indiki və əvvəlki münasibətləriniz haqqında ola bilər. Beləliklə, mən mətn mədən robot-dostumun oxşar fikirlərlə çıxış edəcəyini gözləyirəm.

Bu, müəyyən etdiyiniz mövzuların keyfiyyətini daha yaxşı təhlil etməyə və lazım gələrsə, açar sözlər dəstini dəyişməyə kömək edə bilər.

Mövzunun Modelləşdirilməsinin Komponentləri

Ehtimal modeli

Təsadüfi dəyişənlər və ehtimal paylamaları ehtimal modellərində hadisə və ya fenomenin təsvirinə daxil edilir.

Deterministik model hadisə üçün tək potensial nəticəni təmin edir, ehtimal model isə həll yolu kimi ehtimal paylanmasını təmin edir.

Bu modellər reallığı nəzərə alır ki, bizim nadir hallarda vəziyyət haqqında tam məlumatımız olur. Demək olar ki, həmişə nəzərə alınmalı bir təsadüfi element var.

Məsələn, həyat sığortası öləcəyimizi bildiyimiz, lakin nə vaxt öləcəyimizi bilmədiyimiz reallığa əsaslanır. Bu modellər qismən deterministik, qismən təsadüfi və ya tamamilə təsadüfi ola bilər.

Məlumat axtarışı

İnformasiya axtarışı (IR) sənəd anbarlarından məlumatları, xüsusən də mətn məlumatlarını təşkil edən, saxlayan, əldə edən və qiymətləndirən proqram təminatıdır.

Texnologiya istifadəçilərə ehtiyac duyduqları məlumatları kəşf etməyə kömək edir, lakin onların sorğularına aydın şəkildə cavab vermir. O, lazımi məlumatları təqdim edə bilən sənədlərin mövcudluğu və yeri barədə məlumat verir.

Müvafiq sənədlər istifadəçinin ehtiyaclarına cavab verən sənədlərdir. Qüsursuz IR sistemi yalnız seçilmiş sənədləri qaytaracaq.

Mövzunun uyğunluğu

Mövzu uyğunluğu mövzunun yüksək bal toplayan terminləri arasında semantik oxşarlıq dərəcəsini hesablayaraq bir mövzunu qiymətləndirir. Bu ölçülər semantik olaraq şərh edilə bilən mövzular və statistik nəticə çıxaran mövzular arasında fərq qoymağa kömək edir.

Əgər bir qrup iddia və ya fakt bir-birini dəstəkləyirsə, onların əlaqəli olduğu deyilir.

Nəticədə, birləşmiş faktlar toplusu faktların hamısını və ya əksəriyyətini əhatə edən kontekstdə başa düşülə bilər. “Oyun komanda idmanıdır”, “oyun topla oynanılır” və “oyun böyük fiziki səy tələb edir” hamısı birləşmiş faktların nümunələridir.

Mövzuların Modelləşdirilməsinin Müxtəlif Metodları

Bu kritik prosedur müxtəlif alqoritmlər və ya metodologiyalar vasitəsilə həyata keçirilə bilər. Onların arasında:

Gizli Dirixlet Ayrılması (LDA)
Mənfi Qeyri Matris Faktorizasiyası (NMF)
Gizli Semantik Təhlil (LSA)
Ehtimallı Gizli Semantik Analiz (pLSA)

Gizli Dirixlet Ayrılması (LDA)

Korpusdakı çoxsaylı mətnlər arasında əlaqələri aşkar etmək üçün Latent Dirichlet Allocation-un statistik və qrafik konsepsiyasından istifadə olunur.

Variasiya İstisnasının Maksimallaşdırılması (VEM) yanaşmasından istifadə edərək mətnin tam korpusundan ən böyük ehtimal qiymətləndirməsi əldə edilir.

LDA

Ənənəvi olaraq, sözlər çantasından ən yaxşı bir neçə söz seçilir.

Bununla belə, cümlə tamamilə mənasızdır.

Bu texnikaya görə, hər bir mətn subyektlərin ehtimal paylanması, hər bir mövzu isə sözlərin ehtimal paylanması ilə təmsil olunacaq.

Mənfi Qeyri Matris Faktorizasiyası (NMF)

Qeyri-mənfi dəyərləri olan matris Faktorizasiya ən müasir xüsusiyyət çıxarma yanaşmasıdır.

Çoxlu keyfiyyətlər olduqda və atributlar qeyri-müəyyən olduqda və ya zəif proqnozlaşdırıla biləndə, NMF faydalıdır. NMF xüsusiyyətləri birləşdirərək əhəmiyyətli nümunələr, mövzular və ya mövzular yarada bilər.

Mənfi Qeyri Matris Faktorizasiyası

NMF hər bir xüsusiyyəti orijinal atribut dəstinin xətti kombinasiyası kimi yaradır.

Hər bir xüsusiyyət xüsusiyyətdə hər bir atributun əhəmiyyətini əks etdirən əmsallar toplusunu ehtiva edir. Hər bir ədədi atributun və hər bir kateqoriya atributunun hər bir dəyərinin öz əmsalı var.

Bütün əmsallar müsbətdir.

Latent semantik analiz

Sənədlər toplusunda sözlər arasında əlaqə çıxarmaq üçün istifadə edilən başqa bir nəzarətsiz öyrənmə üsulu gizli semantik analizdir.

Bu, düzgün sənədləri seçməyə kömək edir. Onun əsas funksiyası mətn məlumatlarının nəhəng korpusunun ölçüsünü azaltmaqdır.

Bu lazımsız məlumatlar verilənlərdən lazımi fikirlərin əldə edilməsində fon səs-küyü kimi xidmət edir.

Latent semantik analiz

Ehtimallı Gizli Semantik Analiz (pLSA)

Bəzən ehtimala əsaslanan gizli semantik indeksləşdirmə (PLSI, xüsusən də məlumat axtarış dairələrində) kimi tanınan ehtimal gizli semantik analiz (PLSA) iki rejimli və birgə baş verən məlumatların təhlili üçün statistik yanaşmadır.

Əslində, PLSA-nın yarandığı gizli semantik təhlilə bənzər olaraq, müşahidə olunan dəyişənlərin aşağı ölçülü təsviri onların xüsusi gizli dəyişənlərə yaxınlığı baxımından əldə edilə bilər.

Ehtimallı Gizli Senantik Təhlil

Python-da Mövzuların Modelləşdirilməsi ilə praktiki

İndi mən sizə Python ilə mövzu modelləşdirmə tapşırığını təqdim edəcəyəm proqramlaşdırma dili real dünya nümunəsindən istifadə etməklə.

Tədqiqat məqalələrinin modelləşdirilməsi ilə məşğul olacağam. Burada istifadə edəcəyim məlumat dəsti kaggle.com saytından gəlir. Bu işdə istifadə etdiyim bütün faylları buradan asanlıqla əldə edə bilərsiniz səhifə.

Bütün əsas kitabxanaları idxal etməklə Python-dan istifadə edərək Mövzu Modelləşdirməsinə başlayaq:

Kitabxanaların idxalı

Aşağıdakı addım bu tapşırıqda istifadə edəcəyim bütün məlumat dəstlərini oxumaqdır:

Məlumat dəstini oxuyun

Araşdırma məlumatlarının təhlili

EDA (Exploratory Data Analysis) vizual elementlərdən istifadə edən statistik metoddur. O, tendensiyaları, nümunələri və sınaq fərziyyələrini aşkar etmək üçün statistik xülasələrdən və qrafik təsvirlərdən istifadə edir.

Mövzu modelləşdirməsinə başlamazdan əvvəl verilənlərdə hər hansı nümunə və ya əlaqənin olub-olmadığını görmək üçün bəzi kəşfiyyat məlumat təhlili aparacağam:

Qatar Data Setinin Null Dəyərlərini Tapın

Qatarın Null Dəyərlərinin Çıxışı

İndi test məlumat dəstinin null dəyərlərini tapacağıq:

Test Data Setinin Null Dəyərlərini Tapın

Test Null Dəyərlərinin Çıxışı

İndi mən dəyişənlər arasındakı əlaqəni yoxlamaq üçün histoqram və qutu qrafiki çəkəcəyəm.

Hiylələr

Planlaşdırmanın Nəticəsi 1

Qatarın Abstraktları dəstindəki simvolların miqdarı çox dəyişir.

Qatarda minimum 54, maksimum 4551 simvolumuz var. 1065 simvolların orta sayıdır.

Süjet 2

Planlaşdırmanın Nəticəsi 2

Test dəsti təlim dəstindən daha maraqlı görünür, çünki test dəstində 46 simvol, təlim dəstində isə 2841 simvol var.

Nəticə etibarı ilə test dəstinin medianı 1058 simvoldan ibarət idi ki, bu da təlim dəstinə bənzəyir.

Süjet 3

Planlaşdırmanın Nəticəsi 3

Öyrənmə dəstindəki sözlərin sayı hərflərin sayına oxşar nümunəyə uyğundur.

Minimum 8, maksimum 665 sözə icazə verilir. Nəticədə median söz sayı 153-dür.

Süjet 4

Planlaşdırmanın Nəticəsi 4

Abstraktda minimum yeddi söz və test toplusunda maksimum 452 söz tələb olunur.

Median, bu halda, 153-dür, bu da təlim dəstindəki medianla eynidir.

Mövzuların Modelləşdirilməsi üçün Teqlərdən istifadə

Bir neçə mövzu modelləşdirmə strategiyası var. Bu məşqdə etiketlərdən istifadə edəcəyəm; etiketləri araşdıraraq bunu necə edəcəyinə baxaq:

Mövzuların Modelləşdirilməsi üçün Teqlərdən İstifadə

Mövzu Modelləşdirmənin Nəticəsi

Mövzuların Modelləşdirilməsinin Tətbiqləri

Sənədin və ya kitabın mövzusunu ayırd etmək üçün mətn xülasəsindən istifadə edilə bilər.
O, imtahan balından namizədin qərəzliyini aradan qaldırmaq üçün istifadə edilə bilər.
Mövzu modelləşdirməsi qrafik əsaslı modellərdə sözlər arasında semantik əlaqələr qurmaq üçün istifadə edilə bilər.
Müştərinin sorğusunda açar sözləri aşkarlamaq və onlara cavab verməklə müştəri xidmətlərini təkmilləşdirə bilər. Müştərilər sizə lazım olan anda və heç bir çətinlik yaratmadan onlara lazım olan yardımı göstərdiyiniz üçün sizə daha çox inanacaqlar. Nəticədə, müştəri loyallığı kəskin şəkildə yüksəlir və şirkətin dəyəri artır.

Nəticə

Mövzuların modelləşdirilməsi mətnlər toplusunda mövcud olan mücərrəd “mövzuları” açmaq üçün istifadə edilən bir növ statistik modelləşdirmədir.

Bu, istifadə olunan statistik modelin bir formasıdır maşın təlim və mətnlər toplusunda mövcud olan mücərrəd anlayışları açmaq üçün təbii dil emalı.

Bu, əsas mətndə gizli semantik nümunələri tapmaq üçün geniş şəkildə istifadə edilən mətnin öyrənilməsi üsuludur.

Başlayanlar üçün Mövzu Modelləşdirmə Girişi

Mövzu Modelləşdirmə nədir?