Pengenalan Pemodelan Topik untuk Pemula

Jadual Kandungan[Sembunyi][Tunjukkan]

Apakah Pemodelan Topik?
Komponen Permodelan Topik+-
- Model Kebarangkalian
- Pencarian Maklumat
Kaedah Berbeza Pemodelan Topik+-
Hands-on dengan Pemodelan Topik dalam Python+-
- Analisis Data Eksplorasi
- Menggunakan Teg untuk Pemodelan Topik
Aplikasi Permodelan Topik
Kesimpulan

Saya pasti anda pernah mendengar tentang kecerdasan buatan, serta perkataan seperti pembelajaran mesin dan pemprosesan bahasa semula jadi (NLP).

Terutama jika anda bekerja untuk firma yang mengendalikan ratusan, jika tidak beribu-ribu, kenalan pelanggan setiap hari.

Analisis data penyiaran media sosial, e-mel, sembang, balasan tinjauan terbuka dan sumber lain bukanlah proses yang mudah, dan ia menjadi lebih sukar apabila diamanahkan hanya kepada orang.

Itulah sebabnya ramai orang bersemangat tentang potensi kecerdasan buatan untuk kerja seharian mereka dan untuk perusahaan .

Analisis teks dikuasakan AI menggunakan pelbagai pendekatan atau algoritma untuk mentafsir bahasa secara organik, salah satunya ialah analisis topik, yang digunakan untuk menemui subjek secara automatik daripada teks.

Perniagaan boleh menggunakan model analisis topik untuk memindahkan kerja mudah ke mesin dan bukannya membebankan pekerja dengan terlalu banyak data.

Pertimbangkan berapa banyak masa yang mungkin disimpan dan ditumpukan oleh pasukan anda untuk kerja yang lebih penting jika komputer boleh menapis senarai tinjauan pelanggan atau isu sokongan yang tidak berkesudahan setiap pagi.

Dalam panduan ini, kami akan melihat kepada pemodelan topik, kaedah pemodelan topik yang berbeza dan mendapatkan pengalaman praktikal dengannya.

Apakah Pemodelan Topik?

Pemodelan topik ialah sejenis perlombongan teks di mana statistik tanpa diawasi dan diawasi pembelajaran mesin teknik digunakan untuk mengesan arah aliran dalam korpus atau sejumlah besar teks tidak berstruktur.

Ia boleh mengambil koleksi besar dokumen anda dan menggunakan kaedah persamaan untuk menyusun perkataan ke dalam kelompok istilah dan menemui subjek.

Nampaknya agak rumit dan sukar, jadi mari kita permudahkan prosedur pemodelan subjek!

Andaikan anda sedang membaca surat khabar dengan satu set penyerlah berwarna di tangan anda.

Bukankah itu kuno?

Saya sedar bahawa hari ini, hanya sedikit orang yang membaca akhbar dalam bentuk cetakan; segala-galanya adalah digital, dan penyerlah adalah perkara yang telah berlalu! Berpura-pura menjadi bapa atau ibu anda!

Jadi, apabila anda membaca akhbar, anda mengetengahkan istilah penting.

Satu lagi andaian!

Anda menggunakan warna yang berbeza untuk menekankan kata kunci pelbagai tema. Anda mengkategorikan kata kunci bergantung pada warna dan topik yang disediakan.

Setiap koleksi perkataan yang ditandakan dengan warna tertentu ialah senarai kata kunci untuk topik tertentu. Jumlah pelbagai warna yang anda pilih menunjukkan bilangan tema.

Ini adalah pemodelan topik yang paling asas. Ia membantu dalam pemahaman, organisasi, dan ringkasan koleksi teks yang besar.

Walau bagaimanapun, perlu diingat bahawa untuk menjadi berkesan, model topik automatik memerlukan banyak kandungan. Jika anda mempunyai kertas pendek, anda mungkin mahu pergi ke sekolah lama dan menggunakan penyerlah!

Ia juga berfaedah untuk meluangkan sedikit masa untuk mengetahui data. Ini akan memberi anda gambaran asas tentang perkara yang harus ditemui oleh model topik.

Sebagai contoh, diari itu mungkin mengenai hubungan anda sekarang dan sebelumnya. Oleh itu, saya menjangkakan rakan robot perlombongan teks saya untuk menghasilkan idea yang serupa.

Ini boleh membantu anda menganalisis dengan lebih baik kualiti subjek yang telah anda kenal pasti dan, jika perlu, ubah suai set kata kunci.

Komponen Permodelan Topik

Model Kebarangkalian

Pembolehubah rawak dan taburan kebarangkalian dimasukkan ke dalam perwakilan peristiwa atau fenomena dalam model kebarangkalian.

Model deterministik menyediakan satu kesimpulan yang berpotensi untuk sesuatu peristiwa, manakala model kebarangkalian menyediakan taburan kebarangkalian sebagai penyelesaian.

Model ini menganggap realiti bahawa kita jarang mempunyai pengetahuan lengkap tentang sesuatu situasi. Hampir selalu terdapat unsur rawak untuk dipertimbangkan.

Sebagai contoh, insurans hayat adalah berdasarkan realiti yang kita tahu kita akan mati, tetapi kita tidak tahu bila. Model ini mungkin separa deterministik, separa rawak, atau rawak sepenuhnya.

Pencarian Maklumat

Pendapatan maklumat (IR) ialah program perisian yang mengatur, menyimpan, mendapatkan semula dan menilai maklumat daripada repositori dokumen, terutamanya maklumat teks.

Teknologi ini membantu pengguna menemui maklumat yang mereka perlukan, tetapi ia tidak memberikan jawapan kepada pertanyaan mereka dengan jelas. Ia memberitahu tentang kehadiran dan lokasi kertas yang mungkin memberikan maklumat yang diperlukan.

Dokumen yang berkaitan adalah dokumen yang memenuhi keperluan pengguna. Sistem IR yang tidak bercela akan mengembalikan dokumen terpilih sahaja.

Kesepaduan Topik

Koheren Topik menjaringkan satu topik dengan mengira tahap persamaan semantik antara istilah berskor tinggi topik. Metrik ini membantu dalam membezakan antara subjek yang boleh ditafsir secara semantik dan topik yang merupakan artifak inferens statistik.

Jika sekumpulan dakwaan atau fakta menyokong satu sama lain, ia dikatakan koheren.

Hasilnya, set fakta yang padu boleh difahami dalam konteks yang merangkumi semua atau sebahagian besar fakta. "Permainan ini adalah sukan berpasukan," "permainan dimainkan dengan bola," dan "permainan memerlukan usaha fizikal yang luar biasa" adalah semua contoh set fakta yang padu.

Kaedah Berbeza Pemodelan Topik

Prosedur kritikal ini boleh dijalankan dengan pelbagai algoritma atau metodologi. Antaranya ialah:

Peruntukan Dirichlet Terpendam (LDA)
Pemfaktoran Matriks Bukan Negatif (NMF)
Analisis Semantik Terpendam (LSA)
Analisis Semantik Terpendam Kebarangkalian(pLSA)

Peruntukan Dirichlet Terpendam(LDA)

Untuk mengesan hubungan antara berbilang teks dalam korpus, konsep statistik dan grafik Peruntukan Dirichlet Terpendam digunakan.

Menggunakan pendekatan Variational Exception Maximization (VEM), anggaran kemungkinan terbesar daripada korpus penuh teks dicapai.

LTD

Secara tradisinya, beberapa perkataan teratas daripada beg perkataan dipilih.

Namun, ayat itu langsung tidak bermakna.

Menurut teknik ini, setiap teks akan diwakili oleh taburan kebarangkalian subjek, dan setiap topik dengan taburan perkataan kebarangkalian.

Pemfaktoran Matriks Bukan Negatif(NMF)

Matriks dengan Pemfaktoran Nilai Bukan Negatif ialah pendekatan pengekstrakan ciri yang canggih.

Apabila terdapat banyak kualiti dan atribut tidak jelas atau mempunyai kebolehramalan yang lemah, NMF bermanfaat. NMF boleh menjana corak, subjek atau tema yang ketara dengan menggabungkan ciri.

Pemfaktoran Matriks Bukan Negatif

NMF menjana setiap ciri sebagai gabungan linear set atribut asal.

Setiap ciri mengandungi set pekali yang mewakili kepentingan setiap atribut pada ciri tersebut. Setiap atribut berangka dan setiap nilai setiap atribut kategori mempunyai pekalinya sendiri.

Semua pekali adalah positif.

Analisis Semantik Terpendam

Satu lagi kaedah pembelajaran tanpa pengawasan yang digunakan untuk mengekstrak perkaitan antara perkataan dalam satu set dokumen ialah analisis semantik terpendam.

Ini membantu kami memilih dokumen yang sesuai. Fungsi utamanya adalah untuk mengurangkan dimensi korpus besar data teks.

Data yang tidak diperlukan ini berfungsi sebagai bunyi latar belakang dalam memperoleh cerapan yang diperlukan daripada data.

Analisis Semantik Terpendam

Analisis Semantik Terpendam Kebarangkalian(pLSA)

Analisis semantik terpendam kemungkinan (PLSA), kadangkala dikenali sebagai pengindeksan semantik terpendam kemungkinan (PLSI, terutamanya dalam kalangan pencarian maklumat), ialah pendekatan statistik untuk menganalisis data dua mod dan kejadian bersama.

Malah, sama dengan analisis semantik terpendam, dari mana PLSA muncul, perwakilan dimensi rendah bagi pembolehubah yang diperhatikan boleh diperoleh dari segi pertalian mereka dengan pembolehubah tersembunyi tertentu.

Analisis Senantik Terpendam Probabilistik

Hands-on dengan Pemodelan Topik dalam Python

Sekarang, saya akan membimbing anda melalui tugasan pemodelan subjek dengan Python bahasa pengaturcaraan menggunakan contoh dunia sebenar.

Saya akan memodelkan artikel penyelidikan. Set data yang saya akan gunakan di sini berasal daripada kaggle.com. Anda boleh mendapatkan semua fail yang saya gunakan dalam kerja ini dengan mudah daripada ini halaman.

Mari mulakan dengan Pemodelan Topik menggunakan Python dengan mengimport semua perpustakaan penting:

Mengimport Pustaka

Langkah berikut ialah membaca semua set data yang akan saya gunakan dalam tugasan ini:

Baca Set Data

Analisis Data Eksplorasi

EDA (Analisis Data Eksplorasi) ialah kaedah statistik yang menggunakan elemen visual. Ia menggunakan ringkasan statistik dan perwakilan grafik untuk menemui arah aliran, corak dan andaian ujian.

Saya akan melakukan beberapa analisis data penerokaan sebelum saya memulakan pemodelan topik untuk melihat sama ada terdapat sebarang corak atau perhubungan dalam data:

Cari Nilai Null Bagi Set Data Kereta Api

Output Nilai Nol Keretapi

Sekarang kita akan mencari nilai nol set data ujian:

Cari Nilai Null Bagi Set Data Ujian

Output Nilai Null Ujian

Sekarang saya akan merancang histogram dan boxplot untuk menyemak hubungan antara pembolehubah.

Merancang

Output Petak 1

Jumlah aksara dalam set Abstrak Kereta Api sangat berbeza.

Di dalam kereta api, kami mempunyai sekurang-kurangnya 54 dan maksimum 4551 aksara. 1065 ialah jumlah purata aksara.

Memplot 2

Output Petak 2

Set ujian kelihatan lebih menarik daripada set latihan kerana set ujian mempunyai 46 aksara manakala set latihan mempunyai 2841.

Hasilnya, set ujian mempunyai median 1058 aksara, yang serupa dengan set latihan.

Memplot 3

Keluaran Memplot 3

Bilangan perkataan dalam set pembelajaran mengikut corak yang sama dengan bilangan huruf.

Sekurang-kurangnya 8 patah perkataan dan maksimum 665 patah perkataan dibenarkan. Hasilnya, kiraan perkataan median ialah 153.

Memplot 4

Output Petak 4

Sekurang-kurangnya tujuh perkataan dalam abstrak dan maksimum 452 perkataan dalam set ujian diperlukan.

Median, dalam kes ini, ialah 153, yang sama dengan median dalam set latihan.

Menggunakan Teg untuk Pemodelan Topik

Terdapat beberapa strategi pemodelan topik. Saya akan menggunakan tag dalam latihan ini; mari kita lihat cara melakukannya dengan memeriksa tag:

Menggunakan Teg Untuk Pemodelan Topik

Output Pemodelan Topik

Aplikasi Permodelan Topik

Ringkasan teks boleh digunakan untuk membezakan topik dokumen atau buku.
Ia boleh digunakan untuk menghapuskan berat sebelah calon daripada pemarkahan peperiksaan.
Pemodelan topik mungkin digunakan untuk membina hubungan semantik antara perkataan dalam model berasaskan graf.
Ia boleh meningkatkan perkhidmatan pelanggan dengan mengesan dan menjawab kata kunci dalam pertanyaan pelanggan. Pelanggan akan lebih mempercayai anda kerana anda telah memberikan bantuan yang mereka perlukan pada masa yang sesuai dan tanpa menyusahkan mereka. Akibatnya, kesetiaan pelanggan meningkat secara mendadak, dan nilai syarikat meningkat.

Kesimpulan

Pemodelan topik ialah sejenis pemodelan statistik yang digunakan untuk mendedahkan "subjek" abstrak yang wujud dalam koleksi teks.

Ia adalah satu bentuk model statistik yang digunakan dalam pembelajaran mesin dan pemprosesan bahasa semula jadi untuk mendedahkan konsep abstrak yang wujud dalam satu set teks.

Ia ialah kaedah perlombongan teks yang digunakan secara meluas untuk mencari corak semantik terpendam dalam teks kandungan.

Pengenalan Pemodelan Topik untuk Pemula

Apakah Pemodelan Topik?