Pengenalan Pemodelan Topik untuk Pemula

Daftar Isi[Bersembunyi][Menunjukkan]

Apa itu Pemodelan Topik?
Komponen Pemodelan Topik+-
- Model Probabilistik
- Pengambilan Informasi
Berbagai Metode Pemodelan Topik+-
Praktek dengan Pemodelan Topik dengan Python+-
- Analisis Data Eksplorasi
- Menggunakan Tag untuk Pemodelan Topik
Aplikasi Pemodelan Topik
Kesimpulan

Saya yakin Anda pernah mendengar tentang kecerdasan buatan, serta kata-kata seperti pembelajaran mesin dan pemrosesan bahasa alami (NLP).

Terutama jika Anda bekerja untuk perusahaan yang menangani ratusan, bahkan ribuan, kontak klien setiap hari.

Analisis data postingan media sosial, email, obrolan, balasan survei terbuka, dan sumber lainnya bukanlah proses yang sederhana, dan menjadi lebih sulit lagi jika hanya dipercayakan kepada orang-orang.

Itulah sebabnya banyak orang yang antusias dengan potensi kecerdasan buatan untuk pekerjaan mereka sehari-hari dan untuk perusahaan.

Analisis teks bertenaga AI menggunakan berbagai pendekatan atau algoritme untuk menafsirkan bahasa secara organik, salah satunya adalah analisis topik, yang digunakan untuk secara otomatis menemukan subjek dari teks.

Bisnis dapat menggunakan model analisis topik untuk mentransfer pekerjaan mudah ke mesin daripada membebani pekerja dengan terlalu banyak data.

Pertimbangkan berapa banyak waktu yang dapat dihemat dan dicurahkan tim Anda untuk pekerjaan yang lebih penting jika komputer dapat menyaring daftar survei pelanggan atau masalah dukungan yang tak ada habisnya setiap pagi.

Dalam panduan ini, kita akan melihat pemodelan topik, berbagai metode pemodelan topik, dan mendapatkan pengalaman langsung dengannya.

Apa itu Pemodelan Topik?

Pemodelan topik adalah jenis penambangan teks di mana statistik tanpa pengawasan dan terawasi Mesin belajar teknik yang digunakan untuk mendeteksi tren dalam korpus atau volume yang signifikan dari teks tidak terstruktur.

Ini dapat mengambil banyak koleksi dokumen Anda dan menggunakan metode kesamaan untuk mengatur kata-kata ke dalam kelompok istilah dan menemukan subjek.

Tampaknya agak rumit dan sulit, jadi mari kita sederhanakan prosedur pemodelan subjek!

Asumsikan Anda sedang membaca koran dengan satu set stabilo berwarna di tangan Anda.

Bukankah itu kuno?

Saya menyadari bahwa akhir-akhir ini, hanya sedikit orang yang membaca surat kabar di media cetak; semuanya digital, dan stabilo sudah ketinggalan zaman! Berpura-puralah menjadi ayah atau ibumu!

Jadi, ketika Anda membaca koran, Anda menyoroti istilah-istilah penting.

Satu asumsi lagi!

Anda menggunakan rona berbeda untuk menekankan kata kunci dari berbagai tema. Anda mengkategorikan kata kunci tergantung pada warna dan topik yang disediakan.

Setiap kumpulan kata yang ditandai dengan warna tertentu adalah daftar kata kunci untuk topik tertentu. Jumlah berbagai warna yang Anda pilih menunjukkan jumlah tema.

Ini adalah pemodelan topik yang paling mendasar. Ini membantu dalam pemahaman, organisasi, dan ringkasan koleksi teks besar.

Namun, perlu diingat bahwa agar efektif, model topik otomatis memerlukan banyak konten. Jika Anda memiliki makalah pendek, Anda mungkin ingin menggunakan cara lama dan menggunakan stabilo!

Ini juga bermanfaat untuk meluangkan waktu untuk mengenal data. Ini akan memberi Anda pemahaman dasar tentang apa yang harus ditemukan oleh model topik.

Misalnya, buku harian itu mungkin tentang hubungan Anda sekarang dan sebelumnya. Jadi, saya mengantisipasi teman robot penambangan teks saya untuk menemukan ide serupa.

Ini dapat membantu Anda menganalisis dengan lebih baik kualitas subjek yang telah Anda identifikasi dan, jika perlu, mengubah kumpulan kata kunci.

Komponen Pemodelan Topik

Model Probabilistik

Variabel acak dan distribusi probabilitas dimasukkan ke dalam representasi suatu peristiwa atau fenomena dalam model probabilistik.

Model deterministik memberikan kesimpulan potensial tunggal untuk suatu peristiwa, sedangkan model probabilistik menyediakan distribusi probabilitas sebagai solusi.

Model-model ini mempertimbangkan kenyataan bahwa kita jarang memiliki pengetahuan yang lengkap tentang suatu situasi. Hampir selalu ada unsur keacakan untuk dipertimbangkan.

Misalnya, asuransi jiwa didasarkan pada kenyataan bahwa kita tahu kita akan mati, tetapi kita tidak tahu kapan. Model-model ini mungkin sebagian deterministik, sebagian acak, atau seluruhnya acak.

Pengambilan Informasi

Information retrieval (IR) adalah program perangkat lunak yang mengatur, menyimpan, mengambil, dan mengevaluasi informasi dari repositori dokumen, terutama informasi tekstual.

Teknologi membantu pengguna menemukan informasi yang mereka butuhkan, tetapi tidak secara jelas memberikan jawaban atas pertanyaan mereka. Ini memberitahu keberadaan dan lokasi kertas yang dapat memberikan informasi yang diperlukan.

Dokumen yang relevan adalah dokumen yang memenuhi kebutuhan pengguna. Sistem IR yang sempurna hanya akan mengembalikan dokumen yang dipilih.

Koherensi Topik

Koherensi Topik menilai satu topik dengan menghitung tingkat kesamaan semantik antara istilah topik dengan skor tinggi. Metrik ini membantu membedakan antara subjek yang dapat diinterpretasikan secara semantik dan topik yang merupakan artefak inferensi statistik.

Jika sekelompok klaim atau fakta saling mendukung, mereka dikatakan koheren.

Akibatnya, kumpulan fakta yang kohesif dapat dipahami dalam konteks yang mencakup semua atau sebagian besar fakta. “Permainan adalah olahraga tim”, “permainan dimainkan dengan bola”, dan “permainan membutuhkan usaha fisik yang luar biasa” adalah contoh kumpulan fakta yang kohesif.

Berbagai Metode Pemodelan Topik

Prosedur kritis ini dapat dilakukan dengan berbagai algoritma atau metodologi. Diantaranya adalah:

Alokasi Dirichlet Laten (LDA)
Faktorisasi Matriks Non Negatif (NMF)
Analisis Semantik Laten (LSA)
Analisis Semantik Laten Probabilistik (pLSA)

Alokasi Dirichlet Laten (LDA)

Untuk mendeteksi hubungan antara beberapa teks dalam korpus, konsep statistik dan grafis dari Latent Dirichlet Allocation digunakan.

Dengan menggunakan pendekatan Variational Exception Maximization (VEM), estimasi kemungkinan terbesar dari seluruh korpus teks tercapai.

LTD

Secara tradisional, beberapa kata teratas dari sekantong kata dipilih.

Namun, kalimat itu sama sekali tidak ada artinya.

Menurut teknik ini, setiap teks akan diwakili oleh distribusi subjek yang probabilistik, dan setiap topik dengan distribusi kata-kata yang probabilistik.

Faktorisasi Matriks Non Negatif (NMF)

Matriks dengan Faktorisasi Nilai Non-Negatif adalah pendekatan ekstraksi fitur yang mutakhir.

Ketika ada banyak kualitas dan atributnya tidak jelas atau memiliki prediktabilitas yang buruk, NMF bermanfaat. NMF dapat menghasilkan pola, subjek, atau tema yang signifikan dengan menggabungkan karakteristik.

Faktorisasi Matriks Non Negatif

NMF menghasilkan setiap fitur sebagai kombinasi linier dari set atribut asli.

Setiap fitur berisi sekumpulan koefisien yang mewakili pentingnya setiap atribut pada fitur tersebut. Setiap atribut numerik dan setiap nilai setiap atribut kategori memiliki koefisien tersendiri.

Semua koefisiennya positif.

Analisis Semantik Laten

Ini adalah metode pembelajaran tanpa pengawasan lain yang digunakan untuk mengekstrak asosiasi antara kata-kata dalam satu set dokumen adalah analisis semantik laten.

Ini membantu kita untuk memilih dokumen yang tepat. Fungsi utamanya adalah untuk mengurangi dimensi korpus data teks yang sangat besar.

Data yang tidak perlu ini berfungsi sebagai kebisingan latar belakang dalam memperoleh wawasan yang diperlukan dari data.

Analisis Semantik Laten

Analisis Semantik Laten Probabilistik (pLSA)

Analisis semantik laten probabilistik (PLSA), kadang-kadang dikenal sebagai pengindeksan semantik laten probabilistik (PLSI, terutama dalam lingkaran pencarian informasi), adalah pendekatan statistik untuk menganalisis data dua mode dan kejadian bersama.

Bahkan, mirip dengan analisis semantik laten, dari mana PLSA muncul, representasi dimensi rendah dari variabel yang diamati dapat diturunkan dalam hal afinitasnya terhadap variabel tersembunyi tertentu.

Analisis Senantik Laten Probabilistik

Praktek dengan Pemodelan Topik dengan Python

Sekarang, saya akan memandu Anda melalui tugas pemodelan subjek dengan Python bahasa pemrograman menggunakan contoh dunia nyata.

Saya akan menjadi model artikel penelitian. Dataset yang akan saya gunakan di sini berasal dari kaggle.com. Anda dapat dengan mudah mendapatkan semua file yang saya gunakan dalam pekerjaan ini dari ini halaman.

Mari kita mulai dengan Pemodelan Topik menggunakan Python dengan mengimpor semua pustaka penting:

Mengimpor Perpustakaan

Langkah berikut adalah membaca semua kumpulan data yang akan saya gunakan dalam tugas ini:

Baca Kumpulan Data

Analisis Data Eksplorasi

EDA (Exploratory Data Analysis) adalah metode statistik yang menggunakan elemen visual. Ini menggunakan ringkasan statistik dan representasi grafis untuk menemukan tren, pola, dan asumsi uji.

Saya akan melakukan beberapa analisis data eksplorasi sebelum saya memulai pemodelan topik untuk melihat apakah ada pola atau hubungan dalam data:

Temukan Nilai Null Dari Dataset Kereta

Keluaran Nilai Null Kereta

Sekarang kita akan menemukan nilai null dari dataset uji:

Temukan Nilai Null Dari Kumpulan Data Uji

Keluaran Nilai Uji Null

Sekarang saya akan memplot histogram dan boxplot untuk memeriksa hubungan antar variabel.

Merencanakan

Keluaran Merencanakan 1

Jumlah karakter dalam set Abstracts of the Train sangat bervariasi.

Di kereta, kami memiliki minimal 54 dan maksimal 4551 karakter. 1065 adalah jumlah rata-rata karakter.

Merencanakan 2

Keluaran Merencanakan 2

Test set terlihat lebih menarik daripada training set karena test set memiliki 46 karakter sedangkan training set 2841.

Hasilnya, set tes memiliki median 1058 karakter, yang mirip dengan set pelatihan.

Merencanakan 3

Keluaran Merencanakan 3

Jumlah kata dalam perangkat pembelajaran mengikuti pola yang mirip dengan jumlah huruf.

Minimal 8 kata dan maksimal 665 kata diperbolehkan. Akibatnya, jumlah kata rata-rata adalah 153.

Merencanakan 4

Keluaran Merencanakan 4

Diperlukan minimal tujuh kata dalam abstrak dan maksimal 452 kata dalam set tes.

Median, dalam hal ini, adalah 153, yang identik dengan median di training set.

Menggunakan Tag untuk Pemodelan Topik

Ada beberapa strategi pemodelan topik. Saya akan menggunakan tag dalam latihan ini; mari kita lihat bagaimana melakukannya dengan memeriksa tag:

Menggunakan Tag Untuk Pemodelan Topik

Keluaran Pemodelan Topik

Aplikasi Pemodelan Topik

Ringkasan teks dapat digunakan untuk membedakan topik dokumen atau buku.
Ini dapat digunakan untuk menghilangkan bias kandidat dari penilaian ujian.
Pemodelan topik dapat digunakan untuk membangun hubungan semantik antara kata-kata dalam model berbasis grafik.
Itu dapat meningkatkan layanan pelanggan dengan mendeteksi dan menanggapi kata kunci dalam pertanyaan klien. Pelanggan akan lebih percaya kepada Anda karena Anda telah memberi mereka bantuan yang mereka butuhkan pada saat yang tepat dan tanpa membuat mereka repot. Akibatnya, loyalitas klien meningkat secara dramatis, dan nilai perusahaan meningkat.

Kesimpulan

Pemodelan topik adalah semacam pemodelan statistik yang digunakan untuk mengungkap “mata pelajaran” abstrak yang ada dalam kumpulan teks.

Ini adalah bentuk model statistik yang digunakan dalam Mesin belajar dan pemrosesan bahasa alami untuk mengungkap konsep abstrak yang ada dalam sekumpulan teks.

Ini adalah metode penambangan teks yang banyak digunakan untuk menemukan pola semantik laten dalam teks tubuh.

Pengenalan Pemodelan Topik untuk Pemula

Apa itu Pemodelan Topik?