Yeni Başlayanlar İçin Konu Modellemeye Giriş

İçindekiler[Saklamak][Göstermek]

Konu Modelleme Nedir?
Konu Modellemenin Bileşenleri+-
- Olasılık Modeli
- Bilgi Edinme
Farklı Konu Modelleme Yöntemleri+-
Python'da Konu Modelleme ile Uygulamalı+-
- Açıklayıcı Veri Analizi
- Konu Modelleme için Etiketleri Kullanma
Konu Modelleme Uygulamaları
Sonuç

Yapay zekanın yanı sıra makine öğrenimi ve doğal dil işleme (NLP) gibi sözcükleri de duymuşsunuzdur eminim.

Özellikle her gün yüzlerce, hatta binlerce müşteriyle iletişim kuran bir firmada çalışıyorsanız.

Sosyal medya gönderileri, e-postalar, sohbetler, açık uçlu anket yanıtları ve diğer kaynakların veri analizi basit bir süreç değildir ve yalnızca kişilere emanet edildiğinde daha da zorlaşır.

Bu nedenle, birçok insan potansiyel konusunda heveslidir. yapay zeka günlük işleri ve işletmeler için.

Yapay zeka destekli metin analizi, dili organik olarak yorumlamak için çok çeşitli yaklaşımlar veya algoritmalar kullanır; bunlardan biri, metinlerdeki konuları otomatik olarak keşfetmek için kullanılan konu analizidir.

İşletmeler, çalışanlara çok fazla veri yüklemek yerine kolay işleri makinelere aktarmak için konu analizi modellerini kullanabilir.

Bir bilgisayar her sabah sonsuz müşteri anketleri veya destek sorunları listelerini filtreleyebilseydi, ekibinizin ne kadar zaman kazanabileceğini ve daha önemli işlere ayırabileceğini düşünün.

Bu kılavuzda, konu modellemeyi, farklı konu modelleme yöntemlerini inceleyeceğiz ve bununla ilgili uygulamalı deneyim kazanacağız.

Konu Modelleme Nedir?

Konu modelleme, denetimsiz ve denetimli istatistiksel verilerin kullanıldığı bir metin madenciliği türüdür. makine öğrenme teknikler, bir derlemdeki veya önemli miktarda yapılandırılmamış metindeki eğilimleri tespit etmek için kullanılır.

Devasa belge koleksiyonunuzu alabilir ve kelimeleri terim kümeleri halinde düzenlemek ve konuları keşfetmek için bir benzerlik yöntemi kullanabilir.

Bu biraz karmaşık ve zor görünüyor, bu yüzden konu modelleme prosedürünü basitleştirelim!

Elinizde bir dizi renkli fosforlu kalem bulunan bir gazete okuduğunuzu varsayalım.

Bu eski moda değil mi?

Bugünlerde çok az insanın basılı gazete okuduğunu anlıyorum; her şey dijital ve fosforlu kalemler geçmişte kaldı! Annen veya baban gibi davran!

Yani gazeteyi okuduğunuzda önemli terimlerin altını çiziyorsunuz.

Bir varsayım daha!

Çeşitli temaların anahtar kelimelerini vurgulamak için farklı bir renk tonu kullanıyorsunuz. Sağlanan renk ve konulara göre anahtar kelimeleri kategorilere ayırırsınız.

Belirli bir renkle işaretlenmiş her kelime koleksiyonu, belirli bir konu için bir anahtar kelime listesidir. Seçtiğiniz çeşitli renklerin miktarı temaların sayısını gösterir.

Bu en temel konu modellemesidir. Büyük metin koleksiyonlarının anlaşılmasına, düzenlenmesine ve özetlenmesine yardımcı olur.

Ancak, etkili olmak için otomatik konu modellerinin çok fazla içerik gerektirdiğini unutmayın. Kısa bir makaleniz varsa, eski okula gitmek ve fosforlu kalemleri kullanmak isteyebilirsiniz!

Verileri tanımak için biraz zaman harcamak da faydalıdır. Bu size konu modelinin neyi bulması gerektiğine dair temel bir fikir verecektir.

Örneğin, o günlük, şimdiki ve önceki ilişkilerinizle ilgili olabilir. Bu nedenle, metin madenciliği robot dostumun benzer fikirler bulmasını beklerdim.

Bu, tanımladığınız konuların kalitesini daha iyi analiz etmenize ve gerekirse anahtar kelime kümelerini değiştirmenize yardımcı olabilir.

Konu Modellemenin Bileşenleri

Olasılık Modeli

Rastgele değişkenler ve olasılık dağılımları, olasılık modellerinde bir olayın veya olgunun temsiline dahil edilir.

Deterministik bir model, bir olay için tek bir potansiyel sonuç sağlarken, olasılıksal bir model, bir çözüm olarak bir olasılık dağılımı sağlar.

Bu modeller, bir durum hakkında nadiren tam bilgiye sahip olduğumuz gerçeğini dikkate alır. Neredeyse her zaman dikkate alınması gereken bir rastgelelik unsuru vardır.

Örneğin, hayat sigortası öleceğimizi bildiğimiz ama ne zaman öleceğimizi bilmediğimiz gerçeğine dayanır. Bu modeller kısmen deterministik, kısmen rastgele veya tamamen rastgele olabilir.

Bilgi Edinme

Bilgi alma (IR), belge havuzlarındaki bilgileri, özellikle metinsel bilgileri organize eden, depolayan, alan ve değerlendiren bir yazılım programıdır.

Teknoloji, kullanıcıların ihtiyaç duydukları bilgileri keşfetmelerine yardımcı olur, ancak sorularına net bir şekilde yanıt vermez. Gerekli bilgileri sağlayabilecek kağıtların varlığını ve yerini bildirir.

İlgili belgeler, kullanıcının ihtiyaçlarını karşılayan belgelerdir. Kusursuz bir IR sistemi yalnızca seçilen belgeleri döndürür.

Konu Tutarlılığı

Konu Tutarlılığı, konunun yüksek puanlı terimleri arasındaki anlamsal benzerlik derecesini hesaplayarak tek bir konuyu puanlar. Bu metrikler, anlamsal olarak yorumlanabilen konular ile istatistiksel çıkarım yapaylıkları olan konular arasında ayrım yapılmasına yardımcı olur.

Bir grup iddia veya gerçek birbirini destekliyorsa, tutarlı oldukları söylenir.

Sonuç olarak, tutarlı bir olgu seti, olguların tamamını veya çoğunu kapsayan bir bağlamda anlaşılabilir. "Oyun bir takım sporudur", "oyun bir topla oynanır" ve "oyun çok büyük fiziksel çaba gerektirir", hepsi birbirine bağlı olgu kümelerinin örnekleridir.

Farklı Konu Modelleme Yöntemleri

Bu kritik prosedür, çeşitli algoritmalar veya metodolojiler tarafından gerçekleştirilebilir. Aralarında:

Gizli Dirichlet Tahsisi (LDA)
Negatif Olmayan Matris Çarpanlara Ayırma (NMF)
Gizli Semantik Analiz (LSA)
Olasılıksal Gizli Semantik Analiz (pLSA)

Gizli Dirichlet Tahsisi(LDA)

Bir bütüncedeki çoklu metinler arasındaki ilişkileri saptamak için, Latent Dirichlet Allocation'ın istatistiksel ve grafiksel kavramı kullanılır.

Varyasyonel İstisna Maksimizasyonu (VEM) yaklaşımını kullanarak, metnin tamamından en büyük olabilirlik tahmini elde edilir.

LDA

Geleneksel olarak, bir kelime torbasından ilk birkaç kelime seçilir.

Ancak, cümle tamamen anlamsızdır.

Bu tekniğe göre, her metin konuların olasılık dağılımıyla ve her konu sözcüklerin olasılık dağılımıyla temsil edilecektir.

Negatif Olmayan Matris Çarpanlara ayırma (NMF)

Negatif Olmayan Değerlere Sahip Matris Çarpanlara ayırma, son teknoloji bir özellik çıkarma yaklaşımıdır.

Birçok nitelik olduğunda ve nitelikler belirsiz olduğunda veya öngörülebilirliği zayıf olduğunda, NMF faydalıdır. NMF, özellikleri birleştirerek önemli modeller, konular veya temalar üretebilir.

Negatif Olmayan Matris Çarpanlara ayırma

NMF, her özelliği orijinal öznitelik kümesinin doğrusal bir birleşimi olarak üretir.

Her özellik, özellik üzerindeki her bir özelliğin önemini temsil eden bir dizi katsayı içerir. Her sayısal öznitelik ve her kategori özniteliğinin her değeri kendi katsayısına sahiptir.

Tüm katsayılar pozitiftir.

Gizli Semantik Analiz

Gizli semantik analiz, bir dizi belgedeki kelimeler arasındaki ilişkileri çıkarmak için kullanılan bir başka denetimsiz öğrenme yöntemidir.

Bu, uygun belgeleri seçmemize yardımcı olur. Birincil işlevi, devasa metin verisi külliyatının boyutsallığını azaltmaktır.

Bu gereksiz veriler, verilerden gerekli içgörülerin elde edilmesinde arka plan gürültüsü görevi görür.

Gizli Semantik Analiz

Olasılıksal Gizli Semantik Analiz (pLSA)

Bazen olasılıksal gizli anlamsal indeksleme (PLSI, özellikle bilgi alma çevrelerinde) olarak bilinen olasılıksal gizli anlam analizi (PLSA), iki modlu ve birlikte oluşum verilerini analiz etmek için istatistiksel bir yaklaşımdır.

Aslında, PLSA'nın ortaya çıktığı gizli anlamsal analize benzer şekilde, gözlenen değişkenlerin düşük boyutlu bir temsili, belirli gizli değişkenlere olan yakınlıkları açısından türetilebilir.

Olasılıksal Gizli Senantik Analiz

Python'da Konu Modelleme ile Uygulamalı

Şimdi, Python ile bir konu modelleme ödevinde size yol göstereceğim. Programlama dili gerçek dünyadan bir örnek kullanarak.

Araştırma makalelerini modelleyeceğim. Burada kullanacağım veri seti kaggle.com'dan geliyor. Bu çalışmada kullandığım dosyaların tamamına buradan kolayca ulaşabilirsiniz. Kanal.

Tüm temel kitaplıkları içe aktararak Python kullanarak Konu Modelleme ile başlayalım:

Kütüphaneleri İçe Aktarma

Aşağıdaki adım, bu görevde kullanacağım tüm veri kümelerini okumaktır:

Veri Kümesini Okuyun

Açıklayıcı Veri Analizi

EDA (Keşif Verileri Analizi), görsel unsurları kullanan istatistiksel bir yöntemdir. Eğilimleri, kalıpları keşfetmek ve varsayımları test etmek için istatistiksel özetleri ve grafik temsilleri kullanır.

Verilerde herhangi bir kalıp veya ilişki olup olmadığını görmek için konu modellemeye başlamadan önce bazı keşifsel veri analizleri yapacağım:

Tren Veri Kümesinin Boş Değerlerini Bul

Tren Null Değerlerinin Çıktısı

Şimdi test veri setinin boş değerlerini bulacağız:

Test Veri Kümesinin Boş Değerlerini Bul

Test Null Değerlerinin Çıktısı

Şimdi değişkenler arasındaki ilişkiyi kontrol etmek için bir histogram ve kutu grafiği çizeceğim.

Komplo

Çizim Çıktısı 1

Tren setinin Özetlerindeki karakter sayısı büyük ölçüde değişir.

Trende minimum 54, maksimum 4551 karakterimiz var. 1065, ortalama karakter miktarıdır.

çizim 2

Çizim Çıktısı 2

Test seti, eğitim seti 46 iken test seti 2841 karaktere sahip olduğu için eğitim setinden daha ilginç görünüyor.

Sonuç olarak, test seti, eğitim setine benzer bir medyan 1058 karaktere sahipti.

çizim 3

Çizim 3'ün Çıktısı

Öğrenme setindeki kelime sayısı, harf sayısına benzer bir örüntü izler.

Minimum 8, maksimum 665 kelimeye izin verilir. Sonuç olarak, medyan kelime sayısı 153'tür.

çizim 4

Çizim Çıktısı 4

Bir özette en az yedi, test setinde en fazla 452 kelime bulunması zorunludur.

Bu durumda medyan, eğitim setindeki medyanla aynı olan 153'tür.

Konu Modelleme için Etiketleri Kullanma

Birkaç konu modelleme stratejisi vardır. Bu alıştırmada etiketleri kullanacağım; etiketleri inceleyerek nasıl yapılacağına bakalım:

Konu Modelleme İçin Etiketleri Kullanma

Konu Modelleme Çıktısı

Konu Modelleme Uygulamaları

Bir belgenin veya kitabın konusunu ayırt etmek için bir metin özeti kullanılabilir.
Aday önyargısını sınav puanlamasından çıkarmak için kullanılabilir.
Konu modelleme, grafik tabanlı modellerde kelimeler arasında anlamsal ilişkiler kurmak için kullanılabilir.
Müşterinin sorgusundaki anahtar kelimeleri algılayarak ve bunlara yanıt vererek müşteri hizmetlerini iyileştirebilir. Müşteriler, onlara ihtiyaç duydukları yardımı uygun zamanda ve herhangi bir güçlük çekmeden sağladığınız için size daha fazla güveneceklerdir. Sonuç olarak, müşteri sadakati önemli ölçüde artar ve şirketin değeri artar.

Sonuç

Konu modelleme, bir metin koleksiyonunda bulunan soyut “konuları” ortaya çıkarmak için kullanılan bir tür istatistiksel modellemedir.

kullanılan istatistiksel modelin bir şeklidir. makine öğrenme ve bir dizi metinde var olan soyut kavramları ortaya çıkarmak için doğal dil işleme.

Gövde metninde gizli anlamsal kalıpları bulmak için yaygın olarak kullanılan bir metin madenciliği yöntemidir.

Yeni Başlayanlar için Konu Modellemeye Giriş

Konu Modelleme Nedir?