İçindekiler[Saklamak][Göstermek]
Yapay zekanın yanı sıra makine öğrenimi ve doğal dil işleme (NLP) gibi sözcükleri de duymuşsunuzdur eminim.
Özellikle her gün yüzlerce, hatta binlerce müşteriyle iletişim kuran bir firmada çalışıyorsanız.
Sosyal medya gönderileri, e-postalar, sohbetler, açık uçlu anket yanıtları ve diğer kaynakların veri analizi basit bir süreç değildir ve yalnızca kişilere emanet edildiğinde daha da zorlaşır.
Bu nedenle, birçok insan potansiyel konusunda heveslidir. yapay zeka günlük işleri ve işletmeler için.
Yapay zeka destekli metin analizi, dili organik olarak yorumlamak için çok çeşitli yaklaşımlar veya algoritmalar kullanır; bunlardan biri, metinlerdeki konuları otomatik olarak keşfetmek için kullanılan konu analizidir.
İşletmeler, çalışanlara çok fazla veri yüklemek yerine kolay işleri makinelere aktarmak için konu analizi modellerini kullanabilir.
Bir bilgisayar her sabah sonsuz müşteri anketleri veya destek sorunları listelerini filtreleyebilseydi, ekibinizin ne kadar zaman kazanabileceğini ve daha önemli işlere ayırabileceğini düşünün.
Bu kılavuzda, konu modellemeyi, farklı konu modelleme yöntemlerini inceleyeceğiz ve bununla ilgili uygulamalı deneyim kazanacağız.
Konu Modelleme Nedir?
Konu modelleme, denetimsiz ve denetimli istatistiksel verilerin kullanıldığı bir metin madenciliği türüdür. makine öğrenme teknikler, bir derlemdeki veya önemli miktarda yapılandırılmamış metindeki eğilimleri tespit etmek için kullanılır.
Devasa belge koleksiyonunuzu alabilir ve kelimeleri terim kümeleri halinde düzenlemek ve konuları keşfetmek için bir benzerlik yöntemi kullanabilir.
Bu biraz karmaşık ve zor görünüyor, bu yüzden konu modelleme prosedürünü basitleştirelim!
Elinizde bir dizi renkli fosforlu kalem bulunan bir gazete okuduğunuzu varsayalım.
Bu eski moda değil mi?
Bugünlerde çok az insanın basılı gazete okuduğunu anlıyorum; her şey dijital ve fosforlu kalemler geçmişte kaldı! Annen veya baban gibi davran!
Yani gazeteyi okuduğunuzda önemli terimlerin altını çiziyorsunuz.
Bir varsayım daha!
Çeşitli temaların anahtar kelimelerini vurgulamak için farklı bir renk tonu kullanıyorsunuz. Sağlanan renk ve konulara göre anahtar kelimeleri kategorilere ayırırsınız.
Belirli bir renkle işaretlenmiş her kelime koleksiyonu, belirli bir konu için bir anahtar kelime listesidir. Seçtiğiniz çeşitli renklerin miktarı temaların sayısını gösterir.
Bu en temel konu modellemesidir. Büyük metin koleksiyonlarının anlaşılmasına, düzenlenmesine ve özetlenmesine yardımcı olur.
Ancak, etkili olmak için otomatik konu modellerinin çok fazla içerik gerektirdiğini unutmayın. Kısa bir makaleniz varsa, eski okula gitmek ve fosforlu kalemleri kullanmak isteyebilirsiniz!
Verileri tanımak için biraz zaman harcamak da faydalıdır. Bu size konu modelinin neyi bulması gerektiğine dair temel bir fikir verecektir.
Örneğin, o günlük, şimdiki ve önceki ilişkilerinizle ilgili olabilir. Bu nedenle, metin madenciliği robot dostumun benzer fikirler bulmasını beklerdim.
Bu, tanımladığınız konuların kalitesini daha iyi analiz etmenize ve gerekirse anahtar kelime kümelerini değiştirmenize yardımcı olabilir.
Konu Modellemenin Bileşenleri
Olasılık Modeli
Rastgele değişkenler ve olasılık dağılımları, olasılık modellerinde bir olayın veya olgunun temsiline dahil edilir.
Deterministik bir model, bir olay için tek bir potansiyel sonuç sağlarken, olasılıksal bir model, bir çözüm olarak bir olasılık dağılımı sağlar.
Bu modeller, bir durum hakkında nadiren tam bilgiye sahip olduğumuz gerçeğini dikkate alır. Neredeyse her zaman dikkate alınması gereken bir rastgelelik unsuru vardır.
Örneğin, hayat sigortası öleceğimizi bildiğimiz ama ne zaman öleceğimizi bilmediğimiz gerçeğine dayanır. Bu modeller kısmen deterministik, kısmen rastgele veya tamamen rastgele olabilir.
Bilgi Edinme
Bilgi alma (IR), belge havuzlarındaki bilgileri, özellikle metinsel bilgileri organize eden, depolayan, alan ve değerlendiren bir yazılım programıdır.
Teknoloji, kullanıcıların ihtiyaç duydukları bilgileri keşfetmelerine yardımcı olur, ancak sorularına net bir şekilde yanıt vermez. Gerekli bilgileri sağlayabilecek kağıtların varlığını ve yerini bildirir.
İlgili belgeler, kullanıcının ihtiyaçlarını karşılayan belgelerdir. Kusursuz bir IR sistemi yalnızca seçilen belgeleri döndürür.
Konu Tutarlılığı
Konu Tutarlılığı, konunun yüksek puanlı terimleri arasındaki anlamsal benzerlik derecesini hesaplayarak tek bir konuyu puanlar. Bu metrikler, anlamsal olarak yorumlanabilen konular ile istatistiksel çıkarım yapaylıkları olan konular arasında ayrım yapılmasına yardımcı olur.
Bir grup iddia veya gerçek birbirini destekliyorsa, tutarlı oldukları söylenir.
Sonuç olarak, tutarlı bir olgu seti, olguların tamamını veya çoğunu kapsayan bir bağlamda anlaşılabilir. "Oyun bir takım sporudur", "oyun bir topla oynanır" ve "oyun çok büyük fiziksel çaba gerektirir", hepsi birbirine bağlı olgu kümelerinin örnekleridir.
Farklı Konu Modelleme Yöntemleri
Bu kritik prosedür, çeşitli algoritmalar veya metodolojiler tarafından gerçekleştirilebilir. Aralarında:
- Gizli Dirichlet Tahsisi (LDA)
- Negatif Olmayan Matris Çarpanlara Ayırma (NMF)
- Gizli Semantik Analiz (LSA)
- Olasılıksal Gizli Semantik Analiz (pLSA)
Gizli Dirichlet Tahsisi(LDA)
Bir bütüncedeki çoklu metinler arasındaki ilişkileri saptamak için, Latent Dirichlet Allocation'ın istatistiksel ve grafiksel kavramı kullanılır.
Varyasyonel İstisna Maksimizasyonu (VEM) yaklaşımını kullanarak, metnin tamamından en büyük olabilirlik tahmini elde edilir.
Geleneksel olarak, bir kelime torbasından ilk birkaç kelime seçilir.
Ancak, cümle tamamen anlamsızdır.
Bu tekniğe göre, her metin konuların olasılık dağılımıyla ve her konu sözcüklerin olasılık dağılımıyla temsil edilecektir.
Negatif Olmayan Matris Çarpanlara ayırma (NMF)
Negatif Olmayan Değerlere Sahip Matris Çarpanlara ayırma, son teknoloji bir özellik çıkarma yaklaşımıdır.
Birçok nitelik olduğunda ve nitelikler belirsiz olduğunda veya öngörülebilirliği zayıf olduğunda, NMF faydalıdır. NMF, özellikleri birleştirerek önemli modeller, konular veya temalar üretebilir.
NMF, her özelliği orijinal öznitelik kümesinin doğrusal bir birleşimi olarak üretir.
Her özellik, özellik üzerindeki her bir özelliğin önemini temsil eden bir dizi katsayı içerir. Her sayısal öznitelik ve her kategori özniteliğinin her değeri kendi katsayısına sahiptir.
Tüm katsayılar pozitiftir.
Gizli Semantik Analiz
Gizli semantik analiz, bir dizi belgedeki kelimeler arasındaki ilişkileri çıkarmak için kullanılan bir başka denetimsiz öğrenme yöntemidir.
Bu, uygun belgeleri seçmemize yardımcı olur. Birincil işlevi, devasa metin verisi külliyatının boyutsallığını azaltmaktır.
Bu gereksiz veriler, verilerden gerekli içgörülerin elde edilmesinde arka plan gürültüsü görevi görür.
Olasılıksal Gizli Semantik Analiz (pLSA)
Bazen olasılıksal gizli anlamsal indeksleme (PLSI, özellikle bilgi alma çevrelerinde) olarak bilinen olasılıksal gizli anlam analizi (PLSA), iki modlu ve birlikte oluşum verilerini analiz etmek için istatistiksel bir yaklaşımdır.
Aslında, PLSA'nın ortaya çıktığı gizli anlamsal analize benzer şekilde, gözlenen değişkenlerin düşük boyutlu bir temsili, belirli gizli değişkenlere olan yakınlıkları açısından türetilebilir.
Python'da Konu Modelleme ile Uygulamalı
Şimdi, Python ile bir konu modelleme ödevinde size yol göstereceğim. Programlama dili gerçek dünyadan bir örnek kullanarak.
Araştırma makalelerini modelleyeceğim. Burada kullanacağım veri seti kaggle.com'dan geliyor. Bu çalışmada kullandığım dosyaların tamamına buradan kolayca ulaşabilirsiniz. Kanal.
Tüm temel kitaplıkları içe aktararak Python kullanarak Konu Modelleme ile başlayalım:
Aşağıdaki adım, bu görevde kullanacağım tüm veri kümelerini okumaktır:
Açıklayıcı Veri Analizi
EDA (Keşif Verileri Analizi), görsel unsurları kullanan istatistiksel bir yöntemdir. Eğilimleri, kalıpları keşfetmek ve varsayımları test etmek için istatistiksel özetleri ve grafik temsilleri kullanır.
Verilerde herhangi bir kalıp veya ilişki olup olmadığını görmek için konu modellemeye başlamadan önce bazı keşifsel veri analizleri yapacağım:
Şimdi test veri setinin boş değerlerini bulacağız:
Şimdi değişkenler arasındaki ilişkiyi kontrol etmek için bir histogram ve kutu grafiği çizeceğim.
Tren setinin Özetlerindeki karakter sayısı büyük ölçüde değişir.
Trende minimum 54, maksimum 4551 karakterimiz var. 1065, ortalama karakter miktarıdır.
Test seti, eğitim seti 46 iken test seti 2841 karaktere sahip olduğu için eğitim setinden daha ilginç görünüyor.
Sonuç olarak, test seti, eğitim setine benzer bir medyan 1058 karaktere sahipti.
Öğrenme setindeki kelime sayısı, harf sayısına benzer bir örüntü izler.
Minimum 8, maksimum 665 kelimeye izin verilir. Sonuç olarak, medyan kelime sayısı 153'tür.
Bir özette en az yedi, test setinde en fazla 452 kelime bulunması zorunludur.
Bu durumda medyan, eğitim setindeki medyanla aynı olan 153'tür.
Konu Modelleme için Etiketleri Kullanma
Birkaç konu modelleme stratejisi vardır. Bu alıştırmada etiketleri kullanacağım; etiketleri inceleyerek nasıl yapılacağına bakalım:
Konu Modelleme Uygulamaları
- Bir belgenin veya kitabın konusunu ayırt etmek için bir metin özeti kullanılabilir.
- Aday önyargısını sınav puanlamasından çıkarmak için kullanılabilir.
- Konu modelleme, grafik tabanlı modellerde kelimeler arasında anlamsal ilişkiler kurmak için kullanılabilir.
- Müşterinin sorgusundaki anahtar kelimeleri algılayarak ve bunlara yanıt vererek müşteri hizmetlerini iyileştirebilir. Müşteriler, onlara ihtiyaç duydukları yardımı uygun zamanda ve herhangi bir güçlük çekmeden sağladığınız için size daha fazla güveneceklerdir. Sonuç olarak, müşteri sadakati önemli ölçüde artar ve şirketin değeri artar.
Sonuç
Konu modelleme, bir metin koleksiyonunda bulunan soyut “konuları” ortaya çıkarmak için kullanılan bir tür istatistiksel modellemedir.
kullanılan istatistiksel modelin bir şeklidir. makine öğrenme ve bir dizi metinde var olan soyut kavramları ortaya çıkarmak için doğal dil işleme.
Gövde metninde gizli anlamsal kalıpları bulmak için yaygın olarak kullanılan bir metin madenciliği yöntemidir.
Yorum bırak