თემის მოდელირების შესავალი დამწყებთათვის

სარჩევი[დამალვა][ჩვენება]

რა არის თემის მოდელირება?
თემის მოდელირების კომპონენტები+-
- ალბათური მოდელი
- ინფორმაციის მოძიება
თემის მოდელირების სხვადასხვა მეთოდები+-
პრაქტიკული თემის მოდელირება პითონში+-
- საძიებო მონაცემთა ანალიზი
- ტეგების გამოყენება თემის მოდელირებისთვის
თემის მოდელირების აპლიკაციები
დასკვნა

დარწმუნებული ვარ, გსმენიათ ხელოვნური ინტელექტის შესახებ, ისევე როგორც სიტყვები, როგორიცაა მანქანური სწავლება და ბუნებრივი ენის დამუშავება (NLP).

განსაკუთრებით თუ მუშაობთ ფირმაში, რომელიც ყოველდღიურად ამუშავებს ასობით, თუ არა ათასობით კლიენტის კონტაქტს.

სოციალური მედიის გამოქვეყნებების, ელ. ფოსტის, ჩეთების, ღია გამოკითხვის პასუხების და სხვა წყაროების მონაცემთა ანალიზი არ არის მარტივი პროცესი და ის კიდევ უფრო რთული ხდება, როდესაც მხოლოდ ადამიანებს ევალება.

ამიტომაც ბევრი ადამიანი ენთუზიაზმით არის განწყობილი მისი პოტენციალით ხელოვნური ინტელექტი მათი ყოველდღიური მუშაობისთვის და საწარმოებისთვის.

ხელოვნური ინტელექტის საფუძველზე შექმნილი ტექსტის ანალიზი იყენებს მიდგომების ან ალგორითმების ფართო სპექტრს ენის ორგანული ინტერპრეტაციისთვის, რომელთაგან ერთ-ერთია თემის ანალიზი, რომელიც გამოიყენება ტექსტებიდან საგნების ავტომატურად აღმოსაჩენად.

ბიზნესებს შეუძლიათ გამოიყენონ თემის ანალიზის მოდელები, რათა გადაიტანონ მარტივი სამუშაოები მანქანებზე, ვიდრე გადატვირთონ მუშები ძალიან ბევრი მონაცემებით.

იფიქრეთ იმაზე, თუ რამდენი დრო დაზოგავს თქვენს გუნდს და დაუთმობს უფრო მნიშვნელოვან სამუშაოს, თუ კომპიუტერს შეუძლია ყოველ დილით გაფილტროს მომხმარებელთა გამოკითხვების ან მხარდაჭერის საკითხების გაუთავებელი სიები.

ამ სახელმძღვანელოში ჩვენ განვიხილავთ თემის მოდელირებას, თემის მოდელირების სხვადასხვა მეთოდებს და მივიღებთ პრაქტიკულ გამოცდილებას.

რა არის თემის მოდელირება?

თემის მოდელირება არის ტექსტის მოპოვების ტიპი, რომელშიც უკონტროლო და ზედამხედველობითი სტატისტიკა მანქანა სწავლის ტექნიკა გამოიყენება კორპუსში ან არასტრუქტურირებული ტექსტის მნიშვნელოვანი მოცულობის ტენდენციების გამოსავლენად.

მას შეუძლია დასჭირდეს თქვენი დოკუმენტების მასიური კოლექცია და გამოიყენოს მსგავსების მეთოდი, რათა დაალაგოს სიტყვები ტერმინების კლასტერებად და აღმოაჩინოს საგნები.

ეს ცოტა რთული და რთული ჩანს, ასე რომ, მოდით გავამარტივოთ საგნის მოდელირების პროცედურა!

დავუშვათ, რომ თქვენ კითხულობთ გაზეთს, რომელსაც ხელში გაქვთ ფერადი ჰაილაითერები.

მოძველებული არაა?

მე ვხვდები, რომ ამ დღეებში ცოტა ადამიანი კითხულობს გაზეთებს ბეჭდვით; ყველაფერი ციფრულია და ჰაილაითერები წარსულის საგანია! ვითომ მამა ან დედა ხარ!

ასე რომ, როდესაც კითხულობთ გაზეთს, ხაზს უსვამთ მნიშვნელოვან ტერმინებს.

კიდევ ერთი ვარაუდი!

თქვენ იყენებთ განსხვავებულ ელფერს სხვადასხვა თემის საკვანძო სიტყვების ხაზგასასმელად. თქვენ ანაწილებთ საკვანძო სიტყვებს მოწოდებული ფერისა და თემების მიხედვით.

სიტყვების თითოეული კოლექცია, რომელიც აღინიშნება გარკვეული ფერით, არის მოცემული თემის საკვანძო სიტყვების სია. თქვენ მიერ არჩეული სხვადასხვა ფერის რაოდენობა აჩვენებს თემების რაოდენობას.

ეს არის ყველაზე ფუნდამენტური თემის მოდელირება. ის ხელს უწყობს ტექსტის დიდი კოლექციების გააზრებას, ორგანიზებას და შეჯამებას.

თუმცა, გახსოვდეთ, რომ ეფექტიანი რომ იყოს, ავტომატიზირებული თემის მოდელები მოითხოვს უამრავ კონტენტს. თუ თქვენ გაქვთ მოკლე ნაშრომი, შეიძლება დაგჭირდეთ ძველ სკოლაში წასვლა და ჰაილაითერების გამოყენება!

ასევე სასარგებლოა გარკვეული დროის დახარჯვა მონაცემების გასაცნობად. ეს მოგცემთ ძირითად განცდას, თუ რა უნდა იპოვოთ თემის მოდელმა.

მაგალითად, ეს დღიური შეიძლება იყოს თქვენი დღევანდელი და წინა ურთიერთობების შესახებ. ამდენად, მე მინდა მოველოდი, რომ ჩემი ტექსტის მაინინგ რობოტი-მეგობარს მსგავსი იდეები გამოვიდეს.

ეს დაგეხმარებათ უკეთ გაანალიზოთ თქვენს მიერ იდენტიფიცირებული საგნების ხარისხი და, საჭიროების შემთხვევაში, შეცვალოთ საკვანძო სიტყვების ნაკრები.

თემის მოდელირების კომპონენტები

ალბათური მოდელი

შემთხვევითი ცვლადები და ალბათობის განაწილება ჩართულია მოვლენის ან ფენომენის წარმოდგენაში ალბათურ მოდელებში.

დეტერმინისტული მოდელი იძლევა ერთ პოტენციურ დასკვნას მოვლენისთვის, ხოლო ალბათური მოდელი იძლევა ალბათობის განაწილებას, როგორც გამოსავალს.

ეს მოდელები ითვალისწინებენ რეალობას, რომ ჩვენ იშვიათად გვაქვს სიტუაციის სრული ცოდნა. თითქმის ყოველთვის არის შემთხვევითობის ელემენტი გასათვალისწინებელი.

მაგალითად, სიცოცხლის დაზღვევა ეფუძნება რეალობას, რომ ვიცით, რომ მოვკვდებით, მაგრამ არ ვიცით როდის. ეს მოდელები შეიძლება იყოს ნაწილობრივ დეტერმინისტული, ნაწილობრივ შემთხვევითი ან სრულიად შემთხვევითი.

ინფორმაციის მოძიება

ინფორმაციის მოძიება (IR) არის პროგრამული უზრუნველყოფის პროგრამა, რომელიც აწყობს, ინახავს, იღებს და აფასებს ინფორმაციას დოკუმენტების საცავებიდან, განსაკუთრებით ტექსტურ ინფორმაციას.

ტექნოლოგია ეხმარება მომხმარებლებს აღმოაჩინონ მათთვის საჭირო ინფორმაცია, მაგრამ ის მკაფიოდ არ იძლევა პასუხებს მათ შეკითხვებზე. ის აცნობებს დოკუმენტების არსებობისა და ადგილმდებარეობის შესახებ, რომლებიც შეიძლება მიაწოდონ საჭირო ინფორმაცია.

შესაბამისი დოკუმენტებია ის დოკუმენტები, რომლებიც აკმაყოფილებს მომხმარებლის საჭიროებებს. უნაკლო IR სისტემა დააბრუნებს მხოლოდ შერჩეულ დოკუმენტებს.

თემის თანმიმდევრულობა

თემის თანმიმდევრობა აფასებს ერთ თემას თემის მაღალქულიან ტერმინებს შორის სემანტიკური მსგავსების ხარისხის გაანგარიშებით. ეს მეტრიკა გვეხმარება განვასხვავოთ საგნები, რომლებიც სემანტიკურად ინტერპრეტაციადია და თემები, რომლებიც სტატისტიკური დასკვნის არტეფაქტებია.

თუ პრეტენზიების ან ფაქტების ჯგუფი ერთმანეთს უჭერს მხარს, ამბობენ, რომ ისინი თანმიმდევრულია.

შედეგად, ფაქტების თანმიმდევრული ნაკრები შეიძლება გავიგოთ კონტექსტში, რომელიც მოიცავს ყველა ან ფაქტების უმრავლესობას. "თამაში არის გუნდური სპორტი", "თამაში თამაშობს ბურთით" და "თამაში მოითხოვს უზარმაზარ ფიზიკურ ძალისხმევას" არის ფაქტების თანმიმდევრული ნაკრების მაგალითები.

თემის მოდელირების სხვადასხვა მეთოდები

ეს კრიტიკული პროცედურა შეიძლება განხორციელდეს სხვადასხვა ალგორითმებით ან მეთოდოლოგიით. მათ შორისაა:

ლატენტური დირიხლეს განაწილება (LDA)
არაუარყოფითი მატრიცის ფაქტორიზაცია (NMF)
ლატენტური სემანტიკური ანალიზი (LSA)
ალბათური ლატენტური სემანტიკური ანალიზი (pLSA)

ლატენტური დირიხლეს განაწილება (LDA)

კორპუსში მრავალ ტექსტს შორის ურთიერთობის გამოსავლენად გამოიყენება ლატენტური დირიხლეს განაწილების სტატისტიკური და გრაფიკული კონცეფცია.

Variational Exception Maximization (VEM) მიდგომის გამოყენებით, მიიღწევა ყველაზე დიდი ალბათობის შეფასება ტექსტის სრული კორპუსიდან.

LDA

ტრადიციულად, სიტყვების ტომრიდან ყველაზე რამდენიმე სიტყვა ირჩევა.

თუმცა, წინადადება სრულიად უაზროა.

ამ ტექნიკის მიხედვით, თითოეული ტექსტი წარმოდგენილი იქნება საგნების სავარაუდო განაწილებით, ხოლო თითოეული თემა სიტყვების სავარაუდო განაწილებით.

არაუარყოფითი მატრიცის ფაქტორიზაცია (NMF)

მატრიცა არაუარყოფითი მნიშვნელობებით ფაქტორიზაცია არის უახლესი ფუნქციების ამოღების მიდგომა.

როდესაც ბევრი თვისებაა და ატრიბუტები ბუნდოვანია ან ცუდი პროგნოზირებადია, NMF მომგებიანია. NMF-ს შეუძლია შექმნას მნიშვნელოვანი შაბლონები, საგნები ან თემები მახასიათებლების კომბინაციით.

არაუარყოფითი მატრიცის ფაქტორიზაცია

NMF წარმოქმნის თითოეულ მახასიათებელს, როგორც ორიგინალური ატრიბუტების ნაკრების ხაზოვანი კომბინაცია.

თითოეული მახასიათებელი შეიცავს კოეფიციენტების ერთობლიობას, რომელიც წარმოადგენს თითოეული ატრიბუტის მნიშვნელობას მახასიათებლებზე. თითოეულ ციფრულ ატრიბუტს და თითოეული კატეგორიის ატრიბუტის თითოეულ მნიშვნელობას აქვს თავისი კოეფიციენტი.

ყველა კოეფიციენტი დადებითია.

ლატენტური სემანტიკური ანალიზი

ეს არის კიდევ ერთი უკონტროლო სწავლის მეთოდი, რომელიც გამოიყენება დოკუმენტების ერთობლიობაში სიტყვებს შორის ასოციაციების ამოსაღებად, არის ლატენტური სემანტიკური ანალიზი.

ეს გვეხმარება სწორი დოკუმენტების არჩევაში. მისი ძირითადი ფუნქციაა ტექსტური მონაცემების უზარმაზარი კორპუსის განზომილების შემცირება.

ეს არასაჭირო მონაცემები ემსახურება როგორც ფონის ხმაურს მონაცემებიდან საჭირო ინფორმაციის მისაღებად.

ლატენტური სემანტიკური ანალიზი

ალბათური ლატენტური სემანტიკური ანალიზი (pLSA)

ალბათური ლატენტური სემანტიკური ანალიზი (PLSA), რომელიც ზოგჯერ ცნობილია, როგორც ალბათური ლატენტური სემანტიკური ინდექსირება (PLSI, განსაკუთრებით ინფორმაციის მოძიების წრეებში), არის სტატისტიკური მიდგომა ორი რეჟიმის და თანამონაწილეობის მონაცემების გასაანალიზებლად.

ფაქტობრივად, ლატენტური სემანტიკური ანალიზის მსგავსად, საიდანაც წარმოიშვა PLSA, დაკვირვებული ცვლადების დაბალგანზომილებიანი წარმოდგენა შეიძლება გამოვიდეს კონკრეტულ ფარულ ცვლადებთან მათი აფინურობის თვალსაზრისით.

ალბათური ლატენტური სენატიკური ანალიზი

პრაქტიკული თემის მოდელირება პითონში

ახლა მე გაგაცნობთ საგნის მოდელირების დავალებას Python-ით პროგრამირების ენა რეალური მაგალითის გამოყენებით.

მე ვიმუშავებ კვლევის სტატიების მოდელირებას. მონაცემთა ნაკრები, რომელსაც აქ გამოვიყენებ, მოდის kaggle.com-დან. აქედან შეგიძლიათ მარტივად მიიღოთ ყველა ფაილი, რომელსაც მე ვიყენებ ამ ნამუშევარში გვერდზე.

დავიწყოთ თემის მოდელირება პითონის გამოყენებით ყველა აუცილებელი ბიბლიოთეკის იმპორტით:

ბიბლიოთეკების იმპორტი

შემდეგი ნაბიჯი არის ყველა მონაცემთა ნაკრების წაკითხვა, რომელსაც გამოვიყენებ ამ ამოცანაში:

წაიკითხეთ მონაცემთა ნაკრები

საძიებო მონაცემთა ანალიზი

EDA (Exploratory Data Analysis) არის სტატისტიკური მეთოდი, რომელიც იყენებს ვიზუალურ ელემენტებს. ის იყენებს სტატისტიკურ შეჯამებებს და გრაფიკულ გამოსახულებებს ტენდენციების, შაბლონების და ტესტის ვარაუდების აღმოსაჩენად.

მე გავაკეთებ მონაცემთა საძიებო ანალიზს, სანამ თემის მოდელირებას დავიწყებ, რათა დავინახო, არის თუ არა რაიმე შაბლონი ან ურთიერთობა მონაცემებში:

იპოვეთ მატარებლის მონაცემთა ნაკრების ნულოვანი მნიშვნელობები

გამომავალი მატარებელი ნულოვანი ღირებულებები

ახლა ჩვენ ვიპოვით ტესტის მონაცემთა ნაკრების ნულოვანი მნიშვნელობებს:

იპოვეთ ტესტის მონაცემთა ნაკრების ნულოვანი მნიშვნელობები

ტესტის ნულოვანი მნიშვნელობების გამომავალი

ახლა მე დავხატავ ჰისტოგრამას და ყუთს ცვლადებს შორის კავშირის შესამოწმებლად.

შეთქმულება

შეკვეთის შედეგი 1

მატარებლის ნაკრების აბსტრაქტებში სიმბოლოების რაოდენობა მნიშვნელოვნად განსხვავდება.

მატარებელში გვაქვს მინიმუმ 54 და მაქსიმუმ 4551 სიმბოლო. 1065 არის სიმბოლოების საშუალო რაოდენობა.

შეთქმულება 2

შეკვეთის შედეგი 2

სატესტო ნაკრები უფრო საინტერესოდ გამოიყურება, ვიდრე სავარჯიშო ნაკრები, რადგან ტესტის ნაკრები შეიცავს 46 სიმბოლოს, ხოლო სავარჯიშო კომპლექტს აქვს 2841.

შედეგად, ტესტის კომპლექტს ჰქონდა მედიანა 1058 სიმბოლოსგან, რაც სავარჯიშო ნაკრების მსგავსია.

შეთქმულება 3

შეთქმულების შედეგი 3

სიტყვების რაოდენობა სასწავლო კომპლექტში მიჰყვება ასოების რაოდენობის მსგავს ნიმუშს.

დასაშვებია მინიმუმ 8 სიტყვა და მაქსიმუმ 665 სიტყვა. შედეგად, სიტყვების მედიანური რაოდენობა არის 153.

შეთქმულება 4

შეკვეთის შედეგი 4

საჭიროა მინიმუმ შვიდი სიტყვა აბსტრაქტში და მაქსიმუმ 452 სიტყვა ტესტის კომპლექტში.

მედიანა, ამ შემთხვევაში, არის 153, რომელიც იდენტურია სავარჯიშო კომპლექტში მედიანას.

ტეგების გამოყენება თემის მოდელირებისთვის

არსებობს რამდენიმე თემის მოდელირების სტრატეგია. ამ სავარჯიშოში გამოვიყენებ ტეგებს; მოდით შევხედოთ როგორ გავაკეთოთ ეს ტეგების შემოწმებით:

ტეგების გამოყენება თემის მოდელირებისთვის

თემის მოდელირების გამომავალი

თემის მოდელირების აპლიკაციები

ტექსტის შეჯამება შეიძლება გამოყენებულ იქნას დოკუმენტის ან წიგნის თემის გასარკვევად.
ის შეიძლება გამოყენებულ იქნას კანდიდატის მიკერძოების მოსაშორებლად გამოცდის ქულებიდან.
თემის მოდელირება შეიძლება გამოყენებულ იქნას გრაფიკზე დაფუძნებულ მოდელებში სიტყვებს შორის სემანტიკური ურთიერთობების დასამყარებლად.
მას შეუძლია გააუმჯობესოს მომხმარებელთა მომსახურება კლიენტის მოთხოვნაში საკვანძო სიტყვების გამოვლენით და მათზე რეაგირებით. კლიენტებს უფრო მეტი რწმენა ექნებათ თქვენს მიმართ, რადგან თქვენ უზრუნველყოფთ მათთვის საჭირო დახმარებას შესაბამის მომენტში და ყოველგვარი შეფერხების გარეშე. შედეგად, კლიენტების ლოიალობა მკვეთრად იზრდება და კომპანიის ღირებულება იზრდება.

დასკვნა

თემის მოდელირება არის ერთგვარი სტატისტიკური მოდელირება, რომელიც გამოიყენება ტექსტების კრებულში არსებული აბსტრაქტული „სუბიექტების“ გამოსავლენად.

ეს არის სტატისტიკური მოდელის ფორმა, რომელიც გამოიყენება მანქანა სწავლის და ბუნებრივი ენის დამუშავება ტექსტების ერთობლიობაში არსებული აბსტრაქტული ცნებების გამოსავლენად.

ეს არის ტექსტის მოპოვების მეთოდი, რომელიც ფართოდ გამოიყენება ტექსტში ფარული სემანტიკური შაბლონების მოსაძებნად.

თემის მოდელირების შესავალი დამწყებთათვის

რა არის თემის მოდელირება?