Πίνακας περιεχομένων[Κρύβω][Προβολή]
Είμαι βέβαιος ότι έχετε ακούσει για την τεχνητή νοημοσύνη, καθώς και λέξεις όπως η μηχανική μάθηση και η επεξεργασία φυσικής γλώσσας (NLP).
Ειδικά αν εργάζεστε σε μια εταιρεία που διαχειρίζεται εκατοντάδες, αν όχι χιλιάδες, επαφές με πελάτες καθημερινά.
Η ανάλυση δεδομένων αναρτήσεων μέσων κοινωνικής δικτύωσης, emails, συνομιλιών, απαντήσεων ανοιχτής έρευνας και άλλων πηγών δεν είναι μια απλή διαδικασία και γίνεται ακόμη πιο δύσκολη όταν ανατίθεται μόνο σε άτομα.
Αυτός είναι ο λόγος για τον οποίο πολλοί άνθρωποι είναι ενθουσιασμένοι με τις δυνατότητες του τεχνητή νοημοσύνη για την καθημερινή τους εργασία και για τις επιχειρήσεις .
Η ανάλυση κειμένου με τεχνητή νοημοσύνη χρησιμοποιεί ένα ευρύ φάσμα προσεγγίσεων ή αλγορίθμων για την οργανική ερμηνεία της γλώσσας, μία από τις οποίες είναι η ανάλυση θεμάτων, η οποία χρησιμοποιείται για την αυτόματη ανακάλυψη θεμάτων από κείμενα.
Οι επιχειρήσεις μπορούν να χρησιμοποιούν μοντέλα ανάλυσης θεμάτων για να μεταφέρουν εύκολες εργασίες σε μηχανές αντί να επιβαρύνουν υπερβολικά τους εργαζομένους με πάρα πολλά δεδομένα.
Σκεφτείτε πόσο χρόνο θα μπορούσε να εξοικονομήσει η ομάδα σας και να αφιερώσει σε πιο βασικές εργασίες, εάν ένας υπολογιστής μπορούσε να φιλτράρει μέσα από ατελείωτες λίστες ερευνών πελατών ή ζητήματα υποστήριξης κάθε πρωί.
Σε αυτόν τον οδηγό, θα εξετάσουμε τη μοντελοποίηση θεμάτων, τις διαφορετικές μεθόδους μοντελοποίησης θεμάτων και θα αποκτήσουμε κάποια πρακτική εμπειρία με αυτό.
Τι είναι το Topic Modeling;
Η μοντελοποίηση θεμάτων είναι ένας τύπος εξόρυξης κειμένου στην οποία δεν επιτηρούνται και εποπτεύονται στατιστικά μάθηση μηχανής χρησιμοποιούνται τεχνικές για την ανίχνευση τάσεων σε ένα σώμα ή έναν σημαντικό όγκο μη δομημένου κειμένου.
Μπορεί να χρειαστεί η τεράστια συλλογή εγγράφων σας και να χρησιμοποιήσει μια μέθοδο ομοιότητας για να τακτοποιήσει τις λέξεις σε ομάδες όρων και να ανακαλύψει θέματα.
Αυτό φαίνεται λίγο περίπλοκο και δύσκολο, οπότε ας απλοποιήσουμε τη διαδικασία μοντελοποίησης του θέματος!
Ας υποθέσουμε ότι διαβάζετε μια εφημερίδα με ένα σετ από χρωματιστά highlighters στο χέρι σας.
Δεν είναι παλιομοδίτικο;
Συνειδητοποιώ ότι αυτές τις μέρες, λίγοι άνθρωποι διαβάζουν εφημερίδες σε έντυπη μορφή. όλα είναι ψηφιακά και τα highlighters ανήκουν στο παρελθόν! Προσποιηθείτε ότι είστε ο πατέρας ή η μητέρα σας!
Έτσι, όταν διαβάζεις την εφημερίδα, αναδεικνύεις τους σημαντικούς όρους.
Μια ακόμη υπόθεση!
Χρησιμοποιείτε διαφορετική απόχρωση για να τονίσετε τις λέξεις-κλειδιά διαφόρων θεμάτων. Κατηγοριοποιείτε τις λέξεις-κλειδιά ανάλογα με το παρεχόμενο χρώμα και τα θέματα.
Κάθε συλλογή λέξεων που επισημαίνονται με ένα συγκεκριμένο χρώμα είναι μια λίστα λέξεων-κλειδιών για ένα δεδομένο θέμα. Ο αριθμός των διαφόρων χρωμάτων που επιλέξατε δείχνει τον αριθμό των θεμάτων.
Αυτή είναι η πιο θεμελιώδης μοντελοποίηση θεμάτων. Βοηθά στην κατανόηση, την οργάνωση και τη σύνοψη μεγάλων συλλογών κειμένων.
Ωστόσο, έχετε υπόψη σας ότι για να είναι αποτελεσματικά, τα αυτοματοποιημένα μοντέλα θεμάτων απαιτούν πολύ περιεχόμενο. Εάν έχετε ένα σύντομο χαρτί, ίσως θέλετε να πάτε στο παλιό σχολείο και να χρησιμοποιήσετε highlighters!
Είναι επίσης ωφέλιμο να αφιερώσετε λίγο χρόνο για να γνωρίσετε τα δεδομένα. Αυτό θα σας δώσει μια βασική αίσθηση του τι πρέπει να βρει το μοντέλο θέματος.
Για παράδειγμα, αυτό το ημερολόγιο μπορεί να αφορά τις παρούσες και τις προηγούμενες σχέσεις σας. Ως εκ τούτου, θα περίμενα ότι ο φίλος-ρομπότ εξόρυξης κειμένου μου θα είχε παρόμοιες ιδέες.
Αυτό μπορεί να σας βοηθήσει να αναλύσετε καλύτερα την ποιότητα των θεμάτων που έχετε εντοπίσει και, εάν είναι απαραίτητο, να τροποποιήσετε τα σύνολα λέξεων-κλειδιών.
Στοιχεία Μοντελοποίησης Θεμάτων
Πιθανολογικό Μοντέλο
Οι τυχαίες μεταβλητές και οι κατανομές πιθανοτήτων ενσωματώνονται στην αναπαράσταση ενός γεγονότος ή ενός φαινομένου σε πιθανοτικά μοντέλα.
Ένα ντετερμινιστικό μοντέλο παρέχει ένα ενιαίο πιθανό συμπέρασμα για ένα γεγονός, ενώ ένα πιθανοτικό μοντέλο παρέχει μια κατανομή πιθανοτήτων ως λύση.
Αυτά τα μοντέλα θεωρούν την πραγματικότητα ότι σπάνια έχουμε πλήρη γνώση μιας κατάστασης. Υπάρχει σχεδόν πάντα ένα στοιχείο τυχαίας που πρέπει να ληφθεί υπόψη.
Για παράδειγμα, η ασφάλιση ζωής βασίζεται στην πραγματικότητα ότι ξέρουμε ότι θα πεθάνουμε, αλλά δεν ξέρουμε πότε. Αυτά τα μοντέλα μπορεί να είναι εν μέρει ντετερμινιστικά, εν μέρει τυχαία ή εντελώς τυχαία.
Ανάκτηση πληροφοριών
Η ανάκτηση πληροφοριών (IR) είναι ένα πρόγραμμα λογισμικού που οργανώνει, αποθηκεύει, ανακτά και αξιολογεί πληροφορίες από αποθήκες εγγράφων, ιδιαίτερα πληροφορίες κειμένου.
Η τεχνολογία βοηθά τους χρήστες να ανακαλύψουν τις πληροφορίες που χρειάζονται, αλλά δεν παρέχει ξεκάθαρα τις απαντήσεις στα ερωτήματά τους. Ειδοποιεί για την παρουσία και τη θέση των εγγράφων που μπορεί να παρέχουν τις απαραίτητες πληροφορίες.
Σχετικά έγγραφα είναι αυτά που ανταποκρίνονται στις ανάγκες του χρήστη. Ένα άψογο σύστημα υπερύθρων θα επιστρέψει μόνο επιλεγμένα έγγραφα.
Συνοχή θεμάτων
Η Συνοχή θεμάτων βαθμολογεί ένα μόνο θέμα υπολογίζοντας τον βαθμό σημασιολογικής ομοιότητας μεταξύ των όρων με υψηλή βαθμολογία του θέματος. Αυτές οι μετρήσεις βοηθούν στη διάκριση μεταξύ θεμάτων που είναι σημασιολογικά ερμηνεύσιμα και θεμάτων που είναι τεχνουργήματα στατιστικών συμπερασμάτων.
Εάν μια ομάδα ισχυρισμών ή γεγονότων υποστηρίζει το ένα το άλλο, λέγεται ότι είναι συνεκτικά.
Ως αποτέλεσμα, ένα συνεκτικό σύνολο γεγονότων μπορεί να γίνει κατανοητό σε ένα πλαίσιο που περιλαμβάνει όλα ή τα περισσότερα γεγονότα. «Το παιχνίδι είναι ομαδικό άθλημα», «το παιχνίδι παίζεται με μπάλα» και «το παιχνίδι απαιτεί τεράστια σωματική προσπάθεια» είναι όλα παραδείγματα συνεκτικών συνόλων δεδομένων.
Διαφορετικές Μέθοδοι Μοντελοποίησης Θεμάτων
Αυτή η κρίσιμη διαδικασία μπορεί να πραγματοποιηθεί με μια ποικιλία αλγορίθμων ή μεθοδολογιών. Μεταξύ αυτών είναι:
- Κατανομή Latent Dirichlet (LDA)
- Παραγοντοποίηση μη αρνητικού πίνακα (NMF)
- Λανθάνουσα σημασιολογική ανάλυση (LSA)
- Πιθανοτική Λανθάνουσα Σημασιολογική Ανάλυση (pLSA)
Λανθάνουσα κατανομή Dirichlet (LDA)
Για την ανίχνευση των σχέσεων μεταξύ πολλαπλών κειμένων σε ένα σώμα, χρησιμοποιείται η στατιστική και γραφική έννοια του Latent Dirichlet Allocation.
Χρησιμοποιώντας την προσέγγιση Μεγιστοποίησης Εξαίρεσης Μεταβλητών (VEM), επιτυγχάνεται η μεγαλύτερη εκτίμηση πιθανότητας από το πλήρες σώμα του κειμένου.
Παραδοσιακά, επιλέγονται οι πρώτες λίγες λέξεις από μια τσάντα λέξεων.
Ωστόσο, η πρόταση είναι εντελώς ανούσια.
Σύμφωνα με αυτή την τεχνική, κάθε κείμενο θα αντιπροσωπεύεται από μια πιθανολογική κατανομή θεμάτων και κάθε θέμα από μια πιθανολογική κατανομή λέξεων.
Παραγοντοποίηση μη αρνητικού πίνακα (NMF)
Η παραγοντοποίηση μήτρας με μη αρνητικές τιμές είναι μια προσέγγιση εξαγωγής χαρακτηριστικών αιχμής.
Όταν υπάρχουν πολλές ιδιότητες και τα χαρακτηριστικά είναι ασαφή ή έχουν κακή προβλεψιμότητα, το NMF είναι επωφελές. Το NMF μπορεί να δημιουργήσει σημαντικά μοτίβα, θέματα ή θέματα συνδυάζοντας χαρακτηριστικά.
Το NMF δημιουργεί κάθε χαρακτηριστικό ως γραμμικό συνδυασμό του αρχικού συνόλου χαρακτηριστικών.
Κάθε χαρακτηριστικό περιέχει ένα σύνολο συντελεστών που αντιπροσωπεύουν τη σημασία κάθε χαρακτηριστικού στο χαρακτηριστικό. Κάθε αριθμητικό χαρακτηριστικό και κάθε τιμή κάθε χαρακτηριστικού κατηγορίας έχει τον δικό του συντελεστή.
Όλοι οι συντελεστές είναι θετικοί.
Λανθάνουσα Σημασιολογική Ανάλυση
Μια άλλη μέθοδος μάθησης χωρίς επίβλεψη που χρησιμοποιείται για την εξαγωγή συσχετίσεων μεταξύ λέξεων σε ένα σύνολο εγγράφων είναι η λανθάνουσα σημασιολογική ανάλυση.
Αυτό μας βοηθά να επιλέξουμε τα κατάλληλα έγγραφα. Η κύρια λειτουργία του είναι να μειώσει τη διάσταση του τεράστιου σώματος δεδομένων κειμένου.
Αυτά τα περιττά δεδομένα χρησιμεύουν ως θόρυβος παρασκηνίου για την απόκτηση των απαραίτητων πληροφοριών από τα δεδομένα.
Πιθανοτική Λανθάνουσα Σημασιολογική Ανάλυση (pLSA)
Η πιθανοτική λανθάνουσα σημασιολογική ανάλυση (PLSA), που μερικές φορές είναι γνωστή ως πιθανολογική λανθάνουσα σημασιολογική ευρετηρίαση (PLSI, ιδίως σε κύκλους ανάκτησης πληροφοριών), είναι μια στατιστική προσέγγιση για την ανάλυση δεδομένων δύο τρόπων και συνεμφανίσεων.
Στην πραγματικότητα, παρόμοια με τη λανθάνουσα σημασιολογική ανάλυση, από την οποία προέκυψε το PLSA, μπορεί να προκύψει μια χαμηλών διαστάσεων αναπαράσταση των παρατηρούμενων μεταβλητών ως προς τη συγγένειά τους με συγκεκριμένες κρυφές μεταβλητές.
Πραγματοποιήστε με τη μοντελοποίηση θεμάτων στην Python
Τώρα, θα σας καθοδηγήσω σε μια εργασία μοντελοποίησης θέματος με την Python γλώσσα προγραμματισμού χρησιμοποιώντας ένα πραγματικό παράδειγμα.
Θα διαμορφώνω ερευνητικά άρθρα. Το σύνολο δεδομένων που θα χρησιμοποιήσω εδώ προέρχεται από το kaggle.com. Μπορείτε εύκολα να αποκτήσετε όλα τα αρχεία που χρησιμοποιώ σε αυτήν την εργασία από αυτό σελίδα.
Ας ξεκινήσουμε με τη μοντελοποίηση θεμάτων χρησιμοποιώντας Python εισάγοντας όλες τις βασικές βιβλιοθήκες:
Το επόμενο βήμα είναι να διαβάσω όλα τα σύνολα δεδομένων που θα χρησιμοποιήσω σε αυτήν την εργασία:
Διερευνητική Ανάλυση Δεδομένων
Η EDA (Exploratory Data Analysis) είναι μια στατιστική μέθοδος που χρησιμοποιεί οπτικά στοιχεία. Χρησιμοποιεί στατιστικές περιλήψεις και γραφικές αναπαραστάσεις για να ανακαλύψει τάσεις, μοτίβα και υποθέσεις δοκιμών.
Θα κάνω κάποια διερευνητική ανάλυση δεδομένων πριν ξεκινήσω τη μοντελοποίηση θεμάτων για να δω αν υπάρχουν μοτίβα ή σχέσεις στα δεδομένα:
Τώρα θα βρούμε τις μηδενικές τιμές του συνόλου δεδομένων δοκιμής:
Τώρα θα σχεδιάσω ένα ιστόγραμμα και ένα πλαίσιο για να ελέγξω τη σχέση μεταξύ των μεταβλητών.
Ο αριθμός των χαρακτήρων στο σετ Abstracts of the Train ποικίλλει πολύ.
Στο τρένο, έχουμε τουλάχιστον 54 και μέγιστο 4551 χαρακτήρες. 1065 είναι ο μέσος αριθμός χαρακτήρων.
Το σετ δοκιμών φαίνεται να είναι πιο ενδιαφέρον από το σετ εκπαίδευσης, καθώς το σετ δοκιμής έχει 46 χαρακτήρες ενώ το σετ εκπαίδευσης έχει 2841.
Ως αποτέλεσμα, το σετ δοκιμής είχε διάμεσο 1058 χαρακτήρες, που είναι παρόμοιο με το σετ εκπαίδευσης.
Ο αριθμός των λέξεων στο εκπαιδευτικό σύνολο ακολουθεί ένα παρόμοιο μοτίβο με τον αριθμό των γραμμάτων.
Επιτρέπονται τουλάχιστον 8 λέξεις και μέγιστο 665 λέξεις. Ως αποτέλεσμα, ο διάμεσος αριθμός λέξεων είναι 153.
Απαιτούνται τουλάχιστον επτά λέξεις σε μια περίληψη και το πολύ 452 λέξεις στο σετ δοκιμής.
Η διάμεσος, σε αυτή την περίπτωση, είναι 153, η οποία είναι ίδια με τη διάμεσο στο σετ προπόνησης.
Χρήση ετικετών για μοντελοποίηση θεμάτων
Υπάρχουν διάφορες στρατηγικές μοντελοποίησης θεμάτων. Θα χρησιμοποιήσω ετικέτες σε αυτήν την άσκηση. Ας δούμε πώς να το κάνουμε εξετάζοντας τις ετικέτες:
Εφαρμογές Μοντελοποίησης Θεμάτων
- Μια περίληψη κειμένου μπορεί να χρησιμοποιηθεί για να διακρίνει το θέμα ενός εγγράφου ή ενός βιβλίου.
- Μπορεί να χρησιμοποιηθεί για την αφαίρεση της μεροληψίας υποψηφίου από τη βαθμολόγηση των εξετάσεων.
- Η μοντελοποίηση θεμάτων μπορεί να χρησιμοποιηθεί για τη δημιουργία σημασιολογικών σχέσεων μεταξύ λέξεων σε μοντέλα που βασίζονται σε γραφήματα.
- Μπορεί να βελτιώσει την εξυπηρέτηση πελατών εντοπίζοντας και απαντώντας σε λέξεις-κλειδιά στο ερώτημα του πελάτη. Οι πελάτες θα έχουν μεγαλύτερη πίστη σε εσάς, καθώς τους έχετε παράσχει τη βοήθεια που χρειάζονται την κατάλληλη στιγμή και χωρίς να τους προκαλείτε καμία ταλαιπωρία. Ως αποτέλεσμα, η αφοσίωση των πελατών αυξάνεται δραματικά και η αξία της εταιρείας αυξάνεται.
Συμπέρασμα
Η μοντελοποίηση θεμάτων είναι ένα είδος στατιστικής μοντελοποίησης που χρησιμοποιείται για να αποκαλύψει αφηρημένα «θέματα» που υπάρχουν σε μια συλλογή κειμένων.
Είναι μια μορφή του στατιστικού μοντέλου που χρησιμοποιείται σε μάθηση μηχανής και επεξεργασία φυσικής γλώσσας για την αποκάλυψη αφηρημένων εννοιών που υπάρχουν σε ένα σύνολο κειμένων.
Είναι μια μέθοδος εξόρυξης κειμένου που χρησιμοποιείται ευρέως για την εύρεση λανθάνοντα σημασιολογικά μοτίβα στο κείμενο του σώματος.
Αφήστε μια απάντηση