Πίνακας περιεχομένων[Κρύβω][Προβολή]
Ο κόσμος αλλάζει γρήγορα λόγω της τεχνητής νοημοσύνης και της μηχανικής μάθησης, η οποία έχει αντίκτυπο σε κάθε πτυχή της καθημερινότητάς μας.
Από βοηθούς φωνής που χρησιμοποιούν NLP και μηχανική εκμάθηση για να κλείσουν ραντεβού, να αναζητήσουν συμβάντα στο ημερολόγιό μας και να παίξουν μουσική σε συσκευές που είναι τόσο ακριβείς που μπορούν να προβλέψουν τις ανάγκες μας πριν καν τις εξετάσουμε.
Οι υπολογιστές μπορούν να παίξουν σκάκι, να κάνουν χειρουργικές επεμβάσεις και να εξελιχθούν σε πιο έξυπνες μηχανές που μοιάζουν με τον άνθρωπο με τη βοήθεια αλγορίθμων μηχανικής μάθησης.
Βρισκόμαστε σε μια εποχή συνεχούς τεχνολογικής προόδου και βλέποντας πώς έχουν αναπτυχθεί οι υπολογιστές με την πάροδο του χρόνου, μπορούμε να κάνουμε προβλέψεις για το τι θα συμβεί στο μέλλον.
Ο εκδημοκρατισμός των υπολογιστικών εργαλείων και μεθόδων είναι μία από τις βασικές πτυχές αυτής της επανάστασης που ξεχωρίζει. Επιστήμονες δεδομένων έχουν δημιουργήσει ισχυρούς υπολογιστές που συγκεντρώνουν δεδομένα τα τελευταία πέντε χρόνια εφαρμόζοντας αβίαστα μεθοδολογίες αιχμής. Τα αποτελέσματα είναι εκπληκτικά.
Σε αυτήν την ανάρτηση, θα εξετάσουμε προσεκτικά μάθηση μηχανής αλγόριθμους και όλες τις παραλλαγές τους.
Λοιπόν, τι είναι οι αλγόριθμοι Machine Learning;
Η προσέγγιση που χρησιμοποιείται από το σύστημα τεχνητής νοημοσύνης για την εκτέλεση της αποστολής του - γενικά, η πρόβλεψη τιμών εξόδου από δεδομένα εισόδου - είναι γνωστή ως αλγόριθμος μηχανικής μάθησης.
Ένας αλγόριθμος μηχανικής μάθησης είναι μια διαδικασία που χρησιμοποιεί δεδομένα και χρησιμοποιείται για τη δημιουργία μοντέλων μηχανικής μάθησης που είναι έτοιμα για παραγωγή. Εάν η μηχανική μάθηση είναι το τρένο που εκτελεί μια εργασία, τότε οι αλγόριθμοι μηχανικής μάθησης είναι οι ατμομηχανές που κινούν την εργασία.
Η καλύτερη προσέγγιση μηχανικής εκμάθησης για χρήση θα καθοριστεί από το επιχειρηματικό πρόβλημα που προσπαθείτε να αντιμετωπίσετε, τον τύπο του συνόλου δεδομένων που χρησιμοποιείτε και τους πόρους που έχετε διαθέσιμους.
Οι αλγόριθμοι μηχανικής μάθησης είναι αυτοί που μετατρέπουν ένα σύνολο δεδομένων σε μοντέλο. Ανάλογα με το είδος του προβλήματος που προσπαθείτε να απαντήσετε, η διαθέσιμη επεξεργαστική ισχύς και ο τύπος δεδομένων που έχετε, οι εποπτευόμενοι, χωρίς επίβλεψη ή οι αλγόριθμοι ενίσχυσης εκμάθησης μπορούν να έχουν καλή απόδοση.
Λοιπόν, μιλήσαμε για εποπτευόμενη, χωρίς επίβλεψη και ενισχυτική μάθηση, αλλά ποιες είναι αυτές; Ας τα εξερευνήσουμε.
Εποπτευόμενη, Χωρίς Επίβλεψη & Ενισχυτική Μάθηση
Εποπτευόμενη μάθηση
Στην εποπτευόμενη μάθηση, το μοντέλο τεχνητής νοημοσύνης αναπτύσσεται με βάση τα δεδομένα που έχουν παρασχεθεί και την ετικέτα που αντιπροσωπεύει το προβλεπόμενο αποτέλεσμα. Με βάση τις εισόδους και τις εξόδους, το μοντέλο αναπτύσσει μια εξίσωση χαρτογράφησης και χρησιμοποιώντας αυτήν την εξίσωση χαρτογράφησης, προβλέπει την ετικέτα των εισροών στο μέλλον.
Ας πούμε ότι πρέπει να δημιουργήσουμε ένα μοντέλο που να μπορεί να διακρίνει μεταξύ ενός σκύλου και μιας γάτας. Πολλαπλές φωτογραφίες γατών και σκύλων τροφοδοτούνται στο μοντέλο με ετικέτες που υποδεικνύουν αν είναι γάτες ή σκύλοι προκειμένου να εκπαιδεύσουν το μοντέλο.
Το μοντέλο επιδιώκει να δημιουργήσει μια εξίσωση που να συσχετίζει τις ετικέτες στις φωτογραφίες εισόδου με αυτές τις εικόνες. Ακόμα κι αν το μοντέλο δεν έχει δει ποτέ την εικόνα πριν, μετά την εκπαίδευση, μπορεί να αναγνωρίσει αν πρόκειται για γάτα ή σκύλο.
Μη εποπτευόμενη μάθηση
Η μάθηση χωρίς επίβλεψη περιλαμβάνει την εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης μόνο σε εισόδους χωρίς να τους επισημαίνει. Το μοντέλο διαιρεί τα δεδομένα εισόδου σε ομάδες με σχετικά χαρακτηριστικά.
Στη συνέχεια, προβλέπεται η μελλοντική ετικέτα της εισόδου ανάλογα με το πόσο στενά ταιριάζουν τα χαρακτηριστικά της με μία από τις ταξινομήσεις. Εξετάστε την κατάσταση όπου πρέπει να χωρίσουμε μια ομάδα από κόκκινες και μπλε μπάλες σε δύο κατηγορίες.
Ας υποθέσουμε ότι τα άλλα χαρακτηριστικά των σφαιρών είναι πανομοιότυπα, με εξαίρεση το χρώμα. Με βάση το πώς μπορεί να χωρίσει τις μπάλες σε δύο κατηγορίες, το μοντέλο αναζητά τα χαρακτηριστικά που είναι διαφορετικά μεταξύ των σφαιρών.
Δύο ομάδες μπάλες—μία μπλε και μία κόκκινη— παράγονται όταν οι μπάλες χωρίζονται σε δύο ομάδες με βάση την απόχρωση τους.
Μάθηση Ενίσχυσης
Στην ενισχυτική μάθηση, το μοντέλο AI επιδιώκει να μεγιστοποιήσει το συνολικό κέρδος ενεργώντας όσο καλύτερα μπορεί σε μια συγκεκριμένη περίσταση. Η ανατροφοδότηση σχετικά με τα προηγούμενα αποτελέσματά του βοηθά το μοντέλο να μάθει.
Σκεφτείτε το σενάριο όταν ένα ρομπότ λαμβάνει οδηγίες να επιλέξει μια διαδρομή μεταξύ των σημείων Α και Β. Το ρομπότ επιλέγει πρώτα ένα από τα μαθήματα επειδή δεν έχει προηγούμενη εμπειρία.
Το ρομπότ λαμβάνει πληροφορίες για τη διαδρομή που ακολουθεί και αποκτά γνώση από αυτήν. Το ρομπότ μπορεί να χρησιμοποιήσει την είσοδο για να διορθώσει το πρόβλημα την επόμενη φορά που θα αντιμετωπίσει παρόμοια περίσταση.
Για παράδειγμα, εάν το ρομπότ επιλέξει την επιλογή Β και λάβει μια ανταμοιβή, όπως θετική ανατροφοδότηση, καταλαβαίνει αυτή τη φορά ότι πρέπει να επιλέξει τον τρόπο Β για να αυξήσει την ανταμοιβή του.
Τώρα επιτέλους αυτό που όλοι περιμένετε, είναι οι αλγόριθμοι.
Κύριοι αλγόριθμοι μηχανικής μάθησης
1. Γραμμική παλινδρόμηση
Η απλούστερη προσέγγιση μηχανικής μάθησης που αποκλίνει από την εποπτευόμενη μάθηση είναι η γραμμική παλινδρόμηση. Με τη γνώση από ανεξάρτητες μεταβλητές, χρησιμοποιείται κυρίως για την επίλυση προβλημάτων παλινδρόμησης και τη δημιουργία προβλέψεων για συνεχείς εξαρτημένες μεταβλητές.
Η εύρεση της γραμμής της καλύτερης προσαρμογής, η οποία μπορεί να βοηθήσει στην πρόβλεψη του αποτελέσματος για συνεχείς εξαρτημένες μεταβλητές, είναι ο στόχος της γραμμικής παλινδρόμησης. Οι τιμές των κατοικιών, η ηλικία και οι μισθοί είναι μερικά παραδείγματα συνεχών αξιών.
Ένα μοντέλο γνωστό ως απλή γραμμική παλινδρόμηση χρησιμοποιεί μια ευθεία γραμμή για να υπολογίσει τη συσχέτιση μεταξύ μιας ανεξάρτητης μεταβλητής και μιας εξαρτημένης μεταβλητής. Υπάρχουν περισσότερες από δύο ανεξάρτητες μεταβλητές στην πολλαπλή γραμμική παλινδρόμηση.
Ένα μοντέλο γραμμικής παλινδρόμησης έχει τέσσερις υποκείμενες υποθέσεις:
- Γραμμικότητα: Υπάρχει μια γραμμική σύνδεση μεταξύ του X και του μέσου όρου του Y.
- Ομοσκεδαστικότητα: Για κάθε τιμή του X, η υπολειπόμενη διακύμανση είναι η ίδια.
- Ανεξαρτησία: Οι παρατηρήσεις είναι ανεξάρτητες μεταξύ τους ως προς την ανεξαρτησία.
- Κανονικότητα: Όταν το X είναι σταθερό, το Y κατανέμεται κανονικά.
Η γραμμική παλινδρόμηση αποδίδει θαυμάσια για δεδομένα που μπορούν να διαχωριστούν κατά μήκος γραμμών. Μπορεί να ελέγξει την υπερπροσαρμογή χρησιμοποιώντας τεχνικές τακτοποίησης, διασταυρούμενης επικύρωσης και μείωσης διαστάσεων. Ωστόσο, υπάρχουν περιπτώσεις όπου απαιτείται εκτεταμένη μηχανική χαρακτηριστικών, η οποία μπορεί περιστασιακά να οδηγήσει σε υπερβολική τοποθέτηση και θόρυβο.
2. Logistic Regression
Η λογιστική παλινδρόμηση είναι μια άλλη τεχνική μηχανικής μάθησης που ξεφεύγει από την εποπτευόμενη μάθηση. Η κύρια χρήση του είναι η ταξινόμηση, ενώ μπορεί να χρησιμοποιηθεί και για προβλήματα παλινδρόμησης.
Η λογιστική παλινδρόμηση χρησιμοποιείται για την πρόβλεψη της κατηγορικής εξαρτημένης μεταβλητής χρησιμοποιώντας τις πληροφορίες από τους ανεξάρτητους παράγοντες. Ο στόχος είναι να ταξινομηθούν τα αποτελέσματα, τα οποία μπορούν να πέφτουν μόνο μεταξύ 0 και 1.
Το σταθμισμένο σύνολο των εισόδων επεξεργάζεται από τη σιγμοειδή συνάρτηση, μια συνάρτηση ενεργοποίησης που μετατρέπει τιμές μεταξύ 0 και 1.
Η βάση της λογιστικής παλινδρόμησης είναι η εκτίμηση μέγιστης πιθανότητας, μια μέθοδος για τον υπολογισμό των παραμέτρων μιας υποτιθέμενης κατανομής πιθανότητας με βάση συγκεκριμένα παρατηρούμενα δεδομένα.
3. Δέντρο απόφασης
Μια άλλη μέθοδος μηχανικής μάθησης που αποσπά την εποπτευόμενη μάθηση είναι το δέντρο αποφάσεων. Και για θέματα ταξινόμησης και παλινδρόμησης, μπορεί να χρησιμοποιηθεί η προσέγγιση του δέντρου αποφάσεων.
Αυτό το εργαλείο λήψης αποφάσεων, που μοιάζει με δέντρο, χρησιμοποιεί οπτικές αναπαραστάσεις για να δείξει τα πιθανά αποτελέσματα, το κόστος και τις επιπτώσεις των ενεργειών. Διαιρώντας τα δεδομένα σε ξεχωριστά τμήματα, η ιδέα είναι ανάλογη με τον ανθρώπινο νου.
Τα δεδομένα έχουν χωριστεί σε ξεχωριστά μέρη, όσο μπορούσαμε να τα συλλέξουμε. Ο κύριος στόχος ενός Δέντρου Αποφάσεων είναι να δημιουργήσει ένα μοντέλο εκπαίδευσης που μπορεί να χρησιμοποιηθεί για την πρόβλεψη της κλάσης της μεταβλητής στόχου. Οι τιμές που λείπουν μπορούν να αντιμετωπιστούν αυτόματα χρησιμοποιώντας τη Δέντρο Αποφάσεων.
Δεν υπάρχει απαίτηση για κωδικοποίηση μίας λήψης, εικονικές μεταβλητές ή άλλα βήματα προεπεξεργασίας δεδομένων. Είναι άκαμπτο με την έννοια ότι είναι δύσκολο να προστεθούν φρέσκα δεδομένα σε αυτό. Εάν έχετε πρόσθετα δεδομένα με ετικέτα, θα πρέπει να επανεκπαιδεύσετε το δέντρο σε ολόκληρο το σύνολο δεδομένων.
Ως αποτέλεσμα, τα δέντρα αποφάσεων είναι μια κακή επιλογή για οποιαδήποτε εφαρμογή που απαιτεί δυναμική αλλαγή μοντέλου.
Με βάση το είδος της μεταβλητής στόχου, τα δέντρα αποφάσεων ταξινομούνται σε δύο τύπους:
- Κατηγορική μεταβλητή: Ένα δέντρο αποφάσεων στο οποίο η μεταβλητή στόχου είναι Κατηγορική.
- Συνεχής μεταβλητή: Ένα δέντρο αποφάσεων στο οποίο η μεταβλητή στόχου είναι Συνεχής.
4. Τυχαίο Δάσος
Η μέθοδος Random Forest είναι η επόμενη τεχνική μηχανικής μάθησης και είναι ένας εποπτευόμενος αλγόριθμος μηχανικής μάθησης που χρησιμοποιείται εκτενώς σε ζητήματα ταξινόμησης και παλινδρόμησης. Είναι επίσης μια μέθοδος που βασίζεται σε δέντρα, παρόμοια με ένα δέντρο αποφάσεων.
Ένα δάσος από δέντρα, ή πολλά δέντρα απόφασης, χρησιμοποιείται με τη μέθοδο του τυχαίου δάσους για να γίνουν κρίσεις. Κατά το χειρισμό εργασιών ταξινόμησης, η μέθοδος τυχαίας δασικής ύλης χρησιμοποιούσε κατηγορικές μεταβλητές ενώ χειριζόταν εργασίες παλινδρόμησης με σύνολα δεδομένων που περιέχουν συνεχείς μεταβλητές.
Ένα σύνολο, ή ανάμειξη πολλών μοντέλων, είναι αυτό που κάνει η μέθοδος του τυχαίου δάσους, που σημαίνει ότι οι προβλέψεις γίνονται χρησιμοποιώντας μια ομάδα μοντέλων και όχι μόνο ένα.
Η δυνατότητα χρήσης τόσο για προβλήματα ταξινόμησης όσο και για προβλήματα παλινδρόμησης, τα οποία αποτελούν την πλειοψηφία των σύγχρονων συστημάτων μηχανικής μάθησης, είναι ένα βασικό πλεονέκτημα του τυχαίου δάσους.
Δύο διαφορετικές στρατηγικές χρησιμοποιούνται από το Ensemble:
- Bagging: Κάνοντας αυτό, παράγονται περισσότερα δεδομένα για το σύνολο δεδομένων εκπαίδευσης. Για να μειωθεί η διακύμανση στις προβλέψεις, αυτό γίνεται.
- Ενίσχυση είναι η διαδικασία συνδυασμού αδύναμων μαθητών με δυνατούς μαθητές με τη δημιουργία διαδοχικών μοντέλων, με αποτέλεσμα το τελικό μοντέλο με τη μέγιστη ακρίβεια.
5. Αφελής Bayes
Ένα πρόβλημα ταξινόμησης δυαδικών (δύο τάξεων) και πολλαπλών κλάσεων μπορεί να λυθεί χρησιμοποιώντας την τεχνική Naive Bayes. Όταν η μέθοδος επεξηγείται χρησιμοποιώντας τιμές εισόδου δυαδικών ή κατηγοριών, είναι απλούστερη η κατανόηση. Μια υπόθεση που γίνεται από έναν ταξινομητή Naive Bayes είναι ότι η ύπαρξη ενός χαρακτηριστικού σε μια κλάση δεν έχει καμία σχέση με την παρουσία άλλων χαρακτηριστικών.
Ο παραπάνω τύπος δείχνει:
- P(H): Η πιθανότητα ότι η υπόθεση H είναι σωστή. Η προηγούμενη πιθανότητα αναφέρεται ως αυτή.
- P(E): Η πιθανότητα των αποδεικτικών στοιχείων
- P(E|H): Η πιθανότητα ότι η υπόθεση υποστηρίζεται από τα στοιχεία.
- P(H|E): Η πιθανότητα να είναι αληθινή η υπόθεση, δεδομένων των στοιχείων.
Ένας ταξινομητής Naive Bayes θα λάμβανε υπόψη καθένα από αυτά τα χαρακτηριστικά μεμονωμένα κατά τον προσδιορισμό της πιθανότητας ενός συγκεκριμένου αποτελέσματος, ακόμα κι αν αυτά τα χαρακτηριστικά συνδέονται μεταξύ τους. Ένα μοντέλο Naive Bayesian είναι απλό στην κατασκευή και αποτελεσματικό για μεγάλα σύνολα δεδομένων.
Είναι γνωστό ότι αποδίδει καλύτερα ακόμη και από τις πιο σύνθετες τεχνικές κατηγοριοποίησης ενώ είναι βασικό. Είναι μια συλλογή αλγορίθμων που βασίζονται όλοι στο θεώρημα του Bayes και όχι σε μία μέθοδο.
6. Κ-Κοντινότεροι Γείτονες
Η τεχνική K-nearest nears (kNN) είναι ένα υποσύνολο εποπτευόμενης μηχανικής μάθησης που μπορεί να χρησιμοποιηθεί για την αντιμετώπιση ζητημάτων ταξινόμησης και παλινδρόμησης. Ο αλγόριθμος KNN προϋποθέτει ότι συγκρίσιμα αντικείμενα μπορούν να βρεθούν κοντά.
Το θυμάμαι ως μια συγκέντρωση ομοϊδεατών ατόμων. Το kNN εκμεταλλεύεται την ιδέα της ομοιότητας μεταξύ άλλων σημείων δεδομένων χρησιμοποιώντας την εγγύτητα, την εγγύτητα ή την απόσταση. Προκειμένου να επισημανθούν τα μη ορατά δεδομένα με βάση τα πλησιέστερα επισημασμένα παρατηρήσιμα σημεία δεδομένων, χρησιμοποιείται μια μαθηματική μέθοδος για τον προσδιορισμό του διαχωρισμού μεταξύ σημείων σε ένα γράφημα.
Πρέπει να προσδιορίσετε την απόσταση μεταξύ των σημείων δεδομένων για να εντοπίσετε τα πλησιέστερα συγκρίσιμα σημεία. Για αυτό μπορούν να χρησιμοποιηθούν μετρήσεις απόστασης όπως η Ευκλείδεια απόσταση, η απόσταση Hamming, η απόσταση του Μανχάταν και η απόσταση Minkowski. Το Κ είναι γνωστό ως ο πλησιέστερος γείτονας αριθμός και συχνά είναι περιττός αριθμός.
Το KNN μπορεί να εφαρμοστεί σε προβλήματα ταξινόμησης και παλινδρόμησης. Η πρόβλεψη που γίνεται όταν το KNN χρησιμοποιείται σε ζητήματα παλινδρόμησης βασίζεται στον μέσο όρο ή τη διάμεσο των K-πιο παρόμοιων εμφανίσεων.
Το αποτέλεσμα ενός αλγορίθμου ταξινόμησης που βασίζεται στο KNN μπορεί να προσδιοριστεί ως η κλάση με την υψηλότερη συχνότητα μεταξύ των K πιο όμοιων εμφανίσεων. Κάθε περίπτωση ουσιαστικά ψηφίζει για την τάξη του και η πρόβλεψη ανήκει στην τάξη που λαμβάνει τις περισσότερες ψήφους.
7. Κ-σημαίνει
Είναι μια τεχνική για μάθηση χωρίς επίβλεψη που αντιμετωπίζει ζητήματα ομαδοποίησης. Τα σύνολα δεδομένων χωρίζονται σε έναν ορισμένο αριθμό συστάδων - ας το ονομάσουμε K - με τέτοιο τρόπο ώστε τα σημεία δεδομένων κάθε συμπλέγματος να είναι ομοιογενή και διακριτά από αυτά των άλλων συστάδων.
Μεθοδολογία ομαδοποίησης K-means:
- Για κάθε σύμπλεγμα, ο αλγόριθμος K-means επιλέγει k κεντροειδή ή σημεία.
- Με τα πλησιέστερα κεντροειδή ή συμπλέγματα K, κάθε σημείο δεδομένων σχηματίζει ένα σύμπλεγμα.
- Τώρα, παράγονται νέα κεντροειδή ανάλογα με τα μέλη του συμπλέγματος που υπάρχουν ήδη.
- Η πλησιέστερη απόσταση για κάθε σημείο δεδομένων υπολογίζεται χρησιμοποιώντας αυτά τα ενημερωμένα κεντροειδή. Μέχρι να μην αλλάξουν τα κεντροειδή, αυτή η διαδικασία επαναλαμβάνεται.
Είναι πιο γρήγορο, πιο αξιόπιστο και πιο απλό στην κατανόηση. Εάν υπάρχουν προβλήματα, η προσαρμοστικότητα του k-means κάνει τις προσαρμογές απλές. Όταν τα σύνολα δεδομένων είναι διαφορετικά ή καλά απομονωμένα το ένα από το άλλο, τα αποτελέσματα είναι καλύτερα. Δεν μπορεί να διαχειριστεί ασταθή δεδομένα ή ακραίες τιμές.
8. Υποστήριξη διανυσματικών μηχανών
Όταν χρησιμοποιείτε την τεχνική SVM για την ταξινόμηση δεδομένων, τα ανεπεξέργαστα δεδομένα εμφανίζονται ως κουκκίδες σε ένα χώρο n διαστάσεων (όπου n είναι ο αριθμός των χαρακτηριστικών που έχετε). Τα δεδομένα μπορούν στη συνέχεια να ταξινομηθούν εύκολα επειδή η τιμή κάθε χαρακτηριστικού συνδέεται στη συνέχεια με μια συγκεκριμένη συντεταγμένη.
Για να διαχωρίσετε τα δεδομένα και να τα τοποθετήσετε σε ένα γράφημα, χρησιμοποιήστε γραμμές γνωστές ως ταξινομητές. Αυτή η προσέγγιση σχεδιάζει κάθε σημείο δεδομένων ως ένα σημείο σε ένα χώρο ν-διάστατων, όπου n είναι ο αριθμός των χαρακτηριστικών που έχετε και η τιμή κάθε χαρακτηριστικού είναι μια συγκεκριμένη τιμή συντεταγμένων.
Τώρα θα εντοπίσουμε μια γραμμή που χωρίζει τα δεδομένα σε δύο σύνολα δεδομένων που έχουν κατηγοριοποιηθεί διαφορετικά. Οι αποστάσεις από τα πλησιέστερα σημεία σε καθεμία από τις δύο ομάδες θα είναι οι πιο απομακρυσμένες κατά μήκος αυτής της γραμμής.
Δεδομένου ότι τα δύο πλησιέστερα σημεία είναι αυτά που είναι πιο απομακρυσμένα από τη γραμμή στο παραπάνω παράδειγμα, η γραμμή που χωρίζει τα δεδομένα στις δύο ομάδες που κατηγοριοποιήθηκαν διαφορετικά είναι η μεσαία γραμμή. Ο ταξινομητής μας είναι αυτή η γραμμή.
9. Μείωση διαστάσεων
Χρησιμοποιώντας την προσέγγιση της μείωσης διαστάσεων, τα δεδομένα εκπαίδευσης ενδέχεται να έχουν λιγότερες μεταβλητές εισόδου. Με απλά λόγια, αναφέρεται στη διαδικασία συρρίκνωσης του μεγέθους του συνόλου χαρακτηριστικών σας. Ας φανταστούμε το σύνολο δεδομένων σας έχει 100 στήλες. Η μείωση διαστάσεων θα μειώσει αυτό το ποσό σε 20 στήλες.
Το μοντέλο γίνεται αυτόματα πιο εξελιγμένο και υπάρχει μεγαλύτερος κίνδυνος υπερβολικής προσαρμογής καθώς αυξάνεται ο αριθμός των χαρακτηριστικών. Το μεγαλύτερο πρόβλημα με την εργασία με δεδομένα σε μεγαλύτερες διαστάσεις είναι αυτό που είναι γνωστό ως «κατάρα της διάστασης», το οποίο εμφανίζεται όταν τα δεδομένα σας περιέχουν υπερβολικό αριθμό χαρακτηριστικών.
Τα ακόλουθα στοιχεία μπορούν να χρησιμοποιηθούν για να επιτευχθεί μείωση διαστάσεων:
- Για να βρείτε και να επιλέξετε σχετικά χαρακτηριστικά, χρησιμοποιείται η επιλογή χαρακτηριστικών.
- Χρησιμοποιώντας ήδη υπάρχουσες δυνατότητες, η μηχανική χαρακτηριστικών δημιουργεί μη αυτόματα νέες δυνατότητες.
Συμπέρασμα
Η μηχανική εκμάθηση χωρίς επίβλεψη ή επίβλεψη είναι δυνατή. Επιλέξτε την εποπτευόμενη μάθηση εάν τα δεδομένα σας είναι λιγότερο άφθονα και έχουν καλά επισημανθεί για εκπαίδευση.
Τα μεγάλα σύνολα δεδομένων συχνά αποδίδουν και παράγουν καλύτερα αποτελέσματα χρησιμοποιώντας μάθηση χωρίς επίβλεψη. Βαθιά μάθηση Οι μέθοδοι είναι οι καλύτερες εάν έχετε μια αρκετά μεγάλη συλλογή δεδομένων που είναι άμεσα διαθέσιμη.
Ενίσχυση μάθησης και η βαθιά ενισχυτική μάθηση είναι μερικά θέματα που μελετήσατε. Τα χαρακτηριστικά, οι χρήσεις και οι περιορισμοί των νευρωνικών δικτύων είναι πλέον ξεκάθαρα σε εσάς. Τελευταίο αλλά εξίσου σημαντικό, σκεφτήκατε τις επιλογές για διαφορετικές γλώσσες προγραμματισμού, IDE και πλατφόρμες όταν ήρθε η ώρα να δημιουργήσετε τη δική σας μοντέλα μηχανικής μάθησης.
Το επόμενο πράγμα που πρέπει να κάνετε είναι να αρχίσετε να μελετάτε και να χρησιμοποιείτε το καθένα μάθηση μηχανής πλησιάζω. Ακόμα κι αν το θέμα είναι ευρύ, οποιοδήποτε θέμα μπορεί να γίνει κατανοητό σε λίγες ώρες αν εστιάσετε στο βάθος του. Κάθε θέμα ξεχωρίζει από τα άλλα.
Πρέπει να σκέφτεστε ένα θέμα τη φορά, να το μελετάτε, να το εφαρμόζετε στην πράξη και να χρησιμοποιείτε μια γλώσσα της επιλογής σας για να εφαρμόσετε τους αλγόριθμους σε αυτό.
Αφήστε μια απάντηση