Τα περισσότερα μοντέλα μηχανικής μάθησης και βαθιάς μάθησης βασίζονται σε μεγάλο βαθμό στην ποσότητα και την ποικιλία δεδομένων για να λειτουργήσουν καλά. Ο όγκος και η ποικιλία των δεδομένων που παρέχονται κατά τη διάρκεια της εκπαίδευσης έχουν σημαντικό αντίκτυπο στην ακρίβεια πρόβλεψης αυτών των μοντέλων.
Τα μοντέλα βαθιάς μάθησης που έχουν διδαχθεί να εκτελούν αποτελεσματικά σε περίπλοκες εργασίες συχνά περιλαμβάνουν κρυμμένους νευρώνες. Ο αριθμός των εκπαιδεύσιμων παραμέτρων αυξάνεται ανάλογα με τον αριθμό των κρυμμένων νευρώνων.
Η ποσότητα των απαιτούμενων δεδομένων είναι ανάλογη με τον αριθμό των παραμέτρων που μπορούν να μάθουν το μοντέλο. Μια μέθοδος για την αντιμετώπιση της δυσκολίας των περιορισμένων δεδομένων είναι η εφαρμογή μιας ποικιλίας μετασχηματισμών στα τρέχοντα δεδομένα για τη σύνθεση νέων δεδομένων.
Η τεχνική της σύνθεσης νέων δεδομένων από υπάρχοντα δεδομένα αναφέρεται ως «Αύξηση Δεδομένων». Η αύξηση δεδομένων μπορεί να χρησιμοποιηθεί για την εκπλήρωση και των δύο απαιτήσεων: τον όγκο των δεδομένων και την ποικιλία των δεδομένων εκπαίδευσης που απαιτούνται για την ανάπτυξη ακριβών μηχανική μάθηση ή μοντέλα βαθιάς μάθησης.
Σε αυτήν την ανάρτηση, θα εξετάσουμε προσεκτικά την αύξηση δεδομένων, τους τύπους της, γιατί είναι απαραίτητη και πολλά άλλα.
Λοιπόν, τι είναι η Επαύξηση Δεδομένων;
Η Επαύξηση Δεδομένων είναι η διαδικασία ανάπτυξης νέων και αντιπροσωπευτικών δεδομένων από υπάρχοντα δεδομένα. Μπορείτε να το επιτύχετε αυτό συμπεριλαμβάνοντας τροποποιημένες εκδόσεις υπαρχόντων δεδομένων ή συνθέτοντας νέα δεδομένα.
Τα σύνολα δεδομένων που παράγονται με αυτήν τη μέθοδο θα βελτιώσουν τη μηχανική εκμάθησή σας ή μοντέλα βαθιάς μάθησης ελαχιστοποιώντας τον κίνδυνο υπερβολικής τοποθέτησης. Είναι η διαδικασία αλλαγής ή «αύξησης» ενός συνόλου δεδομένων με πρόσθετες πληροφορίες.
Αυτή η συμπληρωματική είσοδος μπορεί να κυμαίνεται από εικόνες έως κείμενο και ενισχύει την απόδοση των συστημάτων μηχανικής εκμάθησης.
Ας υποθέσουμε ότι θέλουμε να φτιάξουμε ένα μοντέλο για να κατηγοριοποιήσουμε τις ράτσες σκύλων και έχουμε μεγάλο αριθμό φωτογραφιών από όλες τις ποικιλίες εκτός από πατημασιές. Ως αποτέλεσμα, το μοντέλο θα δυσκολευόταν να κατηγοριοποιήσει τις πατημασιές.
Θα μπορούσαμε να προσθέσουμε πρόσθετες (πραγματικές ή ψευδείς) φωτογραφίες πατημασιά στη συλλογή ή θα μπορούσαμε να διπλασιάσουμε τις τρέχουσες φωτογραφίες μας (π.χ. αντιγράφοντας και παραμορφώνοντάς τις για να τις κάνουμε τεχνητά μοναδικές).
Σε τι χρησιμεύει η επαύξηση δεδομένων στο παρόν;
Αιτήσεις για μάθηση μηχανής αναπτύσσονται και διαφοροποιούνται ταχέως, ειδικά στον τομέα της βαθιάς μάθησης. Οι προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης μπορούν να ξεπεραστούν μέσω τεχνικών αύξησης δεδομένων.
Η αύξηση δεδομένων μπορεί να βελτιώσει την απόδοση και τα αποτελέσματα των μοντέλων μηχανικής εκμάθησης προσθέτοντας νέα και διαφορετικά παραδείγματα σε σύνολα δεδομένων εκπαίδευσης.
Όταν το σύνολο δεδομένων είναι μεγάλο και επαρκές, ένα μοντέλο μηχανικής εκμάθησης αποδίδει καλύτερα και είναι πιο ακριβές. Για τα μοντέλα μηχανικής μάθησης, η συλλογή δεδομένων και η επισήμανση μπορεί να είναι χρονοβόρα και δαπανηρή.
Οι εταιρείες μπορούν να μειώσουν το λειτουργικό τους κόστος αλλάζοντας σύνολα δεδομένων και χρησιμοποιώντας στρατηγικές αύξησης δεδομένων.
Ο καθαρισμός των δεδομένων είναι ένα από τα στάδια στην ανάπτυξη ενός μοντέλου δεδομένων και είναι απαραίτητο για μοντέλα υψηλής ακρίβειας. Ωστόσο, το μοντέλο δεν θα είναι σε θέση να προβλέψει τις κατάλληλες εισροές από τον πραγματικό κόσμο, εάν η εκκαθάριση δεδομένων μειώσει την ικανότητα αναπαράστασης.
Τα μοντέλα μηχανικής μάθησης μπορούν να ενισχυθούν χρησιμοποιώντας προσεγγίσεις αύξησης δεδομένων, οι οποίες παράγουν αποκλίσεις που το μοντέλο θα μπορούσε να συναντήσει στον πραγματικό κόσμο.
Τύποι Επαύξησης Δεδομένων
Πραγματική αύξηση δεδομένων
Η αύξηση των πραγματικών δεδομένων συμβαίνει όταν προσθέτετε γνήσια, συμπληρωματικά δεδομένα σε ένα σύνολο δεδομένων. Αυτό μπορεί να κυμαίνεται από αρχεία κειμένου με πρόσθετα χαρακτηριστικά (για εικόνες με ετικέτα) έως εικόνες άλλων αντικειμένων συγκρίσιμων με το αρχικό αντικείμενο, ή ακόμα και εγγραφές του πραγματικού αντικειμένου.
Για παράδειγμα, προσθέτοντας μερικές ακόμη δυνατότητες σε ένα αρχείο εικόνας, ένα μοντέλο μηχανικής εκμάθησης μπορεί να εντοπίσει το στοιχείο πιο εύκολα.
Μπορεί να συμπεριληφθούν περισσότερα μεταδεδομένα για κάθε εικόνα (π.χ. το όνομα και η περιγραφή της), ώστε το μοντέλο τεχνητής νοημοσύνης μας να γνωρίζει περισσότερα για το τι αντιπροσωπεύει κάθε εικόνα προτού αρχίσει να εκπαιδεύεται σε αυτές τις φωτογραφίες.
Όταν έρθει η ώρα να κατηγοριοποιήσουμε τις φρέσκες φωτογραφίες σε μία από τις προκαθορισμένες κατηγορίες μας, όπως "γάτα" ή "σκύλος", το μοντέλο θα μπορούσε να ανιχνεύει καλύτερα τα στοιχεία που υπάρχουν σε μια εικόνα και να έχει συνολικά καλύτερη απόδοση.
Συνθετικά δεδομένα Αύξηση
Εκτός από την προσθήκη περισσότερων πραγματικών δεδομένων, μπορείτε επίσης να συνεισφέρετε συνθετικά δεδομένα ή τεχνητά δεδομένα που φαίνονται αυθεντικά.
Αυτό είναι επωφελές για δύσκολες εργασίες όπως η μεταφορά νευρωνικού στυλ, αλλά είναι επίσης καλό για κάθε σχεδιασμό, είτε χρησιμοποιείτε GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks) ή άλλες αρχιτεκτονικές βαθιάς νευρωνικών δικτύων.
Για παράδειγμα, αν θέλουμε να κατηγοριοποιήσουμε σωστά τα πατημασιά χωρίς να χρειάζεται να βγούμε έξω και να τραβήξουμε πολλές φωτογραφίες, θα μπορούσαμε να προσθέσουμε μερικές ψευδείς φωτογραφίες πατημασιά σε μια συλλογή εικόνων σκύλων.
Αυτή η μορφή αύξησης δεδομένων είναι ιδιαίτερα αποτελεσματική για τη βελτίωση της ακρίβειας του μοντέλου όταν η συλλογή δεδομένων είναι δύσκολη, δαπανηρή ή χρονοβόρα. Σε αυτήν την περίπτωση, επεκτείνουμε τεχνητά το σύνολο δεδομένων.
Ας υποθέσουμε ότι η αρχική μας ομάδα των 1000 φωτογραφιών ράτσας σκύλων περιέχει μόνο 5 εικόνες πατημασιά. Αντί να προσθέτουμε πρόσθετες πραγματικές φωτογραφίες πατημασιά από αληθινά σκυλιά, ας δημιουργήσουμε μια ψεύτικη κλωνοποιώντας μία από τις τρέχουσες και παραμορφώνοντάς την ελαφρώς, ώστε να φαίνεται ακόμα σαν πατημασιά.
Τεχνικές Αύξησης Δεδομένων
Οι προσεγγίσεις αύξησης δεδομένων συνεπάγονται μικρές τροποποιήσεις στα υπάρχοντα δεδομένα. Είναι το ίδιο με την αναδιατύπωση μιας δήλωσης. Μπορούμε να χωρίσουμε την αύξηση δεδομένων σε τρεις κατηγορίες:
Κείμενο
- Αντικατάσταση λέξης: Αυτή η προσέγγιση αύξησης δεδομένων περιλαμβάνει την αντικατάσταση των τρεχόντων όρων με συνώνυμα. Για παράδειγμα, «Αυτή η ταινία είναι ανόητη» μπορεί να γίνει «Αυτή η ταινία είναι ηλίθια».
- Ανακάτεμα προτάσεων/λέξεων: Αυτή η στρατηγική περιλαμβάνει εναλλαγή της αλληλουχίας φράσεων ή λέξεων διατηρώντας παράλληλα τη συνολική συνοχή.
- Χειρισμός σύνταξης-δέντρου: Αλλάζετε μια υπάρχουσα πρόταση ώστε να είναι γραμματικά ακριβής, ενώ χρησιμοποιείτε τους ίδιους όρους.
- Τυχαία διαγραφή: Αν και αυτή η στρατηγική παράγει άσχημη γραφή, είναι αποτελεσματική. Ως αποτέλεσμα, η γραμμή "Δεν θα αγοράσω αυτόν τον δίσκο επειδή είναι γρατσουνισμένος" γίνεται "Δεν θα το αγοράσω επειδή είναι γρατσουνισμένος". Η φράση είναι λιγότερο σαφής, αλλά παραμένει μια εύλογη προσθήκη.
- Πίσω Μετάφραση: Αυτή η προσέγγιση είναι και αποτελεσματική και ευχάριστη. Πάρτε μια δήλωση γραμμένη στη γλώσσα σας, μεταφράστε την σε άλλη γλώσσα και μετά μεταφράστε την ξανά στην αρχική σας γλώσσα.
εικόνες
- Φίλτρα πυρήνα: Αυτή η προσέγγιση οξύνει ή θολώνει μια εικόνα.
- Συνδυασμός εικόνων: Αν και μπορεί να φαίνεται περίεργο, μπορείτε να αναμίξετε φωτογραφίες.
- Διαγραφή τυχαία: Διαγράψτε ένα μικροσκοπικό τμήμα της τρέχουσας εικόνας.
- Γεωμετρικοί μετασχηματισμοί: Αυτή η προσέγγιση περιλαμβάνει, μεταξύ άλλων, αυθαίρετη αναστροφή, περιστροφή, περικοπή ή μετάφραση εικόνων.
- Αναστροφή εικόνας: Μπορείτε να αναστρέψετε μια εικόνα από οριζόντιο σε κατακόρυφο προσανατολισμό.
- Μετασχηματισμός χρωματικού χώρου: Μπορείτε να τροποποιήσετε τα χρωματικά κανάλια RGB ή να βελτιώσετε οποιοδήποτε τρέχον χρώμα.
- Η επανακλιμάκωση είναι η διαδικασία προσαρμογής της οπτικής κλίμακας. Έχετε την επιλογή κλιμάκωσης μέσα ή έξω. Όταν κλιμακώνεστε προς τα μέσα, η εικόνα γίνεται μικρότερη από το αρχικό μέγεθος. Η εικόνα θα είναι μεγαλύτερη από την αρχική, αν την κλιμακώσετε προς τα έξω.
Ήχου
- Pitch: Αυτή η προσέγγιση περιλαμβάνει αλλαγή του τόνου του ήχου.
- Αλλαγή ταχύτητας: Αλλάξτε την ταχύτητα του αρχείου ήχου ή της εγγραφής.
- More Noise: Μπορείτε να προσθέσετε περισσότερο θόρυβο στο αρχείο ήχου.
Χρήση θήκης
Η ιατρική απεικόνιση είναι μια εξέχουσα περίπτωση χρήσης για την αύξηση δεδομένων αυτή τη στιγμή. Οι συλλογές ιατρικών εικόνων είναι μικρές και η κοινή χρήση δεδομένων είναι δύσκολη λόγω κανόνων και ανησυχιών για το απόρρητο.
Επιπλέον, τα σύνολα δεδομένων είναι πολύ πιο περιορισμένα στην περίπτωση ασυνήθιστων διαταραχών. Οι εταιρείες ιατρικής απεικόνισης χρησιμοποιούν την αύξηση δεδομένων για να διαφοροποιήσουν τα σύνολα δεδομένων τους.
Προκλήσεις
Η επεκτασιμότητα, τα διαφορετικά σύνολα δεδομένων και η συνάφεια είναι μερικά από τα ζητήματα που πρέπει να επιλυθούν προκειμένου να αναπτυχθούν αποτελεσματικές τεχνικές αύξησης δεδομένων.
Όσον αφορά την επεκτασιμότητα, τα επαυξημένα δεδομένα πρέπει να είναι επεκτάσιμα, ώστε να μπορούν να τα χρησιμοποιούν πολλά διαφορετικά μοντέλα. Θα θελήσετε να βεβαιωθείτε ότι αυτό μπορεί να αντιγραφεί για χρήση σε μελλοντικά μοντέλα, καθώς η εγκατάσταση ενός συστήματος αύξησης δεδομένων που δημιουργεί μεγάλο όγκο σχετικών, πολύτιμων, βελτιωμένων δεδομένων μπορεί να πάρει κάποιο χρόνο.
Όσον αφορά την ετερογένεια, διάφορα σύνολα δεδομένων έχουν ξεχωριστά χαρακτηριστικά που πρέπει να ληφθούν υπόψη κατά την ανάπτυξη επαυξημένων δεδομένων. Για να αναπτυχθούν κατάλληλα βελτιωμένα δεδομένα, πρέπει να χρησιμοποιηθούν οι ιδιότητες κάθε συνόλου δεδομένων.
Με άλλα λόγια, η αύξηση δεδομένων θα διαφέρει μεταξύ συνόλων δεδομένων και περιπτώσεων χρήσης.
Τέλος, για να διασφαλιστεί ότι τα πλεονεκτήματα των αυξημένων δεδομένων υπερβαίνουν τυχόν κινδύνους, τα επαυξημένα δεδομένα θα πρέπει να αξιολογηθούν χρησιμοποιώντας κατάλληλες μετρήσεις πριν χρησιμοποιηθούν από μοντέλα μηχανικής εκμάθησης.
Για παράδειγμα, η παρουσία σημαντικού θορύβου παρασκηνίου ή άσχετων στοιχείων σε επαυξημένα δεδομένα βάσει εικόνας θα μπορούσε να έχει αρνητικό αντίκτυπο στην απόδοση του μοντέλου.
Συμπέρασμα
Τελικά, είτε προσπαθείτε να προβλέψετε την απώλεια, είτε να εντοπίσετε οικονομική απάτη είτε να κατασκευάσετε καλύτερα ταξινόμηση εικόνας μοντέλα, η αύξηση δεδομένων είναι ένας κρίσιμος τρόπος για τη δημιουργία πιο ακριβών, ισχυρών μοντέλων.
Μέσω μιας ανώτερης διαδικασίας εκπαίδευσης, η απλή προεπεξεργασία και η αύξηση δεδομένων μπορούν ακόμη και να βοηθήσουν τις ομάδες στην ανάπτυξη μοντέλων αιχμής.
Οι επιχειρήσεις μπορούν να χρησιμοποιήσουν την αύξηση δεδομένων για να μειώσουν τον χρόνο που αφιερώνεται στην προετοιμασία των δεδομένων εκπαίδευσης και να δημιουργήσουν μοντέλα μηχανικής εκμάθησης που είναι πιο ακριβή και πιο γρήγορα.
Επεκτείνοντας την ποσότητα των σχετικών δεδομένων στο σύνολο δεδομένων, η αύξηση δεδομένων μπορεί επίσης να ωφελήσει μοντέλα μηχανικής εκμάθησης που έχουν ήδη πολλά δεδομένα.
Αφήστε μια απάντηση