Πίνακας περιεχομένων[Κρύβω][Προβολή]
Πολλοί οραματίζονται ρομπότ όπως αυτά σε ταινίες επιστημονικής φαντασίας που μιμούνται ή και ξεπερνούν την ανθρώπινη διάνοια όταν ακούν τους όρους τεχνητή νοημοσύνη, βαθιά μάθηση και μηχανική μάθηση.
Άλλοι πιστεύουν ότι αυτές οι συσκευές απλώς λαμβάνουν πληροφορίες και μαθαίνουν από αυτές από μόνες τους. Λοιπόν… Είναι λίγο παραπλανητικό. Η επισήμανση δεδομένων είναι η μέθοδος που χρησιμοποιείται για την εκπαίδευση των υπολογιστών ώστε να γίνονται «έξυπνοι», καθώς έχουν περιορισμένες δυνατότητες χωρίς ανθρώπινη οδηγία.
Για να εκπαιδεύσουμε τον υπολογιστή να ενεργεί «έξυπνα», εισάγουμε τα δεδομένα σε διάφορες μορφές και του διδάσκουμε διάφορες στρατηγικές με τη βοήθεια της επισήμανσης δεδομένων.
Τα σύνολα δεδομένων πρέπει να σχολιάζονται ή να επισημαίνονται με πολλές μεταθέσεις των ίδιων πληροφοριών ως μέρος της επιστήμης που βασίζεται στην επισήμανση δεδομένων.
Η προσπάθεια και η αφοσίωση που καταβάλλεται στο τελικό προϊόν είναι αξιέπαινη, ακόμα κι όταν εκπλήσσει και κάνει την καθημερινότητά μας πιο εύκολη.
Μάθετε σχετικά με την επισήμανση δεδομένων σε αυτό το άρθρο για να μάθετε τι είναι, πώς λειτουργεί, διαφορετικούς τύπους ετικετών δεδομένων, εμπόδια και πολλά άλλα.
Λοιπόν, τι είναι η επισήμανση δεδομένων;
In μάθηση μηχανής, το διαμέτρημα και η φύση των δεδομένων εισόδου υπαγορεύουν το διαμέτρημα και τη φύση της εξόδου. Η ακρίβεια του μοντέλου AI σας ενισχύεται από το διαμέτρημα των δεδομένων που χρησιμοποιούνται για την εκπαίδευσή του.
Με άλλους όρους, η επισήμανση δεδομένων είναι η πράξη της επισήμανσης ή του σχολιασμού διαφορετικών μη δομημένων ή δομημένων συνόλων δεδομένων προκειμένου να διδαχθεί ένας υπολογιστής να εντοπίζει διαφορές και μοτίβα μεταξύ τους.
Μια απεικόνιση θα σας βοηθήσει να το κατανοήσετε. Είναι απαραίτητο να επισημάνετε κάθε κόκκινο φως σε μια ποικιλία εικόνων για να μάθει ο υπολογιστής ότι το κόκκινο φως είναι ένα σήμα για διακοπή.
Με βάση αυτό, η τεχνητή νοημοσύνη αναπτύσσει έναν αλγόριθμο που, σε κάθε περίπτωση, θα ερμηνεύει ένα κόκκινο φως ως ένδειξη στάσης. Μια άλλη απεικόνιση είναι η δυνατότητα κατηγοριοποίησης διαφορετικών συνόλων δεδομένων υπό τις επικεφαλίδες τζαζ, ποπ, ροκ, κλασικής και άλλων για να διαχωρίζονται διαφορετικά μουσικά είδη.
Για να το θέσω απλά, η επισήμανση δεδομένων στη μηχανική μάθηση αναφέρεται στη διαδικασία ανίχνευσης δεδομένων χωρίς ετικέτα (όπως φωτογραφίες, αρχεία κειμένου, βίντεο κ.λπ.) και προσθήκης μιας ή περισσότερων σχετικών ετικετών για να προσφέρει το πλαίσιο, έτσι ώστε ένα μοντέλο μηχανικής μάθησης να μπορεί να μάθει από το.
Οι ετικέτες θα μπορούσαν να πουν, για παράδειγμα, εάν μια ακτινογραφία δείχνει έναν όγκο ή όχι, ποιες λέξεις ειπώθηκαν σε ένα ηχητικό κλιπ ή εάν μια εικόνα ενός πουλιού ή ενός αυτοκινήτου.
Η επισήμανση δεδομένων είναι απαραίτητη για πολλές περιπτώσεις χρήσης, συμπεριλαμβανομένης της αναγνώρισης ομιλίας, όραση υπολογιστήκαι επεξεργασία φυσικής γλώσσας.
Επισήμανση δεδομένων: Γιατί είναι σημαντικό;
Πρώτον, η τέταρτη βιομηχανική επανάσταση επικεντρώνεται στην ικανότητα των μηχανών εκπαίδευσης. Ως αποτέλεσμα, κατατάσσεται μεταξύ των σημαντικότερων εξελίξεων λογισμικού του παρόντος.
Πρέπει να δημιουργηθεί το σύστημα μηχανικής εκμάθησης, το οποίο περιλαμβάνει την επισήμανση δεδομένων. Καθορίζει τις δυνατότητες του συστήματος. Δεν υπάρχει σύστημα εάν τα δεδομένα δεν έχουν ετικέτα.
Οι δυνατότητες με την επισήμανση δεδομένων περιορίζονται μόνο από τη δημιουργικότητά σας. Οποιαδήποτε ενέργεια μπορείτε να αντιστοιχίσετε στο σύστημα θα επαναληφθεί με νέες πληροφορίες.
Αυτό σημαίνει ότι ο τύπος, η ποσότητα και η ποικιλία των δεδομένων που μπορείτε να διδάξετε στο σύστημα θα καθορίσουν την ευφυΐα και τις δυνατότητές του.
Το δεύτερο είναι ότι η εργασία επισήμανσης δεδομένων προηγείται της εργασίας της επιστήμης δεδομένων. Συνεπώς, η επισήμανση δεδομένων είναι απαραίτητη για την επιστήμη των δεδομένων. Οι αποτυχίες και τα λάθη στην επισήμανση δεδομένων επηρεάζουν την επιστήμη των δεδομένων. Εναλλακτικά, για να χρησιμοποιήσουμε ένα πιο σκληρό κλισέ, «σκουπίδια, σκουπίδια».
Τρίτον, το The Art of Data Labeling υποδηλώνει μια αλλαγή στον τρόπο με τον οποίο οι άνθρωποι προσεγγίζουν την ανάπτυξη συστημάτων AI. Ταυτόχρονα βελτιώνουμε τη δομή της επισήμανσης δεδομένων για να επιτύχουμε καλύτερα τους στόχους μας αντί να προσπαθούμε απλώς να βελτιώσουμε τις μαθηματικές τεχνικές.
Ο σύγχρονος αυτοματισμός βασίζεται σε αυτό και είναι το κέντρο του μετασχηματισμού AI που βρίσκεται σε εξέλιξη. Τώρα περισσότερο από ποτέ, η εργασία γνώσης μηχανοποιείται.
Πώς λειτουργεί η επισήμανση δεδομένων;
Κατά τη διαδικασία επισήμανσης δεδομένων ακολουθείται η ακόλουθη χρονολογική σειρά.
Συλλογή πληροφοριών
Τα δεδομένα είναι ο ακρογωνιαίος λίθος κάθε προσπάθειας μηχανικής μάθησης. Το αρχικό στάδιο της επισήμανσης δεδομένων συνίσταται στη συλλογή της κατάλληλης ποσότητας ακατέργαστων δεδομένων σε διαφορετικές μορφές.
Η συλλογή δεδομένων μπορεί να λάβει μία από τις δύο μορφές: είτε προέρχεται από εσωτερικές πηγές που χρησιμοποιεί η επιχείρηση είτε προέρχεται από εξωτερικές πηγές προσβάσιμες στο κοινό.
Δεδομένου ότι είναι σε ακατέργαστη μορφή, αυτά τα δεδομένα πρέπει να καθαριστούν και να υποβληθούν σε επεξεργασία πριν δημιουργηθούν οι ετικέτες δεδομένων δεδομένων. Στη συνέχεια, το μοντέλο εκπαιδεύεται χρησιμοποιώντας αυτά τα καθαρισμένα και προεπεξεργασμένα δεδομένα. Τα ευρήματα θα είναι πιο ακριβή όσο μεγαλύτερο και πιο ποικίλο είναι το σύνολο δεδομένων.
Σχολιασμός δεδομένων
Μετά τον καθαρισμό των δεδομένων, οι ειδικοί τομέα εξετάζουν τα δεδομένα και εφαρμόζουν ετικέτες χρησιμοποιώντας διάφορες τεχνικές επισήμανσης δεδομένων. Το μοντέλο έχει ένα ουσιαστικό πλαίσιο που μπορεί να χρησιμοποιηθεί ως βασική αλήθεια.
Αυτές είναι οι μεταβλητές που θέλετε να προβλέψει το μοντέλο, όπως οι φωτογραφίες.
Διασφάλιση ποιότητας
Η ποιότητα των δεδομένων, τα οποία πρέπει να είναι αξιόπιστα, ακριβή και συνεπή, είναι κρίσιμη για την επιτυχία της εκπαίδευσης μοντέλων ML. Πρέπει να πραγματοποιούνται τακτικές δοκιμές QA προκειμένου να διασφαλίζεται η ακριβής και σωστή επισήμανση των δεδομένων.
Είναι δυνατό να αξιολογηθεί η ακρίβεια αυτών των σχολιασμών με τη χρήση τεχνικών QA όπως το Consensus και το Cronbach's alpha test. Η ορθότητα των αποτελεσμάτων βελτιώνεται σημαντικά με τις τακτικές επιθεωρήσεις QA.
Εκπαίδευση και δοκιμή μοντέλων
Οι προαναφερθείσες διαδικασίες έχουν νόημα μόνο εάν τα δεδομένα ελέγχονται για ορθότητα. Η τεχνική θα δοκιμαστεί συμπεριλαμβάνοντας το μη δομημένο σύνολο δεδομένων για να ελεγχθεί εάν αποφέρει τα επιθυμητά αποτελέσματα.
Στρατηγικές επισήμανσης δεδομένων
Η επισήμανση δεδομένων είναι μια επίπονη διαδικασία που απαιτεί προσοχή στη λεπτομέρεια. Η μέθοδος που χρησιμοποιείται για τον σχολιασμό δεδομένων θα ποικίλλει ανάλογα με τη δήλωση ζητήματος, πόσα δεδομένα πρέπει να επισημανθούν, πόσο περίπλοκα είναι τα δεδομένα και το στυλ.
Ας δούμε μερικές από τις επιλογές που έχει η επιχείρησή σας, ανάλογα με τους πόρους που διαθέτει και το χρόνο που διαθέτει.
Εσωτερική επισήμανση δεδομένων
Όπως υποδηλώνει το όνομα, η εσωτερική επισήμανση δεδομένων γίνεται από ειδικούς σε μια εταιρεία. Όταν έχετε αρκετό χρόνο, προσωπικό και οικονομικούς πόρους, είναι η καλύτερη επιλογή, καθώς εξασφαλίζει την πιο ακριβή σήμανση. Ωστόσο, κινείται αργά.
Outsourcing
Μια άλλη επιλογή για να ολοκληρώσετε τα πράγματα είναι να προσλάβετε ελεύθερους επαγγελματίες για εργασίες επισήμανσης δεδομένων που μπορείτε να βρείτε σε διάφορες αγορές αναζήτησης εργασίας και ανεξάρτητων επαγγελματιών όπως το Upwork.
Η εξωτερική ανάθεση είναι μια γρήγορη επιλογή για τη λήψη υπηρεσιών σήμανσης δεδομένων, ωστόσο, η ποιότητα μπορεί να υποφέρει, παρόμοια με την προηγούμενη μέθοδο.
crowdsourcing
Μπορείτε να συνδεθείτε ως αιτών και να διανείμετε διάφορες εργασίες επισήμανσης σε διαθέσιμους εργολάβους σε εξειδικευμένες πλατφόρμες crowdsourcing όπως Αμαζόν Μηχανολόγος Τούρκος (ΜΤουρκ).
Η μέθοδος, αν και κάπως γρήγορη και ανέξοδη, δεν μπορεί να παρέχει σχολιασμένα δεδομένα καλής ποιότητας.
Αυτόματη επισήμανση δεδομένων.
Η διαδικασία μπορεί να υποβοηθηθεί από λογισμικό, εκτός από το να εκτελείται χειροκίνητα. Χρησιμοποιώντας την προσέγγιση ενεργητικής μάθησης, οι ετικέτες μπορούν να βρεθούν αυτόματα και να προστεθούν στο σύνολο δεδομένων εκπαίδευσης.
Στην ουσία, οι ειδικοί στον άνθρωπο αναπτύσσουν ένα μοντέλο αυτόματης ετικέτας AI για να επισημαίνουν μη επισημασμένα, ακατέργαστα δεδομένα. Στη συνέχεια αποφασίζουν εάν το μοντέλο εφάρμοσε κατάλληλα την επισήμανση. Οι άνθρωποι διορθώνουν τα λάθη μετά από μια αποτυχία και επανεκπαιδεύουν τον αλγόριθμο.
Ανάπτυξη συνθετικών δεδομένων.
Στη θέση των δεδομένων του πραγματικού κόσμου, συνθετικά δεδομένα είναι ένα επισημασμένο σύνολο δεδομένων που κατασκευάστηκε τεχνητά. Παράγεται από αλγόριθμους ή προσομοιώσεις υπολογιστή και χρησιμοποιείται συχνά εκπαιδεύστε μοντέλα μηχανικής μάθησης.
Τα συνθετικά δεδομένα είναι μια εξαιρετική απάντηση στα θέματα σπανιότητας και ποικιλίας δεδομένων στο πλαίσιο των διαδικασιών επισήμανσης. Η δημιουργία του συνθετικά δεδομένα από την αρχή προσφέρει λύση.
Η δημιουργία τρισδιάστατων ρυθμίσεων με τα στοιχεία και τον περιβάλλοντα χώρο του μοντέλου πρέπει να μπορεί να αναγνωρίζεται από τους προγραμματιστές δεδομένων. Μπορούν να αποδοθούν όσα συνθετικά δεδομένα απαιτούνται για το έργο.
Προκλήσεις της επισήμανσης δεδομένων
Απαιτεί περισσότερο χρόνο και προσπάθεια
Εκτός από την πρόκληση της λήψης μεγάλων ποσοτήτων δεδομένων (ειδικά για βιομηχανίες υψηλής εξειδίκευσης όπως η υγειονομική περίθαλψη), η χειροκίνητη επισήμανση κάθε στοιχείου δεδομένων είναι τόσο απαιτητική όσο και επίπονη, απαιτώντας τη βοήθεια ανθρώπινων ετικετών.
Σχεδόν το 80% του χρόνου που αφιερώνεται σε ένα έργο σε ολόκληρο τον κύκλο ανάπτυξης ML δαπανάται για την προετοιμασία δεδομένων, η οποία περιλαμβάνει την επισήμανση.
Πιθανότητα ασυνέπειας
Τις περισσότερες φορές, η διασταυρούμενη επισήμανση, η οποία συμβαίνει όταν πολλοί άνθρωποι επισημαίνουν τα ίδια σύνολα δεδομένων, οδηγεί σε μεγαλύτερη ακρίβεια.
Ωστόσο, επειδή τα άτομα έχουν μερικές φορές διαφορετικούς βαθμούς ικανότητας, τα πρότυπα επισήμανσης και οι ίδιες οι ετικέτες μπορεί να είναι ασυνεπή, κάτι που είναι ένα άλλο ζήτημα, είναι πιθανό δύο ή περισσότεροι σχολιαστές να διαφωνούν σε ορισμένες ετικέτες.
Για παράδειγμα, ένας ειδικός θα μπορούσε να αξιολογήσει μια κριτική ξενοδοχείου ως ευνοϊκή, ενώ ένας άλλος θα τη θεωρούσε σαρκαστική και θα της αποδώσει χαμηλή βαθμολογία.
Πεδίο γνώσης
Θα νιώσετε την ανάγκη να προσλάβετε ετικέτες με εξειδικευμένες γνώσεις στον κλάδο για ορισμένους τομείς.
Οι σχολιαστές χωρίς τις απαραίτητες γνώσεις τομέα, για παράδειγμα, θα δυσκολευτούν να προσθέσουν κατάλληλα ετικέτες στα στοιχεία ενώ δημιουργούν μια εφαρμογή ML για τον τομέα της υγειονομικής περίθαλψης.
Επιρρέπεια σε λάθη
Η χειροκίνητη επισήμανση υπόκειται σε ανθρώπινα λάθη, ανεξάρτητα από το πόσο ενημερωμένοι και προσεκτικοί είναι οι υπεύθυνοι ετικετών σας. Λόγω του γεγονότος ότι οι σχολιαστές εργάζονται συχνά με τεράστια σύνολα ακατέργαστων δεδομένων, αυτό είναι αναπόφευκτο.
Φανταστείτε ένα άτομο να σχολιάζει 100,000 εικόνες με έως και 10 διαφορετικά πράγματα.
Κοινοί τύποι επισήμανσης δεδομένων
Computer Vision
Για να αναπτύξετε το εκπαιδευτικό σας σύνολο, πρέπει πρώτα να επισημάνετε ετικέτες σε εικόνες, εικονοστοιχεία ή βασικά σημεία ή να ορίσετε ένα όριο που περικλείει πλήρως μια ψηφιακή εικόνα, γνωστό ως πλαίσιο οριοθέτησης, κατά την κατασκευή ενός συστήματος όρασης υπολογιστή.
Οι φωτογραφίες μπορούν να κατηγοριοποιηθούν με διάφορους τρόπους, συμπεριλαμβανομένου του περιεχομένου (αυτό που είναι στην πραγματικότητα στην ίδια την εικόνα) και της ποιότητας (όπως λήψεις προϊόντος έναντι τρόπου ζωής).
Οι εικόνες μπορούν επίσης να χωριστούν σε τμήματα σε επίπεδο pixel. Το μοντέλο όρασης υπολογιστή που αναπτύχθηκε χρησιμοποιώντας αυτά τα δεδομένα εκπαίδευσης μπορεί στη συνέχεια να χρησιμοποιηθεί για αυτόματη ταξινόμηση εικόνων, προσδιορισμό της θέσης των αντικειμένων, επισήμανση βασικών περιοχών σε μια εικόνα και τμηματοποίηση εικόνων.
Επεξεργασία φυσικής γλώσσας
Προτού δημιουργήσετε το σύνολο δεδομένων εκπαίδευσης επεξεργασίας φυσικής γλώσσας, πρέπει να επιλέξετε με μη αυτόματο τρόπο σχετικά τμήματα κειμένου ή να ταξινομήσετε το υλικό με καθορισμένες ετικέτες.
Για παράδειγμα, θα μπορούσατε να θέλετε να αναγνωρίζετε μοτίβα ομιλίας, να ταξινομείτε σωστά ουσιαστικά όπως μέρη και άτομα και να αναγνωρίζετε κείμενο σε εικόνες, αρχεία PDF ή άλλα μέσα. Ίσως θελήσετε επίσης να προσδιορίσετε το συναίσθημα ή την πρόθεση ενός θαμπώματος κειμένου.
Δημιουργήστε πλαίσια οριοθέτησης γύρω από το κείμενο στο σύνολο δεδομένων εκπαίδευσης για να το πετύχετε και, στη συνέχεια, μεταγράψτε το με μη αυτόματο τρόπο.
Οπτική αναγνώριση χαρακτήρων, η αναγνώριση ονόματος οντότητας και η ανάλυση συναισθήματος εκτελούνται όλα χρησιμοποιώντας μοντέλα επεξεργασίας φυσικής γλώσσας.
Επεξεργασία ήχου
Η επεξεργασία ήχου μετατρέπει όλους τους τύπους ήχων σε μια δομημένη μορφή, ώστε να μπορούν να χρησιμοποιηθούν στη μηχανική εκμάθηση, συμπεριλαμβανομένης της ομιλίας, των θορύβων των ζώων (γαβγίσματα, σφυρίχτρες ή κελαηδίσματα) και θορύβους κτιρίου (σπασμένα γυαλιά, σάρωση ή σειρήνες).
Συχνά, για να μπορέσετε να χειριστείτε τον ήχο, πρέπει να τον μετατρέψετε χειροκίνητα σε κείμενο. Στη συνέχεια, κατηγοριοποιώντας και προσθέτοντας ετικέτες στον ήχο, μπορείτε να μάθετε περισσότερες σε βάθος πληροφορίες σχετικά με αυτό. Τα δικα σου σύνολο δεδομένων εκπαίδευσης είναι αυτός ο διαβαθμισμένος ήχος.
Συμπέρασμα
Συμπερασματικά, η αναγνώριση των δεδομένων σας είναι ένα κρίσιμο μέρος της εκπαίδευσης οποιουδήποτε μοντέλου AI. Ένας οργανισμός με γρήγορους ρυθμούς, ωστόσο, απλά δεν έχει την πολυτέλεια να αφιερώσει χρόνο για να το κάνει χειροκίνητα, επειδή είναι χρονοβόρος και ενεργοβόρος.
Επιπλέον, είναι μια διαδικασία που είναι επιρρεπής σε ανακρίβεια και δεν υπόσχεται μεγάλη ακρίβεια. Δεν χρειάζεται να είναι τόσο δύσκολο, που είναι εξαιρετικά νέα.
Οι σημερινές τεχνολογίες σήμανσης δεδομένων επιτρέπουν τη συνεργασία μεταξύ ανθρώπων και μηχανών για την παροχή ακριβών και χρήσιμων δεδομένων για μια ποικιλία εφαρμογών μηχανικής εκμάθησης.
Αφήστε μια απάντηση