Πίνακας περιεχομένων[Κρύβω][Προβολή]
Μία από τις απλούστερες αλλά και πιο ενδιαφέρουσες ιδέες στη βαθιά μάθηση είναι η ανίχνευση αντικειμένων. Η θεμελιώδης ιδέα είναι να διαιρέσουμε κάθε στοιχείο σε διαδοχικές κατηγορίες που αντιπροσωπεύουν συγκρίσιμα χαρακτηριστικά και στη συνέχεια να σχεδιάσουμε ένα πλαίσιο γύρω από αυτό.
Αυτά τα διακριτικά χαρακτηριστικά μπορεί να είναι τόσο απλά όσο η μορφή ή το χρώμα, γεγονός που βοηθά στην ικανότητά μας να τα κατηγοριοποιούμε.
Οι εφαρμογές του Ανίχνευση αντικειμένων χρησιμοποιούνται ευρέως στις ιατρικές επιστήμες, την αυτόνομη οδήγηση, την άμυνα και τον στρατό, τη δημόσια διοίκηση και πολλούς άλλους τομείς χάρη στις σημαντικές βελτιώσεις στην όραση υπολογιστών και την επεξεργασία εικόνας.
Εδώ έχουμε το MMDetection, ένα φανταστικό σύνολο εργαλείων ανίχνευσης αντικειμένων ανοιχτού κώδικα χτισμένο στο Pytorch. Σε αυτό το άρθρο, θα εξετάσουμε λεπτομερώς το MMDection, θα το κάνουμε πράξη, θα συζητήσουμε τα χαρακτηριστικά του και πολλά άλλα.
Τι είναι Ανίχνευση MMD?
Η Ανίχνευση MMD Η εργαλειοθήκη δημιουργήθηκε ως βάση κώδικα Python ειδικά για προβλήματα που αφορούν την αναγνώριση αντικειμένων και την τμηματοποίηση στιγμιότυπων.
Χρησιμοποιείται η υλοποίηση PyTorch και δημιουργείται με αρθρωτό τρόπο. Για την αναγνώριση αντικειμένων και την τμηματοποίηση παρουσιών, ένα ευρύ φάσμα αποτελεσματικών μοντέλων έχει συγκεντρωθεί σε μια ποικιλία μεθοδολογιών.
Επιτρέπει αποτελεσματικά συμπεράσματα και γρήγορη εκπαίδευση. Από την άλλη πλευρά, η εργαλειοθήκη περιλαμβάνει βάρη για περισσότερα από 200 προεκπαιδευμένα δίκτυα, καθιστώντας τη γρήγορη λύση στο πεδίο αναγνώρισης αντικειμένων.
Με τη δυνατότητα προσαρμογής των τρεχουσών τεχνικών ή δημιουργίας νέου ανιχνευτή χρησιμοποιώντας τις διαθέσιμες μονάδες, το MMDetection λειτουργεί ως σημείο αναφοράς.
Το βασικό χαρακτηριστικό της εργαλειοθήκης είναι ότι περιλαμβάνει απλά, αρθρωτά μέρη από ένα κανονικό ανίχνευση αντικειμένων πλαίσιο που μπορεί να χρησιμοποιηθεί για τη δημιουργία μοναδικών αγωγών ή μοναδικών μοντέλων.
Οι δυνατότητες συγκριτικής αξιολόγησης αυτού του κιτ εργαλείων καθιστούν εύκολη τη δημιουργία ενός νέου πλαισίου ανιχνευτή πάνω από ένα υπάρχον πλαίσιο και τη σύγκριση της απόδοσής του.
Χαρακτηριστικά
- Δημοφιλή και σύγχρονα πλαίσια ανίχνευσης, όπως Faster RCNN, Mask RCNN, RetinaNet κ.λπ., υποστηρίζονται άμεσα από το κιτ εργαλείων.
- Χρήση 360+ προεκπαιδευμένων μοντέλων για τελειοποίηση (ή εκ νέου εκπαίδευση).
- Για γνωστά σύνολα δεδομένων όρασης, συμπεριλαμβανομένων των COCO, Cityscapes, LVIS και PASCAL VOC.
- Στις GPU, εκτελούνται όλες οι βασικές λειτουργίες bbox και mask. Άλλες βάσεις κωδικών, όπως το Detectron2, το maskrcnn-benchmark και το SimpleDet, μπορούν να εκπαιδευτούν με ταχύτερους ρυθμούς ή ισοδύναμους με αυτόν.
- Οι ερευνητές αναλύουν το ανίχνευση αντικειμένων πλαίσιο σε πολλές ενότητες, οι οποίες στη συνέχεια μπορούν να συνδυαστούν για να δημιουργήσουν ένα μοναδικό σύστημα ανίχνευσης αντικειμένων.
Αρχιτεκτονική MMDetection
Το MMDetection καθορίζει μια γενική σχεδίαση που μπορεί να εφαρμοστεί σε οποιοδήποτε μοντέλο, καθώς πρόκειται για μια εργαλειοθήκη με μια ποικιλία από προκατασκευασμένα μοντέλα, καθένα από τα οποία έχει τη δική του αρχιτεκτονική. Τα ακόλουθα στοιχεία συνθέτουν αυτή τη συνολική αρχιτεκτονική:
- Σπονδυλική στήλη: Το Backbone, όπως ένα ResNet-50 χωρίς το τελικό πλήρως συνδεδεμένο επίπεδο, είναι το στοιχείο που μετατρέπει μια εικόνα σε χάρτες χαρακτηριστικών.
- Λαιμός: Ο λαιμός είναι το τμήμα που συνδέει τη ραχοκοκαλιά με τα κεφάλια. Στους χάρτες ακατέργαστων χαρακτηριστικών του κορμού, κάνει ορισμένες προσαρμογές ή αναδιαμορφώσεις. Το Feature Pyramid Network είναι μία απεικόνιση (FPN).
- Πυκνό Κεφάλι (AnchorHead/AnchorFreeHead): Είναι το στοιχείο που λειτουργεί σε πυκνές περιοχές χαρτών χαρακτηριστικών, όπως AnchorHead και AnchorFreeHead, όπως RPNHead, RetinaHead και FCOSHead.
- RoIExtractor: Με τη χρήση τελεστών τύπου RoIPooling, είναι η ενότητα που αντλεί χαρακτηριστικά RoIwise από έναν μεμονωμένο ή από μια συλλογή χαρτών χαρακτηριστικών. Το δείγμα του SingleRoIExtractor εξάγει χαρακτηριστικά RoI από το αντίστοιχο επίπεδο των πυραμίδων χαρακτηριστικών.
- RoIHead (BBoxHead/MaskHead): Είναι το τμήμα του συστήματος που χρησιμοποιεί χαρακτηριστικά RoI ως είσοδο και δημιουργεί προβλέψεις για συγκεκριμένες εργασίες που βασίζονται σε RoI, όπως ταξινόμηση/παλίνδρομο πλαισίου οριοθέτησης και πρόβλεψη μάσκας.
Η κατασκευή ανιχνευτών μονοβάθμιας και δύο σταδίων απεικονίζεται χρησιμοποιώντας τις προαναφερθείσες έννοιες. Μπορούμε να αναπτύξουμε τις δικές μας διαδικασίες απλά κατασκευάζοντας μερικά φρέσκα εξαρτήματα και συνδυάζοντας κάποια υπάρχοντα.
Λίστα μοντέλων που περιλαμβάνονται στο MMDection
Το MMDetection παρέχει κορυφαίες βάσεις κωδικών για πολλά γνωστά μοντέλα και λειτουργικές μονάδες. Τα μοντέλα που έχουν κατασκευαστεί προηγουμένως και οι προσαρμόσιμες μέθοδοι που μπορούν να χρησιμοποιηθούν με την εργαλειοθήκη MMDetection παρατίθενται παρακάτω. Η λίστα συνεχίζει να μεγαλώνει καθώς προστίθενται περισσότερα μοντέλα και μέθοδοι.
- Γρήγορο R-CNN
- Ταχύτερο R-CNN
- Μάσκα R-CNN
- RetinaNet
- DCN
- DCNv2
- Cascade R-CNN
- M2Det
- ΕΠΣΕ
- ScratchDet
- Δικέφαλος R-CNN
- Πλέγμα R-CNN
- FSAF
- Libra R-CNN
- GCNet
- HRNet
- Βαθμολογία μάσκας R-CNN
- FCOS
- SSD
- R-FCN
- Προπόνηση Μικτής Ακρίβειας
- Τυποποίηση βάρους
- Hybrid Task Cascade
- Καθοδηγούμενη Αγκύρωση
- Γενικευμένη Προσοχή
Δόμηση μοντέλου ανίχνευσης αντικειμένων με χρήση MMDetection
Σε αυτό το σεμινάριο, θα είμαστε το σημειωματάριο συνεργασίας της Google επειδή είναι εύκολο στη ρύθμιση και τη χρήση του.
Εγκατάσταση
Για να εγκαταστήσουμε όλα όσα χρειαζόμαστε, θα εγκαταστήσουμε πρώτα τις απαραίτητες βιβλιοθήκες και θα κλωνοποιήσουμε το έργο MMdetection GitHub.
Εισαγωγικό φον
Το περιβάλλον για το έργο μας θα εισαχθεί τώρα από το αποθετήριο.
Εισαγωγή βιβλιοθηκών και ανίχνευση MM
Τώρα θα εισάγουμε τις απαιτούμενες βιβλιοθήκες, μαζί με την ανίχνευση MM φυσικά.
Κατεβάστε τα προεκπαιδευμένα σημεία ελέγχου
Τα προεκπαιδευμένα σημεία ελέγχου μοντέλων από το MMdetection θα πρέπει τώρα να ληφθούν για περαιτέρω προσαρμογή και συμπεράσματα.
Μοντέλο κτιρίου
Τώρα θα κατασκευάσουμε το μοντέλο και θα εφαρμόσουμε τα σημεία ελέγχου στο σύνολο δεδομένων.
Συμπερασματικά ο ανιχνευτής
Τώρα που το μοντέλο έχει κατασκευαστεί και φορτωθεί σωστά, ας ελέγξουμε πόσο εξαιρετικό είναι. Χρησιμοποιούμε τον ανιχνευτή συμπερασμάτων API υψηλού επιπέδου της MMDetection. Αυτό το API σχεδιάστηκε για να διευκολύνει τη διαδικασία εξαγωγής συμπερασμάτων.
Αποτέλεσμα
Ας ρίξουμε μια ματιά στα αποτελέσματα.
Συμπέρασμα
Συμπερασματικά, η εργαλειοθήκη MMDetection ξεπερνά τις βάσεις κώδικα που κυκλοφόρησαν πρόσφατα, όπως το SimpleDet, το Detectron και το Maskrcnn-benchmark. Με μια μεγάλη συλλογή μοντέλων,
Το MMDection είναι πλέον τεχνολογία αιχμής. Το MMDetection ξεπερνά όλες τις άλλες βάσεις κωδικών όσον αφορά την αποτελεσματικότητα και την απόδοση.
Ένα από τα ωραιότερα πράγματα σχετικά με την ανίχνευση MM είναι ότι μπορείτε τώρα απλώς να υποδείξετε ένα διαφορετικό αρχείο διαμόρφωσης, να κάνετε λήψη ενός διαφορετικού σημείου ελέγχου και να εκτελέσετε τον ίδιο κωδικό εάν θέλετε να αλλάξετε τα μοντέλα.
Σας συμβουλεύω να τα δείτε οδηγίες εάν αντιμετωπίζετε προβλήματα με κάποιο από τα στάδια ή θέλετε να εκτελέσετε κάποια από αυτά διαφορετικά.
Αφήστε μια απάντηση