Πίνακας περιεχομένων[Κρύβω][Προβολή]
- 1. Σύνολο δεδομένων CelebFaces Attributes
- 2. DOTA
- 3. Δεδομένα σύγκρισης εκφράσεων προσώπου της Google
- 4. Οπτικό γονιδίωμα
- 5. LibriSpeech
- 6. Οι Χώροι πόλεων
- 7. Σύνολο Δεδομένων Κινητικής
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. Ατυχήματα ΗΠΑ
- 13. Αναγνώριση Οφθαλμικών Νοσημάτων
- 14. Καρδιακή ασθένεια
- 15. CLEVR
- 16. Καθολικές Εξαρτήσεις
- 17. KITTI – 360
- 18. MOT (Παρακολούθηση πολλαπλών αντικειμένων)
- 19. PASCAL 3D+
- 20. Παραμορφώσιμα μοντέλα ζώων προσώπου
- 21. Σύνολο δεδομένων ανθρώπινου ταχυδρομείου MPII
- 22. UCF101
- 23. Audioset
- 24. Stanford Natural Language Inference
- 25. Οπτική Απάντηση Ερωτήσεων
- Συμπέρασμα
Σήμερα, οι περισσότεροι από εμάς εστιάζουμε στην ανάπτυξη μοντέλων μηχανικής μάθησης και τεχνητής νοημοσύνης και στην αντιμετώπιση προβλημάτων χρησιμοποιώντας τρέχοντα σύνολα δεδομένων. Αλλά πρώτα, πρέπει να ορίσουμε ένα σύνολο δεδομένων, τη σημασία του και τον ρόλο του στην ανάπτυξη ισχυρών λύσεων AI και ML.
Σήμερα, διαθέτουμε μια πληθώρα συνόλων δεδομένων ανοιχτού κώδικα για τη διεξαγωγή έρευνας ή την ανάπτυξη εφαρμογών για την αντιμετώπιση πραγματικών ζητημάτων σε διάφορους τομείς.
Ωστόσο, η έλλειψη υψηλής ποιότητας ποσοτικών συνόλων δεδομένων είναι πηγή ανησυχίας. Τα δεδομένα έχουν αυξηθεί πάρα πολύ και θα συνεχίσουν να επεκτείνονται με ταχύτερο ρυθμό στο μέλλον.
Σε αυτήν την ανάρτηση, θα καλύψουμε ελεύθερα διαθέσιμα σύνολα δεδομένων που μπορείτε να χρησιμοποιήσετε για να αναπτύξετε το επόμενο έργο AI σας.
1. Σύνολο δεδομένων CelebFaces Attributes
Το σύνολο δεδομένων CelebFaces Attributes (CelebA) περιέχει πάνω από 200 φωτογραφίες διασημοτήτων και 40 σχολιασμούς χαρακτηριστικών για κάθε εικόνα, καθιστώντας το ένα εξαιρετικό σημείο εκκίνησης για έργα όπως π.χ. αναγνώριση προσώπου, εντοπισμός προσώπου, εντοπισμός ορόσημων (ή στοιχείου προσώπου) και επεξεργασία και σύνθεση προσώπου. Επιπλέον, οι φωτογραφίες αυτής της συλλογής περιέχουν ένα ευρύ φάσμα παραλλαγών θέσης και ακαταστασίας φόντου.
2. DOTA
DOTA (σύνολο δεδομένων του Ανίχνευση αντικειμένων στις Αεροφωτογραφίες) είναι ένα σύνολο δεδομένων μεγάλης κλίμακας για ανίχνευση αντικειμένων που περιλαμβάνει 15 κοινές κατηγορίες (π.χ. πλοίο, αεροπλάνο, αυτοκίνητο κ.λπ.), 1411 εικόνες για εκπαίδευση και 458 εικόνες για επικύρωση.
3. Σύνολο δεδομένων σύγκρισης εκφράσεων προσώπου Google
Το σύνολο δεδομένων σύγκρισης εκφράσεων προσώπου της Google περιέχει περίπου 500,000 τρίδυμα εικόνων, συμπεριλαμβανομένων 156,000 φωτογραφιών προσώπων. Αξίζει να σημειωθεί ότι κάθε τρίδυμο σε αυτό το σύνολο δεδομένων σχολιάστηκε από τουλάχιστον έξι ανθρώπους βαθμολογητές.
Αυτό το σύνολο δεδομένων είναι χρήσιμο για έργα που περιλαμβάνουν ανάλυση έκφρασης προσώπου, όπως ανάκτηση εικόνας με βάση την έκφραση, κατηγοριοποίηση συναισθημάτων, σύνθεση έκφρασης και ούτω καθεξής. Για να αποκτήσετε πρόσβαση στο σύνολο δεδομένων, πρέπει να συμπληρωθεί μια σύντομη φόρμα.
4. Οπτικό γονιδίωμα
Οπτική ερώτηση Η απάντηση δεδομένων σε περιβάλλον πολλαπλών επιλογών είναι διαθέσιμη στο Visual Genome. Αποτελείται από 101,174 φωτογραφίες MSCOCO με 1.7 εκατομμύρια ζεύγη QA, με μέσο όρο 17 ερωτήσεις ανά εικόνα.
Σε σύγκριση με το σύνολο δεδομένων Visual Question Answering, το σύνολο δεδομένων Visual Genome έχει πιο δίκαιη κατανομή σε έξι τύπους ερωτήσεων: Τι, Πού, Πότε, Ποιος, Γιατί και Πώς.
Επιπλέον, το σύνολο δεδομένων Visual Genome περιλαμβάνει φωτογραφίες 108K που έχουν επισημανθεί σε μεγάλο βαθμό με αντικείμενα, ιδιότητες και συνδέσεις.
5. Βιβλιοθήκη
Το σώμα LibriSpeech είναι μια συλλογή από περίπου 1,000 ώρες ακουστικών βιβλίων από το έργο LibriVox. Η πλειοψηφία των ηχητικών βιβλίων προέρχεται από το Project Gutenberg.
Τα δεδομένα εκπαίδευσης χωρίζονται σε τρία τμήματα των σετ 100 ωρών, 360 ωρών και 500 ωρών, ενώ τα δεδομένα προγραμματισμού και δοκιμής έχουν μήκος ήχου περίπου 5 ωρών.
6. Οι Χώροι πόλεων
Μία από τις πιο γνωστές βάσεις δεδομένων μεγάλης κλίμακας στερεοφωνικών βίντεο με αστική θέα ονομάζεται The Cityscapes.
Με σχολιασμούς με ακρίβεια pixel που περιλαμβάνουν τοποθεσίες GPS, την εξωτερική θερμοκρασία, δεδομένα κίνησης του εγώ και σωστές στερεοφωνικές προοπτικές, περιλαμβάνει εγγραφές από 50 διαφορετικές γερμανικές πόλεις.
7. Κινητικό σύνολο δεδομένων
Ένα από τα πιο γνωστά σύνολα δεδομένων βίντεο για την αναγνώριση της ανθρώπινης δραστηριότητας σε μεγάλη κλίμακα και με καλή ποιότητα είναι το σύνολο δεδομένων Kinetics. Υπάρχουν τουλάχιστον 600 βίντεο κλιπ για καθεμία από τις 600 τάξεις ανθρώπινης δραστηριότητας, συνολικά πάνω από 500,000.
Οι ταινίες βγήκαν από το YouTube. Το καθένα έχει διάρκεια περίπου 10 δευτερολέπτων και έχει μόνο μία κατηγορία δραστηριότητας στη λίστα.
8. CelebAMask-HQ
Το CelebAMask-HQ είναι μια συλλογή από 30,000 φωτογραφίες προσώπου υψηλής ανάλυσης με προσεκτικά σχολιασμένες μάσκες και 19 κατηγορίες που περιλαμβάνουν στοιχεία προσώπου όπως δέρμα, μύτη, μάτια, φρύδια, αυτιά, στόμα, χείλη, μαλλιά, καπέλο, γυαλιά, σκουλαρίκι, κολιέ, λαιμός, υλικό.
Το σύνολο δεδομένων μπορεί να χρησιμοποιηθεί για τη δοκιμή και την εκπαίδευση της αναγνώρισης προσώπου, της ανάλυσης προσώπων και των GAN για αλγόριθμους δημιουργίας και επεξεργασίας προσώπων.
9. Penn Treebank
Ένα από τα πιο αξιοσημείωτα και συχνά χρησιμοποιούμενα σώματα για την αξιολόγηση μοντέλων για την προσθήκη ετικετών ακολουθίας είναι το αγγλικό σώμα Penn Treebank (PTB), ιδιαίτερα το τμήμα του σώματος που αντιστοιχεί σε άρθρα της Wall Street Journal.
Κάθε λέξη πρέπει να έχει το μέρος της ομιλίας της να επισημαίνεται ως στοιχείο της εργασίας. Σε επίπεδο χαρακτήρων και σε επίπεδο λέξης μοντελοποίηση γλώσσας χρησιμοποιεί επίσης συχνά το corpus.
10. VoxCeleb
Το VoxCeleb είναι ένα σύνολο δεδομένων αναγνώρισης ομιλίας μεγάλης κλίμακας που δημιουργείται αυτόματα από μέσα ανοιχτού κώδικα. Το VoxCeleb έχει πάνω από ένα εκατομμύριο δηλώσεις από πάνω από 6 ηχεία.
Καθώς το σύνολο δεδομένων περιλαμβάνει οπτικοακουστικό υλικό, μπορεί να χρησιμοποιηθεί για μια ποικιλία πρόσθετων εφαρμογών, συμπεριλαμβανομένης της σύνθεσης οπτικής ομιλίας, του διαχωρισμού ομιλίας, της πολλαπλής μεταφοράς από πρόσωπο σε φωνή ή αντίστροφα και της εκπαίδευσης αναγνώρισης προσώπου από βίντεο για τη συμπλήρωση της τρέχουσας αναγνώρισης προσώπου σύνολα δεδομένων.
11. SIXray
Το σύνολο δεδομένων SIXray περιλαμβάνει 1,059,231 εικόνες ακτίνων Χ που συγκεντρώθηκαν από σταθμούς του μετρό και σχολιάστηκαν από επιθεωρητές ανθρώπινης ασφάλειας για τον εντοπισμό έξι βασικών ειδών απαγορευμένων αντικειμένων: πιστόλια, μαχαίρια, κλειδιά, πένσες, ψαλίδι και σφυριά. Επιπλέον, τα πλαίσια οριοθέτησης για κάθε μη επιτρεπόμενο στοιχείο έχουν προστεθεί χειροκίνητα στα σύνολα δοκιμών προκειμένου να αξιολογηθεί η απόδοση του εντοπισμού αντικειμένων.
12. Ατυχήματα στις ΗΠΑ
Η ουσία του έργου αποκαλύπτεται ήδη από το όνομα του συνόλου δεδομένων, US Accidents. Αυτό το σύνολο δεδομένων για τα αυτοκινητιστικά ατυχήματα σε εθνικό επίπεδο περιλαμβάνει πληροφορίες από τον Φεβρουάριο του 2016 έως τον Δεκέμβριο του 2021 και καλύπτει 49 πολιτείες στις ΗΠΑ.
Περίπου 1.5 εκατομμύριο αρχεία ατυχημάτων υπάρχουν τώρα σε αυτή τη συλλογή. Συγκεντρώθηκε σε πραγματικό χρόνο χρησιμοποιώντας πολλά API κυκλοφορίας.
Αυτά τα API μεταδίδουν πληροφορίες κυκλοφορίας που συλλέγονται από διάφορες πηγές, συμπεριλαμβανομένων των καμερών κυκλοφορίας, των οργανισμών επιβολής του νόμου και των υπηρεσιών μεταφορών των ΗΠΑ και της πολιτείας.
13. Αναγνώριση οφθαλμικών ασθενειών
Η οργανωμένη οφθαλμική βάση δεδομένων Ocular Disease Intelligent Recognition (ODIR) περιέχει πληροφορίες για 5,000 ασθενείς, συμπεριλαμβανομένης της ηλικίας τους, του χρώματος του βυθού στο αριστερό και δεξί τους μάτια και διαγνωστικές λέξεις-κλειδιά των επαγγελματιών γιατρών.
Αυτό το σύνολο δεδομένων είναι μια πραγματική συλλογή δεδομένων ασθενών από διάφορα νοσοκομεία και ιατρικές εγκαταστάσεις στην Κίνα που έχει αποκτήσει η Shanggong Medical Technology Co., Ltd. Με διαχείριση ποιοτικού ελέγχου, οι σχολιασμοί επισημάνθηκαν από έμπειρους αναγνώστες.
14. Καρδιοπάθεια
Αυτό το σύνολο δεδομένων για τις καρδιακές παθήσεις βοηθά στον εντοπισμό της ύπαρξης καρδιακής νόσου σε έναν ασθενή με βάση 76 παραμέτρους όπως η ηλικία, το φύλο, το είδος του πόνου στο στήθος, η αρτηριακή πίεση ηρεμίας και ούτω καθεξής.
Με 303 περιπτώσεις, η βάση δεδομένων επιδιώκει απλώς να διαφοροποιήσει την ύπαρξη μιας ασθένειας (τιμή 1,2,3,4) από την απουσία της (τιμή 0).
15. CLEVR
Το σύνολο δεδομένων CLEVR (Compositional Language and Elementary Visual Reasoning) μιμείται την οπτική απάντηση σε ερωτήσεις. Αποτελείται από φωτογραφίες τρισδιάστατων αντικειμένων, με κάθε φωτογραφία να συνοδεύεται από μια σειρά ερωτήσεων υψηλής σύνθεσης χωρισμένες σε διάφορες κατηγορίες.
Για όλες τις εικόνες και τις ερωτήσεις του τρένου και της επικύρωσης, το σύνολο δεδομένων περιλαμβάνει 70,000 φωτογραφίες και 700,000 ερωτήσεις για εκπαίδευση, 15,000 εικόνες και 150,000 ερωτήσεις για επικύρωση και 15,000 εικόνες και 150,000 ερωτήσεις για δοκιμές που περιλαμβάνουν αντικείμενα, απαντήσεις και σκηνικά προγράμματα.
16. Καθολικές Εξαρτήσεις
Το έργο Universal Dependencies (UD) στοχεύει στη δημιουργία διαγλωσσικά ομοιόμορφης μορφολογίας και σύνταξης σχολιασμού δέντρων για πολλές γλώσσες. Η έκδοση 2.7, η οποία κυκλοφόρησε το 2020, έχει 183 όχθες δέντρων σε 104 γλώσσες.
Ο σχολιασμός αποτελείται από καθολικές ετικέτες POW, κεφαλές εξάρτησης και καθολικές ετικέτες εξάρτησης.
17. KITTI – 360
Ένα από τα πιο συχνά χρησιμοποιούμενα σύνολα δεδομένων για κινητά ρομπότ και αυτόνομη οδήγηση είναι το KITTI (Ινστιτούτο Τεχνολογίας Καρλσρούης και Τεχνολογικό Ινστιτούτο Toyota).
Αποτελείται από σενάρια κυκλοφορίας ωρών που καταγράφηκαν χρησιμοποιώντας μια σειρά τρόπων αισθητήρων, όπως RGB υψηλής ανάλυσης, στερεοφωνικό σε κλίμακα του γκρι και κάμερες σαρωτής λέιζερ 3D. Το σύνολο δεδομένων έχει βελτιωθεί με την πάροδο του χρόνου από αρκετούς ερευνητές που σχολίασαν με μη αυτόματο τρόπο διάφορα τμήματα του για να ταιριάζουν στις ανάγκες τους.
18. MOT (Παρακολούθηση πολλαπλών αντικειμένων)
Το MOT (Multiple Object Tracking) είναι ένα σύνολο δεδομένων για την παρακολούθηση πολλαπλών αντικειμένων που περιλαμβάνει εσωτερικά και εξωτερικά τοπία δημόσιων τοποθεσιών που περιλαμβάνουν πεζούς ως αντικείμενα ενδιαφέροντος. Το βίντεο κάθε σκηνής χωρίζεται σε δύο κομμάτια, το ένα για εκπαίδευση και το άλλο για δοκιμή.
Το σύνολο δεδομένων περιλαμβάνει ανιχνεύσεις αντικειμένων σε καρέ βίντεο χρησιμοποιώντας τρεις ανιχνευτές: SDP, Faster-RCNN και DPM.
19. PASCAL 3D+
Το σύνολο δεδομένων πολλαπλών προβολών Pascal3D+ αποτελείται από φωτογραφίες που συλλέγονται στην άγρια φύση, δηλαδή, εικόνες κατηγοριών αντικειμένων με υψηλή μεταβλητότητα, που λαμβάνονται σε ανεξέλεγκτες συνθήκες, σε πολυσύχναστα περιβάλλοντα και σε διάφορες θέσεις. Το Pascal3D+ περιλαμβάνει 12 κατηγορίες άκαμπτων αντικειμένων που προέρχονται από το σύνολο δεδομένων PASCAL VOC 2012.
Αυτά τα αντικείμενα έχουν σημειωμένες πληροφορίες στάσης (αζιμούθιο, ανύψωση και απόσταση από την κάμερα). Το Pascal3D+ περιλαμβάνει επιπλέον φωτογραφίες με σχολιασμούς πόζας από τη συλλογή ImageNet σε αυτές τις 12 κατηγορίες.
20. Παραμορφώσιμα μοντέλα ζώων προσώπου
Ο στόχος του έργου Facial Deformable Models of Animals (FDMA) είναι να αμφισβητήσει τις τρέχουσες μεθοδολογίες στον προσδιορισμό και την παρακολούθηση σημείων αναφοράς ανθρώπινου προσώπου και να αναπτύξει νέους αλγόριθμους που μπορούν να αντιμετωπίσουν τη σημαντικά μεγαλύτερη μεταβλητότητα που είναι χαρακτηριστική των χαρακτηριστικών του προσώπου των ζώων.
Οι αλγόριθμοι του έργου έδειξαν την ικανότητα αναγνώρισης και παρακολούθησης ορόσημων σε ανθρώπινα πρόσωπα, ενώ αντιμετωπίζουν διακυμάνσεις που προκαλούνται από αλλαγές στα συναισθήματα ή τις θέσεις του προσώπου, τις μερικές αποφράξεις και τον φωτισμό.
21. Σύνολο δεδομένων ανθρώπινου ταχυδρομείου MPII
Το σύνολο δεδομένων MPII Human Pose περιέχει περίπου 25 φωτογραφίες, εκ των οποίων οι 15K είναι δείγματα εκπαίδευσης, οι 3K είναι δείγματα επικύρωσης και οι 7K είναι δείγματα δοκιμής.
Οι θέσεις επισημαίνονται χειροκίνητα με έως και 16 σωματικές αρθρώσεις και οι φωτογραφίες λαμβάνονται από ταινίες του YouTube που καλύπτουν 410 διάφορες ανθρώπινες δραστηριότητες.
22. UCF101
Το σύνολο δεδομένων UCF101 περιέχει 13,320 βίντεο κλιπ οργανωμένα σε 101 κατηγορίες. Αυτές οι 101 κατηγορίες χωρίζονται σε πέντε κατηγορίες: σωματικές κινήσεις, αλληλεπιδράσεις ανθρώπου-ανθρώπου, αλληλεπιδράσεις ανθρώπου-αντικειμένου, παίξιμο μουσικών οργάνων και αθλήματα.
Τα βίντεο είναι από το YouTube και έχουν διάρκεια 27 ώρες.
23. Audioset
Το Audioset είναι ένα σύνολο δεδομένων συμβάντων ήχου που αποτελείται από περισσότερα από 2 εκατομμύρια τμήματα βίντεο 10 δευτερολέπτων με σχολιασμούς από τον άνθρωπο. Για τον σχολιασμό αυτών των δεδομένων, χρησιμοποιείται μια ιεραρχική οντολογία που περιλαμβάνει 632 τύπους συμβάντων, πράγμα που σημαίνει ότι ο ίδιος ήχος μπορεί να φέρει διαφορετική ετικέτα.
24. Stanford Natural Language Inference
Το σύνολο δεδομένων SNLI (Stanford Natural Language Inference) περιέχει 570 ζεύγη προτάσεων που έχουν ταξινομηθεί με μη αυτόματο τρόπο ως συνεπεία, αντίφαση ή ουδέτερη.
Οι εγκαταστάσεις είναι περιγραφές εικόνων Flickr30k, ενώ οι υποθέσεις αναπτύχθηκαν από σχολιαστές που προέρχονται από πλήθος, στους οποίους δόθηκε μια προϋπόθεση και δόθηκε εντολή να δημιουργήσουν συνεπαγόμενες, αντιφατικές και ουδέτερες δηλώσεις.
25. Οπτική απάντηση ερωτήσεων
Η Visual Question Answering (VQA) είναι ένα σύνολο δεδομένων που περιέχει ερωτήσεις ανοιχτού τύπου σχετικά με εικόνες. Για να απαντήσετε σε αυτές τις ερωτήσεις, πρέπει να κατανοήσετε το όραμα, τη γλώσσα και την κοινή λογική.
Συμπέρασμα
Καθώς η μηχανική μάθηση και η τεχνητή νοημοσύνη (AI) γίνονται πιο διαδεδομένα σε σχεδόν κάθε επιχείρηση και στην καθημερινή μας ζωή, τόσο αυξάνεται ο αριθμός των πόρων και των πληροφοριών που διατίθενται για το θέμα.
Τα έτοιμα δημόσια σύνολα δεδομένων παρέχουν ένα εξαιρετικό σημείο εκκίνησης για την ανάπτυξη μοντέλων AI, ενώ επιτρέπουν επίσης στους έμπειρους προγραμματιστές ML να εξοικονομήσουν χρόνο και να επικεντρωθούν σε άλλα στοιχεία των έργων τους.
Αφήστε μια απάντηση