Spis treści[Ukryć][Pokazać]
- 1. Zbiór danych atrybutów CelebFaces
- 2. DOTAJ
- 3. Zestaw danych porównawczych mimiki Google
- 4. Genom wizualny
- 5. LibriMowa
- 6. Przestrzenie miejskie
- 7. Zbiór danych kinetycznych
- 8. Siedziba CelebAMask
- 9. Bank drzew Penn
- 10. VoxCeleb
- 11. SZEŚĆ promieni
- 12. Wypadki w USA
- 13. Rozpoznawanie chorób oczu
- 14. Choroba serca
- 15. SPRYTNY
- 16. Uniwersalne zależności
- 17. KITTI – 360
- 18. MOT (śledzenie wielu obiektów)
- 19. PASKAL 3D+
- 20. Modele deformacji twarzy zwierząt
- 21. Zbiór danych MPII dotyczących postów ludzkich
- 22. UCF101
- 23. Zestaw audio
- 24. Wnioskowanie z języka naturalnego Stanforda
- 25. Wizualne odpowiadanie na pytania
- Wnioski
Obecnie większość z nas koncentruje się na opracowywaniu modeli uczenia maszynowego i sztucznej inteligencji oraz rozwiązywaniu problemów przy użyciu aktualnych zbiorów danych. Ale najpierw musimy zdefiniować zbiór danych, jego znaczenie i rolę w tworzeniu silnych rozwiązań AI i ML.
Obecnie mamy mnóstwo zbiorów danych o otwartym kodzie źródłowym, na których można prowadzić badania lub opracowywać aplikacje do rozwiązywania rzeczywistych problemów w różnych sektorach.
Jednak niedobór wysokiej jakości zbiorów danych ilościowych jest źródłem niepokoju. Dane ogromnie wzrosły i będą nadal rosnąć w szybszym tempie w przyszłości.
W tym poście omówimy swobodnie dostępne zbiory danych, które możesz wykorzystać do opracowania kolejnego projektu AI.
1. Zbiór danych atrybutów CelebFaces
CelebFaces Attributes Dataset (CelebA) zawiera ponad 200 40 zdjęć celebrytów i XNUMX adnotacji atrybutów dla każdego zdjęcia, co czyni go doskonałym punktem wyjścia dla projektów takich jak rozpoznawanie twarzy, wykrywanie twarzy, lokalizacja punktu orientacyjnego (lub komponentu twarzy) oraz edycja i synteza twarzy. Ponadto zdjęcia w tej kolekcji zawierają szeroką gamę wariantów pozycji i bałaganu w tle.
2. DOTA
DOTA (Zbiór danych z Wykrywanie obiektów in Aerial Photos) to wielkoskalowy zestaw danych do wykrywania obiektów, który obejmuje 15 popularnych kategorii (np. statek, samolot, samochód itp.), 1411 obrazów do szkolenia i 458 obrazów do walidacji.
3. Zestaw danych porównawczych mimiki Google
Zestaw danych Google do porównania mimiki twarzy zawiera około 500,000 156,000 trójek zdjęć, w tym XNUMX XNUMX zdjęć twarzy. Warto zauważyć, że każda trójka w tym zestawie danych została opisana przez co najmniej sześciu ludzkich oceniających.
Ten zestaw danych jest przydatny w przypadku projektów obejmujących analizę wyrazu twarzy, takich jak wyszukiwanie obrazów na podstawie wyrazu twarzy, kategoryzacja emocji, synteza wyrazu twarzy i tak dalej. Aby uzyskać dostęp do zbioru danych, należy wypełnić krótki formularz.
4. Genom wizualny
Wizualne dane dotyczące odpowiedzi na pytania w środowisku wielokrotnego wyboru są dostępne w Visual Genome. Składa się z 101,174 1.7 zdjęć MSCOCO z 17 milionami par QA, ze średnią XNUMX pytań na obraz.
W porównaniu do zestawu danych Visual Question Answering, zestaw danych Visual Genome ma bardziej sprawiedliwy rozkład na sześć typów pytań: co, gdzie, kiedy, kto, dlaczego i jak.
Ponadto zestaw danych Visual Genome zawiera 108 tys. zdjęć, które zostały mocno otagowane obiektami, właściwościami i połączeniami.
5. Libriseeech
Korpus LibriSpeech to zbiór około 1,000 godzin audiobooków z projektu LibriVox. Większość audiobooków pochodzi z Projektu Gutenberg.
Dane treningowe są podzielone na trzy partycje po 100 godzin, 360 godzin i 500 godzin, podczas gdy dane deweloperskie i testowe mają długość audio około 5 godzin.
6. Przestrzenie miejskie
Jedna z najbardziej znanych wielkoskalowych baz danych wideo stereo z widokami miejskimi nazywa się The Cityscapes.
Dzięki precyzyjnym do piksel adnotacjom, które obejmują lokalizacje GPS, temperaturę na zewnątrz, dane o ruchu ego i właściwe perspektywy stereo, zawiera nagrania z 50 różnych niemieckich miast.
7. Zbiór danych kinetycznych
Jednym z najbardziej znanych zbiorów danych wideo do rozpoznawania działalności człowieka na dużą skalę i dobrej jakości jest zbiór danych Kinetics. Istnieje co najmniej 600 klipów wideo dla każdej z 600 klas aktywności człowieka, w sumie ponad 500,000 XNUMX.
Filmy zostały ściągnięte z YouTube; każda z nich trwa około 10 sekund i ma na liście tylko jedną klasę aktywności.
8. Siedziba CelebAMask
CelebAMask-HQ to kolekcja 30,000 19 zdjęć twarzy w wysokiej rozdzielczości ze starannie opisanymi maskami i XNUMX klasami obejmującymi elementy twarzy, takie jak skóra, nos, oczy, brwi, uszy, usta, usta, włosy, kapelusz, okulary, kolczyk, naszyjnik, szyja, materiał.
Zestaw danych można wykorzystać do testowania i trenowania rozpoznawania twarzy, analizowania twarzy i GAN do algorytmów generowania i edycji twarzy.
9. Bank drzew Penn
Jednym z najbardziej godnych uwagi i często używanych korpusów do oceny modeli do znakowania sekwencji jest korpus English Penn Treebank (PTB), w szczególności część korpusu odpowiadająca artykułom z Wall Street Journal.
Każde słowo musi mieć swoją część mowy oznaczoną jako składnik zadania. Poziom znaków i poziom słowa modelowanie języka również często korzysta z korpusu.
10. VoxCeleb
VoxCeleb to wielkoskalowy zestaw danych do identyfikacji mowy generowany automatycznie z media o otwartym kodzie źródłowym. VoxCeleb ma ponad milion wypowiedzi z ponad 6 tys. prelegentów.
Ponieważ zestaw danych zawiera materiały audiowizualne, może być używany do różnych dodatkowych zastosowań, w tym wizualnej syntezy mowy, separacji mowy, transferu międzymodalnego z twarzy na głos lub odwrotnie, a także trenowania rozpoznawania twarzy z wideo w celu uzupełnienia bieżącego rozpoznawania twarzy zbiory danych.
11. SZEŚĆ promienia
Zbiór danych SIXray zawiera 1,059,231 XNUMX XNUMX zdjęć rentgenowskich zebranych ze stacji metra i opatrzonych adnotacjami przez inspektorów bezpieczeństwa w celu wykrycia sześciu głównych rodzajów zabronionych przedmiotów: pistoletów, noży, kluczy, szczypiec, nożyczek i młotków. Ponadto do zestawów testowych dodano ręcznie ramki ograniczające dla każdego niedozwolonego elementu w celu oceny wydajności lokalizacji obiektów.
12. Wypadki w USA
Substancja projektu została już ujawniona pod nazwą zbioru danych, wypadki w USA. Ten zbiór danych dotyczących wypadków samochodowych w całym kraju obejmuje informacje od lutego 2016 r. do grudnia 2021 r. i obejmuje 49 stanów USA.
W tej kolekcji znajduje się obecnie około 1.5 miliona rekordów wypadków. Został on zebrany w czasie rzeczywistym przy użyciu kilku interfejsów API ruchu.
Te interfejsy API przesyłają informacje o ruchu drogowym zebrane z różnych źródeł, w tym z kamer drogowych, organów ścigania oraz amerykańskich i stanowych departamentów transportu.
13. Rozpoznawanie chorób oczu
Zorganizowana oftalmiczna baza danych Ocular Disease Intelligent Recognition (ODIR) zawiera informacje na temat 5,000 pacjentów, w tym ich wiek, kolor dna oka w lewym i prawym oku oraz diagnostyczne słowa kluczowe personelu medycznego.
Ten zestaw danych jest rzeczywistym zbiorem danych pacjentów z różnych szpitali i placówek medycznych w Chinach, które nabyła firma Shanggong Medical Technology Co., Ltd. Z zarządzanie kontrolą jakości,, adnotacje zostały oznaczone przez wprawnych czytelników.
14. Choroba serca
Ten zestaw danych dotyczących chorób serca pomaga w identyfikacji istnienia choroby serca u pacjenta na podstawie 76 parametrów, takich jak wiek, płeć, rodzaj bólu w klatce piersiowej, spoczynkowe ciśnienie krwi i tak dalej.
W przypadku 303 przypadków baza danych stara się po prostu odróżnić istnienie choroby (wartość 1,2,3,4) od jej braku (wartość 0).
15. SPRYTNY
Zestaw danych CLEVR (język kompozycyjny i elementarne rozumowanie wizualne) naśladuje wizualne odpowiadanie na pytania. Składa się z fotografii obiektów renderowanych w 3D, a każdej fotografii towarzyszy seria wysoce kompozycyjnych pytań podzielonych na kilka kategorii.
W przypadku wszystkich zdjęć i pytań dotyczących pociągów i walidacji zestaw danych składa się z 70,000 700,000 zdjęć i 15,000 150,000 pytań do szkolenia, 15,000 150,000 obrazów i XNUMX XNUMX pytań do walidacji oraz XNUMX XNUMX obrazów i XNUMX XNUMX pytań do testowania obejmujących obiekty, odpowiedzi, wykresy scen i programy funkcjonalne.
16. Uniwersalne zależności
Projekt Universal Dependencies (UD) ma na celu stworzenie międzyjęzykowo jednolitej adnotacji drzewa morfologicznego i składniowego dla wielu języków. Wersja 2.7, która została wydana w 2020 roku, zawiera 183 banki drzew w 104 językach.
Adnotacja składa się z uniwersalnych tagów POW, nagłówków zależności i uniwersalnych etykiet zależności.
17. KITTI – 360
Jeden z najczęściej używanych zbiorów danych dla robotów mobilnych i autonomiczna jazda to KITTI (Instytut Technologii Karlsruhe i Instytut Technologiczny Toyoty).
Składa się z wielu godzin scenariuszy ruchu drogowego, które zostały zarejestrowane przy użyciu różnych rodzajów czujników, takich jak RGB o wysokiej rozdzielczości, stereo w skali szarości i skanery laserowe 3D. Zbiór danych został z czasem ulepszony przez kilku badaczy, którzy ręcznie dodawali adnotacje do różnych jego części, aby dopasować je do swoich potrzeb.
18. MOT (śledzenie wielu obiektów)
MOT (Multiple Object Tracking) to zestaw danych do śledzenia wielu obiektów, który obejmuje scenerie wewnętrzne i zewnętrzne w miejscach publicznych, które obejmują pieszych jako obiekty zainteresowania. Wideo każdej sceny jest podzielone na dwie części, jedną do treningu, a drugą do testowania.
Zestaw danych zawiera wykrywanie obiektów w klatkach wideo za pomocą trzech detektorów: SDP, Faster-RCNN i DPM.
19. PASKALA 3D+
Wielowidokowy zestaw danych Pascal3D+ składa się ze zdjęć zebranych na wolności, tj. obrazów kategorii przedmiotów o dużej zmienności, uchwyconych w niekontrolowanych okolicznościach, w zatłoczonych środowiskach i w różnych pozycjach. Pascal3D+ zawiera 12 sztywnych kategorii obiektów zaczerpniętych z zestawu danych PASCAL VOC 2012.
Elementy te mają zaznaczone informacje o postawie (azymut, elewacja i odległość od kamery). Pascal3D+ dodatkowo zawiera zdjęcia z adnotacjami do pozy z kolekcji ImageNet w tych 12 kategoriach.
20. Modele deformacji twarzy zwierząt
Celem projektu Facial Deformable Models of Animals (FDMA) jest zakwestionowanie obecnych metodologii identyfikacji i śledzenia punktów orientacyjnych na twarzy człowieka oraz opracowanie nowych algorytmów, które mogą poradzić sobie ze znacznie większą zmiennością charakterystyczną dla cech twarzy zwierząt.
Algorytmy projektu wykazały zdolność rozpoznawania i śledzenia punktów orientacyjnych na ludzkich twarzach przy jednoczesnym radzeniu sobie z odchyleniami wywołanymi zmianami emocji lub pozycji twarzy, częściowymi okluzjami i oświetleniem.
21. Zbiór danych MPII dotyczących postów ludzkich
Zbiór danych MPII Human Pose zawiera około 25 tys. zdjęć, z których 15 tys. to próbki treningowe, 3 tys. to próbki walidacyjne, a 7 tys. to próbki testowe.
Pozycje są ręcznie oznakowane do 16 stawów ciała, a zdjęcia pochodzą z filmów z YouTube, obejmujących 410 różnych ludzkich działań.
22. UCF101
Zestaw danych UCF101 zawiera 13,320 klipów wideo podzielonych na 101 kategorii. Te 101 kategorii podzielono na pięć kategorii: ruchy ciała, interakcje człowiek-człowiek, interakcje człowiek-przedmiot, gra na instrumencie muzycznym i sport.
Filmy pochodzą z YouTube i trwają 27 godzin.
23. Zestaw audio
Zestaw audio to zbiór danych o zdarzeniach dźwiękowych składający się z ponad 2 milionów 10-sekundowych segmentów wideo z adnotacjami ludzkimi. Do adnotacji tych danych wykorzystywana jest hierarchiczna ontologia obejmująca 632 typy zdarzeń, co oznacza, że ten sam dźwięk może być inaczej nazwany.
24. Wnioskowanie o języku naturalnym w Stanford
Zbiór danych SNLI (Stanford Natural Language Inference) zawiera 570 tys. par zdań, które zostały ręcznie sklasyfikowane jako pociąganie, sprzeczność lub neutralność.
Założenia to opisy obrazów Flickr30k, podczas gdy hipotezy zostały opracowane przez adnotatorów, którzy otrzymali przesłankę i poinstruowani, aby generowali pociągające, sprzeczne i neutralne stwierdzenia.
25. Wizualne odpowiadanie na pytania
Wizualne odpowiedzi na pytania (VQA) to zbiór danych, który zawiera otwarte pytania dotyczące zdjęć. Aby odpowiedzieć na te pytania, musisz uchwycić wizję, język i zdrowy rozsądek.
Wnioski
W miarę jak uczenie maszynowe i sztuczna inteligencja (AI) stają się coraz bardziej powszechne w praktycznie każdej firmie i w naszym codziennym życiu, rośnie też liczba dostępnych zasobów i informacji na ten temat.
Gotowe publiczne zbiory danych stanowią doskonały punkt wyjścia do opracowywania modeli AI, a jednocześnie pozwalają doświadczonym programistom ML zaoszczędzić czas i skupić się na innych elementach ich projektów.
Dodaj komentarz