25 najlepszych alternatywnych zestawów danych szkoleniowych AI (2024)

Obecnie większość z nas koncentruje się na opracowywaniu modeli uczenia maszynowego i sztucznej inteligencji oraz rozwiązywaniu problemów przy użyciu aktualnych zbiorów danych. Ale najpierw musimy zdefiniować zbiór danych, jego znaczenie i rolę w tworzeniu silnych rozwiązań AI i ML.

Obecnie mamy mnóstwo zbiorów danych o otwartym kodzie źródłowym, na których można prowadzić badania lub opracowywać aplikacje do rozwiązywania rzeczywistych problemów w różnych sektorach.

Jednak niedobór wysokiej jakości zbiorów danych ilościowych jest źródłem niepokoju. Dane ogromnie wzrosły i będą nadal rosnąć w szybszym tempie w przyszłości.

W tym poście omówimy swobodnie dostępne zbiory danych, które możesz wykorzystać do opracowania kolejnego projektu AI.

1. Zbiór danych atrybutów CelebFaces

CelebFaces Attributes Dataset (CelebA) zawiera ponad 200 40 zdjęć celebrytów i XNUMX adnotacji atrybutów dla każdego zdjęcia, co czyni go doskonałym punktem wyjścia dla projektów takich jak rozpoznawanie twarzy, wykrywanie twarzy, lokalizacja punktu orientacyjnego (lub komponentu twarzy) oraz edycja i synteza twarzy. Ponadto zdjęcia w tej kolekcji zawierają szeroką gamę wariantów pozycji i bałaganu w tle.

2. DOTA

DOTA (Zbiór danych z Wykrywanie obiektów in Aerial Photos) to wielkoskalowy zestaw danych do wykrywania obiektów, który obejmuje 15 popularnych kategorii (np. statek, samolot, samochód itp.), 1411 obrazów do szkolenia i 458 obrazów do walidacji.

3. Zestaw danych porównawczych mimiki Google

Zestaw danych Google do porównania mimiki twarzy zawiera około 500,000 156,000 trójek zdjęć, w tym XNUMX XNUMX zdjęć twarzy. Warto zauważyć, że każda trójka w tym zestawie danych została opisana przez co najmniej sześciu ludzkich oceniających.

Ten zestaw danych jest przydatny w przypadku projektów obejmujących analizę wyrazu twarzy, takich jak wyszukiwanie obrazów na podstawie wyrazu twarzy, kategoryzacja emocji, synteza wyrazu twarzy i tak dalej. Aby uzyskać dostęp do zbioru danych, należy wypełnić krótki formularz.

4. Genom wizualny

Wizualne dane dotyczące odpowiedzi na pytania w środowisku wielokrotnego wyboru są dostępne w Visual Genome. Składa się z 101,174 1.7 zdjęć MSCOCO z 17 milionami par QA, ze średnią XNUMX pytań na obraz.

W porównaniu do zestawu danych Visual Question Answering, zestaw danych Visual Genome ma bardziej sprawiedliwy rozkład na sześć typów pytań: co, gdzie, kiedy, kto, dlaczego i jak.

Ponadto zestaw danych Visual Genome zawiera 108 tys. zdjęć, które zostały mocno otagowane obiektami, właściwościami i połączeniami.

5. Libriseeech

Korpus LibriSpeech to zbiór około 1,000 godzin audiobooków z projektu LibriVox. Większość audiobooków pochodzi z Projektu Gutenberg.

Dane treningowe są podzielone na trzy partycje po 100 godzin, 360 godzin i 500 godzin, podczas gdy dane deweloperskie i testowe mają długość audio około 5 godzin.

6. Przestrzenie miejskie

Jedna z najbardziej znanych wielkoskalowych baz danych wideo stereo z widokami miejskimi nazywa się The Cityscapes.

Dzięki precyzyjnym do piksel adnotacjom, które obejmują lokalizacje GPS, temperaturę na zewnątrz, dane o ruchu ego i właściwe perspektywy stereo, zawiera nagrania z 50 różnych niemieckich miast.

7. Zbiór danych kinetycznych

Jednym z najbardziej znanych zbiorów danych wideo do rozpoznawania działalności człowieka na dużą skalę i dobrej jakości jest zbiór danych Kinetics. Istnieje co najmniej 600 klipów wideo dla każdej z 600 klas aktywności człowieka, w sumie ponad 500,000 XNUMX.

Filmy zostały ściągnięte z YouTube; każda z nich trwa około 10 sekund i ma na liście tylko jedną klasę aktywności.

8. Siedziba CelebAMask

CelebAMask-HQ to kolekcja 30,000 19 zdjęć twarzy w wysokiej rozdzielczości ze starannie opisanymi maskami i XNUMX klasami obejmującymi elementy twarzy, takie jak skóra, nos, oczy, brwi, uszy, usta, usta, włosy, kapelusz, okulary, kolczyk, naszyjnik, szyja, materiał.

Zestaw danych można wykorzystać do testowania i trenowania rozpoznawania twarzy, analizowania twarzy i GAN do algorytmów generowania i edycji twarzy.

9. Bank drzew Penn

Jednym z najbardziej godnych uwagi i często używanych korpusów do oceny modeli do znakowania sekwencji jest korpus English Penn Treebank (PTB), w szczególności część korpusu odpowiadająca artykułom z Wall Street Journal.

Każde słowo musi mieć swoją część mowy oznaczoną jako składnik zadania. Poziom znaków i poziom słowa modelowanie języka również często korzysta z korpusu.

10. VoxCeleb

VoxCeleb to wielkoskalowy zestaw danych do identyfikacji mowy generowany automatycznie z media o otwartym kodzie źródłowym. VoxCeleb ma ponad milion wypowiedzi z ponad 6 tys. prelegentów.

Ponieważ zestaw danych zawiera materiały audiowizualne, może być używany do różnych dodatkowych zastosowań, w tym wizualnej syntezy mowy, separacji mowy, transferu międzymodalnego z twarzy na głos lub odwrotnie, a także trenowania rozpoznawania twarzy z wideo w celu uzupełnienia bieżącego rozpoznawania twarzy zbiory danych.

11. SZEŚĆ promienia

Zbiór danych SIXray zawiera 1,059,231 XNUMX XNUMX zdjęć rentgenowskich zebranych ze stacji metra i opatrzonych adnotacjami przez inspektorów bezpieczeństwa w celu wykrycia sześciu głównych rodzajów zabronionych przedmiotów: pistoletów, noży, kluczy, szczypiec, nożyczek i młotków. Ponadto do zestawów testowych dodano ręcznie ramki ograniczające dla każdego niedozwolonego elementu w celu oceny wydajności lokalizacji obiektów.

12. Wypadki w USA

Substancja projektu została już ujawniona pod nazwą zbioru danych, wypadki w USA. Ten zbiór danych dotyczących wypadków samochodowych w całym kraju obejmuje informacje od lutego 2016 r. do grudnia 2021 r. i obejmuje 49 stanów USA.

W tej kolekcji znajduje się obecnie około 1.5 miliona rekordów wypadków. Został on zebrany w czasie rzeczywistym przy użyciu kilku interfejsów API ruchu.

Te interfejsy API przesyłają informacje o ruchu drogowym zebrane z różnych źródeł, w tym z kamer drogowych, organów ścigania oraz amerykańskich i stanowych departamentów transportu.

13. Rozpoznawanie chorób oczu

Zorganizowana oftalmiczna baza danych Ocular Disease Intelligent Recognition (ODIR) zawiera informacje na temat 5,000 pacjentów, w tym ich wiek, kolor dna oka w lewym i prawym oku oraz diagnostyczne słowa kluczowe personelu medycznego.

Ten zestaw danych jest rzeczywistym zbiorem danych pacjentów z różnych szpitali i placówek medycznych w Chinach, które nabyła firma Shanggong Medical Technology Co., Ltd. Z zarządzanie kontrolą jakości,, adnotacje zostały oznaczone przez wprawnych czytelników.

14. Choroba serca

Ten zestaw danych dotyczących chorób serca pomaga w identyfikacji istnienia choroby serca u pacjenta na podstawie 76 parametrów, takich jak wiek, płeć, rodzaj bólu w klatce piersiowej, spoczynkowe ciśnienie krwi i tak dalej.

W przypadku 303 przypadków baza danych stara się po prostu odróżnić istnienie choroby (wartość 1,2,3,4) od jej braku (wartość 0).

15. SPRYTNY

Zestaw danych CLEVR (język kompozycyjny i elementarne rozumowanie wizualne) naśladuje wizualne odpowiadanie na pytania. Składa się z fotografii obiektów renderowanych w 3D, a każdej fotografii towarzyszy seria wysoce kompozycyjnych pytań podzielonych na kilka kategorii.

W przypadku wszystkich zdjęć i pytań dotyczących pociągów i walidacji zestaw danych składa się z 70,000 700,000 zdjęć i 15,000 150,000 pytań do szkolenia, 15,000 150,000 obrazów i XNUMX XNUMX pytań do walidacji oraz XNUMX XNUMX obrazów i XNUMX XNUMX pytań do testowania obejmujących obiekty, odpowiedzi, wykresy scen i programy funkcjonalne.

16. Uniwersalne zależności

Projekt Universal Dependencies (UD) ma na celu stworzenie międzyjęzykowo jednolitej adnotacji drzewa morfologicznego i składniowego dla wielu języków. Wersja 2.7, która została wydana w 2020 roku, zawiera 183 banki drzew w 104 językach.

Adnotacja składa się z uniwersalnych tagów POW, nagłówków zależności i uniwersalnych etykiet zależności.

17. KITTI – 360

Jeden z najczęściej używanych zbiorów danych dla robotów mobilnych i autonomiczna jazda to KITTI (Instytut Technologii Karlsruhe i Instytut Technologiczny Toyoty).

Składa się z wielu godzin scenariuszy ruchu drogowego, które zostały zarejestrowane przy użyciu różnych rodzajów czujników, takich jak RGB o wysokiej rozdzielczości, stereo w skali szarości i skanery laserowe 3D. Zbiór danych został z czasem ulepszony przez kilku badaczy, którzy ręcznie dodawali adnotacje do różnych jego części, aby dopasować je do swoich potrzeb.

18. MOT (śledzenie wielu obiektów)

MOT (Multiple Object Tracking) to zestaw danych do śledzenia wielu obiektów, który obejmuje scenerie wewnętrzne i zewnętrzne w miejscach publicznych, które obejmują pieszych jako obiekty zainteresowania. Wideo każdej sceny jest podzielone na dwie części, jedną do treningu, a drugą do testowania.

Zestaw danych zawiera wykrywanie obiektów w klatkach wideo za pomocą trzech detektorów: SDP, Faster-RCNN i DPM.

19. PASKALA 3D+

Wielowidokowy zestaw danych Pascal3D+ składa się ze zdjęć zebranych na wolności, tj. obrazów kategorii przedmiotów o dużej zmienności, uchwyconych w niekontrolowanych okolicznościach, w zatłoczonych środowiskach i w różnych pozycjach. Pascal3D+ zawiera 12 sztywnych kategorii obiektów zaczerpniętych z zestawu danych PASCAL VOC 2012.

Elementy te mają zaznaczone informacje o postawie (azymut, elewacja i odległość od kamery). Pascal3D+ dodatkowo zawiera zdjęcia z adnotacjami do pozy z kolekcji ImageNet w tych 12 kategoriach.

20. Modele deformacji twarzy zwierząt

Celem projektu Facial Deformable Models of Animals (FDMA) jest zakwestionowanie obecnych metodologii identyfikacji i śledzenia punktów orientacyjnych na twarzy człowieka oraz opracowanie nowych algorytmów, które mogą poradzić sobie ze znacznie większą zmiennością charakterystyczną dla cech twarzy zwierząt.

Algorytmy projektu wykazały zdolność rozpoznawania i śledzenia punktów orientacyjnych na ludzkich twarzach przy jednoczesnym radzeniu sobie z odchyleniami wywołanymi zmianami emocji lub pozycji twarzy, częściowymi okluzjami i oświetleniem.

21. Zbiór danych MPII dotyczących postów ludzkich

Zbiór danych MPII Human Pose zawiera około 25 tys. zdjęć, z których 15 tys. to próbki treningowe, 3 tys. to próbki walidacyjne, a 7 tys. to próbki testowe.

Pozycje są ręcznie oznakowane do 16 stawów ciała, a zdjęcia pochodzą z filmów z YouTube, obejmujących 410 różnych ludzkich działań.

22. UCF101

Zestaw danych UCF101 zawiera 13,320 klipów wideo podzielonych na 101 kategorii. Te 101 kategorii podzielono na pięć kategorii: ruchy ciała, interakcje człowiek-człowiek, interakcje człowiek-przedmiot, gra na instrumencie muzycznym i sport.

Filmy pochodzą z YouTube i trwają 27 godzin.

23. Zestaw audio

Zestaw audio to zbiór danych o zdarzeniach dźwiękowych składający się z ponad 2 milionów 10-sekundowych segmentów wideo z adnotacjami ludzkimi. Do adnotacji tych danych wykorzystywana jest hierarchiczna ontologia obejmująca 632 typy zdarzeń, co oznacza, że ten sam dźwięk może być inaczej nazwany.

24. Wnioskowanie o języku naturalnym w Stanford

Zbiór danych SNLI (Stanford Natural Language Inference) zawiera 570 tys. par zdań, które zostały ręcznie sklasyfikowane jako pociąganie, sprzeczność lub neutralność.

Założenia to opisy obrazów Flickr30k, podczas gdy hipotezy zostały opracowane przez adnotatorów, którzy otrzymali przesłankę i poinstruowani, aby generowali pociągające, sprzeczne i neutralne stwierdzenia.

25. Wizualne odpowiadanie na pytania

Wizualne odpowiedzi na pytania (VQA) to zbiór danych, który zawiera otwarte pytania dotyczące zdjęć. Aby odpowiedzieć na te pytania, musisz uchwycić wizję, język i zdrowy rozsądek.

Wnioski

W miarę jak uczenie maszynowe i sztuczna inteligencja (AI) stają się coraz bardziej powszechne w praktycznie każdej firmie i w naszym codziennym życiu, rośnie też liczba dostępnych zasobów i informacji na ten temat.

Gotowe publiczne zbiory danych stanowią doskonały punkt wyjścia do opracowywania modeli AI, a jednocześnie pozwalają doświadczonym programistom ML zaoszczędzić czas i skupić się na innych elementach ich projektów.

Najlepsze alternatywne zestawy danych szkoleniowych AI

25 najlepszych alternatywnych zestawów danych szkoleniowych AI

1. Zbiór danych atrybutów CelebFaces

2. DOTA

3. Zestaw danych porównawczych mimiki Google

4. Genom wizualny

5. Libriseeech

6. Przestrzenie miejskie

7. Zbiór danych kinetycznych

8. Siedziba CelebAMask

9. Bank drzew Penn

10. VoxCeleb

11. SZEŚĆ promienia

12. Wypadki w USA

13. Rozpoznawanie chorób oczu

14. Choroba serca

15. SPRYTNY

16. Uniwersalne zależności

17. KITTI – 360

18. MOT (śledzenie wielu obiektów)

19. PASKALA 3D+

20. Modele deformacji twarzy zwierząt

21. Zbiór danych MPII dotyczących postów ludzkich

22. UCF101

23. Zestaw audio

24. Wnioskowanie o języku naturalnym w Stanford

25. Wizualne odpowiadanie na pytania

Wnioski

O nas Sójka

Więcej artykułów na temat HashDork:

Jak zmniejszyć halucynacje w swojej sztucznej inteligencji

Colossyan kontra Heygen

Ten biuletyn Future Tech nie jest do niczego

25 najlepszych alternatywnych zestawów danych szkoleniowych AI

1. Zbiór danych atrybutów CelebFaces

2. DOTA

3. Zestaw danych porównawczych mimiki Google

4. Genom wizualny

5. Libriseeech

6. Przestrzenie miejskie

7. Zbiór danych kinetycznych

8. Siedziba CelebAMask

9. Bank drzew Penn

10. VoxCeleb

11. SZEŚĆ promienia

12. Wypadki w USA

13. Rozpoznawanie chorób oczu

14. Choroba serca

15. SPRYTNY

16. Uniwersalne zależności

17. KITTI – 360

18. MOT (śledzenie wielu obiektów)

19. PASKALA 3D+

20. Modele deformacji twarzy zwierząt

21. Zbiór danych MPII dotyczących postów ludzkich

22. UCF101

23. Zestaw audio

24. Wnioskowanie o języku naturalnym w Stanford

25. Wizualne odpowiadanie na pytania

Wnioski

O nas Sójka

Więcej artykułów na temat HashDork:

Jak zmniejszyć halucynacje w swojej sztucznej inteligencji

10 najlepszych narzędzi AI dla mediów społecznościowych

Colossyan kontra Heygen

10 najlepszych narzędzi do tworzenia animowanych filmów AI

Interakcje Reader

Dodaj komentarz Anuluj odpowiedź

Ten biuletyn Future Tech nie jest do niczego