Tartalomjegyzék[Elrejt][Előadás]
- 1. CelebFaces attribútumok adatkészlete
- 2. DOTA
- 3. Google Facial Expression összehasonlító adatkészlet
- 4. Vizuális genom
- 5. LibriSpeech
- 6. A városterek
- 7. Kinetikai adatkészlet
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. Amerikai balesetek
- 13. Szembetegség felismerése
- 14. Szívbetegség
- 15. CLEVR
- 16. Univerzális függőségek
- 17. KITTI – 360
- 18. MOT (több objektum követés)
- 19. PASCAL 3D+
- 20. Az állatok arcának deformálódó modelljei
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. Audiokészlet
- 24. Stanford természetes nyelvi következtetés
- 25. Vizuális kérdésválasz
- Következtetés
Manapság a legtöbben a gépi tanulás és mesterséges intelligencia modellek fejlesztésére és a problémák megoldására összpontosítunk a jelenlegi adatkészletek segítségével. Először azonban meg kell határoznunk egy adatkészletet, annak jelentőségét és szerepét az erős AI és ML megoldások fejlesztésében.
Napjainkban rengeteg nyílt forráskódú adatkészlettel rendelkezünk, amelyeken kutatást folytathatunk vagy alkalmazásokat fejleszthetünk a különféle szektorok valós problémáinak megoldására.
A jó minőségű kvantitatív adatkészletek szűkössége azonban aggodalomra ad okot. Az adatok óriási mértékben növekedtek, és a jövőben is gyorsabb ütemben fognak bővülni.
Ebben a bejegyzésben azokkal a szabadon elérhető adatkészletekkel foglalkozunk, amelyeket felhasználhat következő AI-projektje fejlesztéséhez.
1. CelebFaces attribútumok adatkészlete
A CelebFaces Attributes Dataset (CelebA) több mint 200 40 hírességfotót és XNUMX attribútum-jegyzetet tartalmaz minden képhez, így kiváló kiindulópontot jelent olyan projektekhez, mint pl. arcfelismerés, arcfelismerés, mérföldkő (vagy arckomponens) lokalizáció, valamint arcszerkesztés és szintézis. Ezen túlmenően, a gyűjtemény fotói a helyzetváltozatok és a háttér-rendzavarok széles skáláját tartalmazzák.
2. DOTA
DOTA (adatkészlet Objektumfelismerés in Aerial Photos) egy nagyszabású adatkészlet az objektumok észleléséhez, amely 15 általános kategóriát (pl. hajó, repülőgép, autó stb.), 1411 képzési képet és 458 érvényesítési képet tartalmaz.
3. Google Facial Expression összehasonlító adatkészlet
A Google arckifejezés-összehasonlító adatkészlete körülbelül 500,000 156,000 képhármast tartalmaz, köztük XNUMX XNUMX arcfotót. Érdemes megjegyezni, hogy ebben az adathalmazban minden egyes triplettet legalább hat emberi értékelő jegyzett.
Ez az adatkészlet hasznos az arckifejezés-elemzést magában foglaló projektekben, mint például a kifejezés alapú képkeresés, az érzelmek kategorizálása, a kifejezés szintézise stb. Az adatkészlethez való hozzáféréshez egy rövid űrlapot kell kitölteni.
4. Vizuális genom
Visual Question A feleletválasztós adatok a Visual Genome-ban érhetők el a feleletválasztós környezetben. 101,174 1.7 MSCOCO fotóból áll, 17 millió minőségbiztosítási párral, képenként átlagosan XNUMX kérdéssel.
A Visual Question Answering adatkészlethez képest a Visual Genome adatkészlet igazságosabb megoszlást mutat hat kérdéstípus között: Mit, Hol, Mikor, Ki, Miért és Hogyan.
Ezenkívül a Visual Genome adatkészlet 108 XNUMX fényképet tartalmaz, amelyek erősen meg vannak címkézve objektumokkal, tulajdonságokkal és kapcsolatokkal.
5. LibriSpeech
A LibriSpeech korpusz mintegy 1,000 órányi hangoskönyv gyűjteménye a LibriVox projektből. A hangoskönyvek többsége a Gutenberg projekttől származik.
A betanítási adatok három, 100 órás, 360 órás és 500 órás készletre oszlanak, míg a fejlesztői és tesztadatok hanghossza nagyjából 5 óra.
6. A városterek
A városi nézetű sztereó videók egyik legismertebb nagyszabású adatbázisa a The Cityscapes.
A GPS helyeket, a külső hőmérsékletet, az ego-mozgás adatait és a megfelelő sztereó nézőpontokat tartalmazó pixelpontos megjegyzésekkel 50 különböző német város felvételeit tartalmazza.
7. Kinetikai adatkészlet
Az egyik legismertebb videó adatkészlet az emberi tevékenység nagy léptékű és jó minőségű felismerésére a Kinetics adatkészlet. A 600 emberi tevékenység osztály mindegyikéhez legalább 600 videoklip tartozik, összesen több mint 500,000 XNUMX.
A filmeket a YouTube-ról húzták le; mindegyik körülbelül 10 másodperc hosszú, és csak egy tevékenységi osztály van feltüntetve.
8. CelebAMask-HQ
A CelebAMask-HQ 30,000 19 nagyfelbontású arcfotó gyűjteménye, gondosan feljegyzett maszkokkal és XNUMX osztályozással, amelyek olyan arcelemeket tartalmaznak, mint a bőr, orr, szem, szemöldök, fül, száj, ajak, haj, sapka, szemüveg, fülbevaló, nyaklánc, nyak, anyag.
Az adatkészlet felhasználható az arcfelismerés, az arcelemzés és a GAN-ok tesztelésére és betanítására arcgeneráló és -szerkesztő algoritmusokhoz.
9. Penn Treebank
A szekvenciacímkézési modellek értékelésére az egyik legfigyelemreméltóbb és leggyakrabban használt korpusz az angol Penn Treebank (PTB) korpusz, különösen a korpusznak a Wall Street Journal cikkeinek megfelelő része.
Minden szónak fel kell tüntetnie a beszédrészét a feladat összetevőjeként. Karakterszintű és szószintű nyelvi modellezés is gyakran használja a korpuszt.
10. VoxCeleb
A VoxCeleb egy nagyszabású beszédazonosító adatkészlet, amelyet automatikusan generálnak nyílt forráskódú média. A VoxCeleb több mint egymillió megszólalással rendelkezik több mint 6 ezer hangszóróból.
Mivel az adatkészlet audiovizuális eszközöket is tartalmaz, számos további alkalmazáshoz használható, beleértve a vizuális beszédszintézist, a beszéd szétválasztását, a keresztmodális átvitelt arcról hangra vagy fordítva, valamint az arcfelismerés képzését videóról a jelenlegi arcfelismerés kiegészítésére. adatkészletek.
11. SIXray
A SIXray adatkészlet 1,059,231 XNUMX XNUMX metróállomásról gyűjtött röntgenképet tartalmaz, amelyeket a biztonsági ellenőrök megjegyzésekkel láttak el, hogy a tiltott tárgyak hat fő típusát észleljék: pisztolyok, kések, csavarkulcsok, fogók, olló és kalapácsok. Ezenkívül minden egyes tiltott elemhez határolókereteket manuálisan adtunk hozzá a tesztelési készletekhez, hogy kiértékeljük az objektumhonosítás teljesítményét.
12. Amerikai balesetek
A projekt lényegét már az adatkészlet neve, az US Accidents is árulja el. Ez az országos autóbalesetekre vonatkozó adatkészlet 2016 februárja és 2021 decembere közötti adatokat tartalmazza, és az Egyesült Államok 49 államára terjed ki.
Körülbelül 1.5 millió baleseti rekord található ebben a gyűjteményben. Valós időben gyűjtötték össze több forgalmi API felhasználásával.
Ezek az API-k különféle forrásokból gyűjtött forgalmi információkat továbbítanak, ideértve a közlekedési kamerákat, a bűnüldöző szervezeteket, valamint az Egyesült Államok és állam közlekedési minisztériumait.
13. Szembetegségek felismerése
Az Ocular Disease Intelligent Recognition (ODIR) szervezett szemészeti adatbázis 5,000 betegről tartalmaz információkat, beleértve az életkorukat, a bal és jobb szemük szemfenékének színét, valamint az egészségügyi szakemberek diagnosztikai kulcsszavait.
Ez az adatkészlet a kínai különböző kórházakból és egészségügyi létesítményekből származó páciensadatok tényleges gyűjteménye, amelyet a Shanggong Medical Technology Co., Ltd. szerzett be. Val vel minőség-ellenőrzési menedzsment, a kommentárokat szakképzett emberi olvasók címkézték meg.
14. Szívbetegség
Ez a szívbetegség-adatkészlet 76 paraméter, például életkor, nem, mellkasi fájdalom fajtája, nyugalmi vérnyomás stb. alapján segít azonosítani a szívbetegség fennállását egy páciensben.
303 esetnél az adatbázis egyszerűen meg akarja különböztetni a betegség fennállását (érték 1,2,3,4) a hiányától (0 érték).
15. CLEVR
A CLEVR adatkészlet (kompozíciós nyelv és elemi vizuális érvelés) utánozza a vizuális kérdésekre adott választ. 3D-ben renderelt objektumok fényképeiből áll, és mindegyik fényképhez egy sor rendkívül kompozíciós kérdés tartozik több kategóriába sorolva.
Az összes képzési és érvényesítési kép és kérdés esetében az adatkészlet 70,000 700,000 fényképet és 15,000 150,000 kérdést tartalmaz a képzéshez, 15,000 150,000 képet és XNUMX XNUMX kérdést az érvényesítéshez, valamint XNUMX XNUMX képet és XNUMX XNUMX kérdést az objektumok, válaszok, jelenetprogramok és funkcionális grafikonok teszteléséhez.
16. Univerzális függőségek
Az Universal Dependencies (UD) projekt célja, hogy több nyelven egységes morfológiát és szintaktikai fabank-annotációt hozzon létre számos nyelvhez. A 2.7-ban megjelent 2020-es verzió 183 fabankot tartalmaz 104 nyelven.
A megjegyzés univerzális POW-címkékből, függőségi fejekből és univerzális függőségi címkékből áll.
17. KITTI – 360
Az egyik leggyakrabban használt adatkészlet mobil robotokhoz és önálló vezetés a KITTI (Karlsruhe Technológiai Intézet és Toyota Technológiai Intézet).
Óráknyi forgalmi forgatókönyvekből áll, amelyeket számos szenzormóddal rögzítettek, például nagy felbontású RGB, szürkeárnyalatos sztereó és 3D lézerszkenner kamerákkal. Az adatkészletet az idők során több kutató javította, és manuálisan kommentálták annak különböző részeit igényeiknek megfelelően.
18. MOT (több objektum követés)
A MOT (Multiple Object Tracking) egy adatkészlet több objektum nyomon követéséhez, amely magában foglalja a nyilvános helyek beltéri és kültéri tájait, amelyekben a gyalogosok is érdekesek. Minden jelenet videója két részre oszlik, az egyik az edzés, a másik pedig a tesztelés.
Az adatkészlet tartalmazza tárgyészlelések videókockákban három detektor használatával: SDP, Faster-RCNN és DPM.
19. PASCAL 3D+
A Pascal3D+ többnézetű adatkészlet vadon gyűjtött fényképekből áll, azaz nagy variabilitású tételkategóriák képeiből, amelyeket ellenőrizetlen körülmények között, zsúfolt környezetben és különböző pozíciókban rögzítettek. A Pascal3D+ 12 merev objektumkategóriát tartalmaz a PASCAL VOC 2012 adatkészletből.
Ezeken az elemeken testtartási információk vannak jelölve (azimut, magasság és távolság a kamerától). A Pascal3D+ ezen kívül tartalmaz póz-annotált fotókat az ImageNet gyűjteményéből ebben a 12 kategóriában.
20. Az állatok arcának deformálódó modelljei
A Facial Deformable Models of Animals (FDMA) projekt célja, hogy megkérdőjelezze az emberi arcok tereptárgyak azonosításának és követésének jelenlegi módszereit, és olyan új algoritmusokat dolgozzon ki, amelyek képesek kezelni az állatok arctulajdonságaira jellemző lényegesen nagyobb variabilitást.
A projekt algoritmusai bebizonyították, hogy képesek felismerni és nyomon követni az emberi arcokon lévő tereptárgyakat, miközben kezelik az arc érzelmeinek vagy pozícióinak változásai, részleges elzáródások és megvilágítás okozta eltéréseket.
21. MPII Human Post Dataset
Az MPII Human Pose Dataset körülbelül 25 15 fényképet tartalmaz, amelyek közül 3 7 képzési minta, XNUMX KB érvényesítési minta, és XNUMX XNUMX tesztminta.
A pozíciók manuálisan vannak felcímkézve akár 16 testi ízülettel, a fényképek pedig 410 különböző emberi tevékenységet feldolgozó YouTube-filmekből származnak.
22. UCF101
Az UCF101 adatkészlet 13,320 101 videoklipet tartalmaz 101 kategóriába rendezve. Ez a XNUMX kategória öt kategóriába sorolható: testi mozgások, ember-ember interakciók, ember-tárgy interakciók, hangszerjáték és sport.
A videók a YouTube-ról származnak, és 27 órásak.
23. Audiokészlet
Az Audioset egy hangesemény-adatkészlet, amely több mint 2 millió ember által jegyzett 10 másodperces videószegmensből áll. Ezen adatok megjegyzéséhez egy 632 eseménytípust tartalmazó hierarchikus ontológiát használnak, ami azt jelenti, hogy ugyanaz a hang eltérően címkézhető.
24. Stanford természetes nyelvi következtetés
Az SNLI adatkészlet (Stanford Natural Language Inference) 570 XNUMX mondatpárt tartalmaz, amelyeket manuálisan következmény, ellentmondás vagy semleges kategóriába soroltak.
A premisszák Flickr30k képleírások, míg a hipotéziseket tömeges forrásból származó annotátorok dolgozták ki, akiknek feltevést adtak, és utasítottak magával vonó, ellentmondó és semleges állítások generálására.
25. Vizuális kérdésválasz
A Visual Question Answering (VQA) egy olyan adatkészlet, amely nyílt végű kérdéseket tartalmaz a képekkel kapcsolatban. E kérdések megválaszolásához meg kell ragadnia a látásmódot, a nyelvet és a józan észt.
Következtetés
Ahogy a gépi tanulás és a mesterséges intelligencia (AI) egyre elterjedtebbé válik gyakorlatilag minden vállalkozásban és mindennapi életünkben, úgy növekszik a témával kapcsolatos erőforrások és információk száma.
A kész nyilvános adatkészletek nagyszerű kiindulási alapot biztosítanak az AI-modellek fejlesztéséhez, ugyanakkor lehetővé teszik a tapasztalt ML programozók számára, hogy időt takarítsanak meg, és projektjeik más elemeire összpontosítsanak.
Hagy egy Válaszol