25 L-Aqwa Settijiet tad-Dejta Alternattiva għat-Taħriġ AI (2024)

Illum il-ġurnata, ħafna minna huma ffukati fuq l-iżvilupp ta 'tagħlim tal-magni u mudelli AI u nindirizzaw kwistjonijiet bl-użu ta' settijiet ta 'dejta attwali. Iżda l-ewwel, irridu niddefinixxu dataset, is-sinifikat tiegħu, u r-rwol tiegħu fl-iżvilupp ta 'soluzzjonijiet b'saħħithom ta' AI u ML.

Illum, għandna għadd kbir ta' settijiet ta' dejta open-source li fuqhom nagħmlu riċerka jew niżviluppaw applikazzjonijiet biex nindirizzaw kwistjonijiet tad-dinja reali f'varjetà ta' setturi.

Madankollu, l-iskarsezza ta' settijiet ta' dejta kwantitattivi ta' kwalità għolja hija sors ta' inkwiet. Id-dejta żdiedet immens u se tkompli tespandi b'rata aktar mgħaġġla fil-futur.

F'din il-kariga, se nkopru settijiet ta' dejta disponibbli liberament li tista' tutilizza biex tiżviluppa l-proġett AI li jmiss tiegħek.

1. CelebFaces Attributi Dataset

CelebFaces Attributes Dataset (CelebA) fih aktar minn 200K ritratti ta’ ċelebritajiet u 40 annotazzjoni ta’ attributi għal kull immaġini, li jagħmilha punt ta’ tluq eċċellenti għal proġetti bħal għarfien tal-wiċċ, sejbien tal-wiċċ, lokalizzazzjoni ta' landmark (jew komponent tal-wiċċ), u editjar u sintesi tal-wiċċ. Barra minn hekk, ir-ritratti f'din il-kollezzjoni fihom firxa wiesgħa ta 'varjanti ta' pożizzjoni u eki mhux mixtieqa fl-isfond.

2. DOTA

DOTA (sett tad-dejta ta' Sejbien tal-Oġġetti f'Ritratti mill-Ajru) huwa dataset fuq skala kbira għall-iskoperta ta' oġġetti li jinkludi 15-il kategorija komuni (eż., vapur, ajruplan, karozza, eċċ.), 1411 immaġini għat-taħriġ, u 458 immaġini għall-validazzjoni.

3. Sett ta' dejta tal-paragun tal-espressjoni tal-wiċċ ta' Google

Is-sett tad-dejta tal-paragun tal-espressjoni tal-wiċċ ta 'Google fih madwar 500,000 triplet tal-istampa, inklużi 156,000 ritratt tal-wiċċ. Ta’ min jinnota li kull triplet f’dan is-sett tad-dejta kien annotat minn tal-inqas sitt persuni li jeżaminaw il-valutazzjoni tal-bniedem.

Dan is-sett tad-dejta huwa utli għal proġetti li jinvolvu analiżi tal-espressjoni tal-wiċċ, bħall-irkupru tal-istampa bbażat fuq l-espressjoni, il-kategorizzazzjoni tal-emozzjonijiet, is-sinteżi tal-espressjoni, eċċ. Biex tikseb aċċess għas-sett tad-dejta, trid timtela formola qasira.

4. Ġenoma Viżwali

Id-dejta dwar it-Tweġiba tal-Mistoqsijiet Viżwali f'ambjent b'għażla multipla hija disponibbli f'Viżwali Genome. Huwa magħmul minn 101,174 ritratt MSCOCO b'1.7 miljun par QA, b'medja ta' 17-il mistoqsija għal kull immaġini.

Meta mqabbel mas-sett tad-dejta Viżwali Question Answering, is-sett tad-dejta tal-Genoma Viżwali għandu distribuzzjoni aktar ġusta f'sitt tipi ta' mistoqsijiet: X'inhu, Fejn, Meta, Min, Għaliex u Kif.

Barra minn hekk, is-sett tad-dejta tal-Ġenoma Viżwali jinkludi ritratti ta '108K li ġew immarkati ħafna b'oġġetti, proprjetajiet u konnessjonijiet.

5. LibriSpeech

Il-corpus LibriSpeech huwa ġabra ta’ madwar 1,000 siegħa ta’ awdjo-kotba mill-proġett LibriVox. Il-maġġoranza tal-awdjo-kotba joriġinaw mill-Proġett Gutenberg.

Id-dejta tat-taħriġ hija maqsuma fi tliet diviżorji ta 'settijiet ta' 100hr, 360hr, u 500hr, filwaqt li d-dejta dev u tat-test huma bejn wieħed u ieħor 5hr fit-tul tal-awdjo.

6. L-Ispazji tal-Belt

Waħda mid-databases fuq skala kbira l-aktar magħrufa ta 'videos stereo b'veduti urbani tissejjaħ The Cityscapes.

B'annotazzjonijiet preċiżi bil-pixel li jinkludu postijiet tal-GPS, it-temperatura ta 'barra, dejta tal-mozzjoni tal-ego, u perspettivi stereo tajbin, tinkludi reġistrazzjonijiet minn 50 belt Ġermaniża distinta.

7. Kinetics Dataset

Wieħed mis-settijiet tad-dejta tal-vidjo l-aktar magħrufa għar-rikonoxximent tal-attività umana fuq skala kbira u bi kwalità tajba huwa s-sett tad-dejta Kinetics. Hemm mill-inqas 600 vidjow għal kull waħda mis-600 klassi ta' attività umana, li jammontaw għal aktar minn 500,000 b'kollox.

Il-films inġibdu minn YouTube; kull wieħed huwa twil madwar 10 sekondi u għandu klassi waħda biss ta' attività elenkata.

8. CelebAMsk-HQ

CelebAMask-HQ hija ġabra ta’ 30,000 ritratt tal-wiċċ b’riżoluzzjoni għolja b’maskri annotati bir-reqqa u 19-il klassi li jinkludu komponenti tal-wiċċ bħal ġilda, imnieħer, għajnejn, brows, widnejn, ħalq, xoffa, xagħar, kappell, nuċċalijiet, widnejn, ġiżirana, għonq, materjal.

Is-sett tad-dejta jista 'jintuża biex jittestja u jħarreġ rikonoxximent tal-wiċċ, parsing tal-wiċċ, u GANs għall-ġenerazzjoni tal-wiċċ u algoritmi ta' editjar.

9. Penn Treebank

Wieħed mill-corpus l-aktar notevoli u spiss użati għall-valutazzjoni tal-mudelli għat-tikkettar tas-sekwenza huwa l-corpus Ingliż Penn Treebank (PTB), b'mod partikolari l-porzjon tal-corpus li jikkorrispondi għall-artikoli tal-Wall Street Journal.

Kull kelma għandu jkollha l-parti tad-diskors tagħha mmarkata bħala komponent tal-kompitu. Livell tal-karattru u livell tal-kelma immudellar tal-lingwa juża spiss ukoll il-corpus.

10. VoxCeleb

VoxCeleb huwa dataset ta' identifikazzjoni tad-diskors fuq skala kbira ġġenerat awtomatikament minn midja open-source. VoxCeleb għandha aktar minn miljun kelma minn aktar minn 6k kelliema.

Peress li s-sett tad-dejta jinkludi awdjo-viżiv, jista' jintuża għal varjetà ta' applikazzjonijiet addizzjonali, inklużi sinteżi viżiva tad-diskors, separazzjoni tad-diskors, trasferiment transmodali minn wiċċ għall-vuċi jew viċi versa, u taħriġ tar-rikonoxximent tal-wiċċ minn vidjo biex jissupplimenta r-rikonoxximent tal-wiċċ attwali settijiet tad-dejta.

11. SIXray

Is-sett tad-dejta SIXray jinkludi 1,059,231 stampa tar-raġġi X miġbura minn stazzjonijiet tas-subway u annotati minn spetturi tas-sigurtà tal-bniedem biex jiskopru sitt tipi ewlenin ta 'oġġetti pprojbiti: pistoli, skieken, wrenches, tnalji, imqassijiet, u mrietel. Barra minn hekk, kaxxi tal-konfini għal kull oġġett mhux permess ġew miżjuda manwalment mas-settijiet tal-ittestjar sabiex tiġi evalwata l-prestazzjoni tal-lokalizzazzjoni tal-oġġett.

12. Inċidenti fl-Istati Uniti

Is-sustanza tal-proġett diġà hija żvelata bl-isem tas-sett tad-dejta, US Accidents. Dan is-sett tad-dejta dwar l-inċidenti tal-karozzi fil-pajjiż kollu jinkludi informazzjoni minn Frar 2016 sa Diċembru 2021 u jkopri 49 stat fl-Istati Uniti.

Madwar 1.5 miljun rekord ta' inċidenti issa huma preżenti f'din il-kollezzjoni. Inġabret f'ħin reali billi użaw diversi APIs tat-traffiku.

Dawn l-APIs jittrażmettu informazzjoni dwar it-traffiku miġbura minn varjetà ta’ sorsi, inklużi kameras tat-traffiku, organizzazzjonijiet tal-infurzar tal-liġi, u d-dipartimenti tat-trasport tal-Istati Uniti u tal-istat.

13. Rikonoxximent tal-Mard Okulari

Id-database oftalmika organizzata Ocular Disease Intelligent Recognition (ODIR) fiha informazzjoni dwar 5,000 pazjent, inkluża l-età tagħhom, il-kulur tal-fundus fl-għajnejn tagħhom tax-xellug u tal-lemin, u keywords dijanjostiċi tal-professjonisti mediċi.

Dan is-sett tad-dejta huwa ġabra attwali ta 'dejta tal-pazjent minn diversi sptarijiet u faċilitajiet mediċi fiċ-Ċina li Shanggong Medical Technology Co., Ltd akkwistat. Bil ġestjoni tal-kontroll tal-kwalità, annotazzjonijiet ġew ittikkettati minn qarrejja umani tas-sengħa.

14. Mard tal-qalb

Dan is-sett tad-dejta dwar il-mard tal-qalb jgħin fl-identifikazzjoni tal-eżistenza ta 'mard tal-qalb f'pazjent ibbażat fuq 76 parametru bħall-età, is-sess, it-tip ta' uġigħ fis-sider, pressjoni tad-demm ta 'mistrieħ, eċċ.

Bi 303 każ, id-database tfittex sempliċement li tiddistingwi l-eżistenza ta’ marda (valur 1,2,3,4) mill-assenza tagħha (valur 0).

15. CLEVR

Is-sett tad-dejta CLEVR (Lingwa Kompożizzjonili u Raġunar Viżwali Elementari) jimita t-Tweġiba tal-Mistoqsijiet Viżwali. Tikkonsisti f’ritratti ta’ oġġetti mogħtija bi 3D, b’kull ritratt akkumpanjat minn serje ta’ mistoqsijiet ta’ kompożizzjoni għolja maqsuma f’diversi kategoriji.

Għall-istampi u l-mistoqsijiet kollha tal-ferrovija u tal-validazzjoni, is-sett tad-dejta jinkludi 70,000 ritratt u 700,000 mistoqsija għat-taħriġ, 15,000 immaġini u 150,000 mistoqsija għall-validazzjoni, u 15,000 immaġini u 150,000 mistoqsija għall-ittestjar li jinvolvu oġġetti, tweġibiet, programmi tax-xena, u graffs funzjonali.

16. Dipendenzi Universali

Il-proġett tad-Dipendenzi Universali (UD) għandu l-għan li joħloq morfoloġija uniformi trans-lingwistika u annotazzjoni tas-siġar tas-sintassi għal ħafna lingwi. Il-verżjoni 2.7, li ġiet rilaxxata fl-2020, għandha 183 treebank f'104 lingwa.

L-annotazzjoni hija magħmula minn tikketti POW universali, irjus ta 'dipendenza, u tikketti ta' dipendenza universali.

17. KITTI – 360

Wieħed mis-settijiet tad-dejta l-aktar użati għal robots mobbli u sewqan awtonomu huwa KITTI (Karlsruhe Institute of Technology u Toyota Technological Institute).

Huwa magħmul minn xenarji ta' sigħat ta' traffiku li nqabdu bl-użu ta' firxa ta' modalitajiet tas-sensuri, bħal RGB b'riżoluzzjoni għolja, stereo fuq skala griża, u kameras tal-iskaner bil-lejżer 3D. Is-sett tad-dejta tjieb maż-żmien minn diversi riċerkaturi li manwalment annotaw diversi porzjonijiet minnu biex jaqbel mal-bżonnijiet tagħhom.

18. MOT (Traċċar ta' Oġġetti Multipli)

MOT (Multiple Object Tracking) huwa sett ta' dejta għal traċċar ta' oġġetti multipli li jinkludi xenarji ta' ġewwa u ta' barra ta' postijiet pubbliċi li jinkludu persuni mexjin bħala l-oġġetti ta' interess. Il-filmat ta’ kull xena jinqasam f’żewġ biċċiet, waħda għat-taħriġ u l-oħra għall-ittestjar.

Is-sett tad-dejta jinkludi sejbien ta' oġġetti f'frejms tal-vidjo bl-użu ta' tliet ditekters: SDP, Faster-RCNN, u DPM.

19. PASCAL 3D+

Is-sett tad-dejta b'ħafna opinjonijiet Pascal3D+ huwa magħmul minn ritratti miġbura fis-selvaġġ, jiġifieri, stampi ta' kategoriji ta' oġġetti b'varjabbiltà għolja, maqbuda f'ċirkostanzi mhux ikkontrollati, f'ambjenti iffullati, u f'varjetà ta' pożizzjonijiet. Pascal3D+ jinkludi 12-il kategorija ta' oġġetti riġidi meħuda mis-sett tad-dejta PASCAL VOC 2012.

Dawn l-oġġetti għandhom informazzjoni dwar il-qagħda mmarkata fuqhom (ażimut, elevazzjoni, u distanza għall-kamera). Pascal3D+ jinkludi wkoll ritratti annotati bil-pożi mill-kollezzjoni ImageNet f'dawn it-12-il kategorija.

20. Mudelli Deformabbli tal-wiċċ ta 'Annimali

L-għan tal-proġett tal-Facial Deformable Models of Animals (FDMA) huwa li jisfida metodoloġiji attwali fl-identifikazzjoni u l-intraċċar tal-marki tal-wiċċ tal-bniedem u li jiġu żviluppati algoritmi ġodda li jistgħu jittrattaw il-varjabbiltà konsiderevolment akbar li hija karatteristika tal-karatteristiċi tal-wiċċ tal-annimali.

L-algoritmi tal-proġett urew il-kapaċità li jirrikonoxxu u jsegwu postijiet familjari fuq uċuħ umani waqt li jittrattaw varjanzi indotti minn bidliet fl-emozzjonijiet jew pożizzjonijiet tal-wiċċ, okklużjonijiet parzjali, u dawl.

21. Sett tad-Data tal-Posta Umana MPII

L-MPII Human Pose Dataset fih madwar 25K ritratti, li 15K minnhom huma kampjuni ta’ taħriġ, 3K minnhom huma kampjuni ta’ validazzjoni, u 7K minnhom huma kampjuni ta’ ttestjar.

Il-pożizzjonijiet huma ttikkettjati manwalment b'sa 16-il ġonot tal-ġisem, u r-ritratti jittieħdu minn films ta 'YouTube li jkopru 410 attività umana varji.

22. UCF101

Is-sett tad-dejta UCF101 fih 13,320 video clip organizzati f'101 kategorija. Dawn il-101 kategorija huma maqsuma f'ħames kategoriji: movimenti tal-ġisem, interazzjonijiet bniedem-bniedem, interazzjonijiet bniedem-oġġett, daqq ta 'strumenti mużikali, u sports.

Il-vidjows huma minn YouTube u jdumu 27 siegħa.

23. Audioset

Audioset huwa sett tad-dejta tal-avvenimenti tal-awdjo magħmul minn aktar minn 2 miljun segment tal-vidjo ta' 10 sekondi annotati mill-bniedem. Biex tiġi annotata din id-dejta, tintuża ontoloġija ġerarkika li tinkludi 632 tip ta' avveniment, li jimplika li l-istess ħoss jista' jiġi ttikkettjat b'mod differenti.

24. Inferenza tal-Lingwa Naturali Stanford

Is-sett tad-dejta SNLI (Stanford Natural Language Inference) fih 570k koppja ta' sentenzi li ġew ikkategorizzati manwalment bħala involviment, kontradizzjoni jew newtrali.

Il-bini huma deskrizzjonijiet ta' stampi Flickr30k, filwaqt li l-ipoteżijiet ġew żviluppati minn annotaturi ta' oriġini folla li ngħataw premessa u ngħataw struzzjonijiet biex jiġġeneraw dikjarazzjonijiet li jinvolvu, kontradittorji u newtrali.

25. Mistoqsija Viżwali Tweġiba

Visual Question Answering (VQA) huwa dataset li fih mistoqsijiet miftuħa dwar stampi. Biex twieġeb dawn il-mistoqsijiet, trid tifhem il-viżjoni, il-lingwa, u s-sens komun.

konklużjoni

Hekk kif it-tagħlim tal-magni u l-intelliġenza artifiċjali (AI) isiru aktar prevalenti prattikament f’kull negozju u fil-ħajja tagħna ta’ kuljum, hekk ukoll in-numru ta’ riżorsi u informazzjoni disponibbli dwar is-suġġett.

Settijiet ta’ dejta pubbliċi lesti jipprovdu punt ta’ tluq mill-aqwa biex jiġu żviluppati mudelli AI filwaqt li jippermettu wkoll li programmaturi ML imħawwar jiffrankaw il-ħin u jiffokaw fuq elementi oħra tal-proġetti tagħhom.

L-Aħjar Settijiet tad-Data ta’ Taħriġ tal-AI Alternattivi

25 L-Aħjar Settijiet tad-Dejta ta’ Taħriġ tal-AI Alternattiva

1. CelebFaces Attributi Dataset

2. DOTA

3. Sett ta' dejta tal-paragun tal-espressjoni tal-wiċċ ta' Google

4. Ġenoma Viżwali

5. LibriSpeech

6. L-Ispazji tal-Belt

7. Kinetics Dataset

8. CelebAMsk-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Inċidenti fl-Istati Uniti

13. Rikonoxximent tal-Mard Okulari

14. Mard tal-qalb

15. CLEVR

16. Dipendenzi Universali

17. KITTI – 360

18. MOT (Traċċar ta' Oġġetti Multipli)

19. PASCAL 3D+

20. Mudelli Deformabbli tal-wiċċ ta 'Annimali

21. Sett tad-Data tal-Posta Umana MPII

22. UCF101

23. Audioset

24. Inferenza tal-Lingwa Naturali Stanford

25. Mistoqsija Viżwali Tweġiba

konklużjoni

dwar Jay

Aktar Artikoli fuq HashDork:

Kif tnaqqas l-alluċinazzjonijiet fl-AI tiegħek

Colossyan vs Heygen

Dan Future Tech Newsletter Ma Terdax

25 L-Aħjar Settijiet tad-Dejta ta’ Taħriġ tal-AI Alternattiva

1. CelebFaces Attributi Dataset

2. DOTA

3. Sett ta' dejta tal-paragun tal-espressjoni tal-wiċċ ta' Google

4. Ġenoma Viżwali

5. LibriSpeech

6. L-Ispazji tal-Belt

7. Kinetics Dataset

8. CelebAMsk-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Inċidenti fl-Istati Uniti

13. Rikonoxximent tal-Mard Okulari

14. Mard tal-qalb

15. CLEVR

16. Dipendenzi Universali

17. KITTI – 360

18. MOT (Traċċar ta' Oġġetti Multipli)

19. PASCAL 3D+

20. Mudelli Deformabbli tal-wiċċ ta 'Annimali

21. Sett tad-Data tal-Posta Umana MPII

22. UCF101

23. Audioset

24. Inferenza tal-Lingwa Naturali Stanford

25. Mistoqsija Viżwali Tweġiba

konklużjoni

dwar Jay

Aktar Artikoli fuq HashDork:

Kif tnaqqas l-alluċinazzjonijiet fl-AI tiegħek

10 L-Aħjar Għodod tal-AI għall-Midja Soċjali

Colossyan vs Heygen

10 L-Aħjar Għodod Animated Video Maker AI

Interazzjonijiet Reader

Ħalli Irrispondi Ikkanċella risposta

Dan Future Tech Newsletter Ma Terdax