25 bestu val AI þjálfunargagnasettin (2024)

Nú á dögum erum við flest að einbeita okkur að því að þróa vélanám og gervigreind módel og takast á við vandamál með því að nota núverandi gagnapakka. En fyrst verðum við að skilgreina gagnapakka, mikilvægi þess og hlutverk þess við að þróa sterkar gervigreind og ML lausnir.

Í dag höfum við ofgnótt af opnum gagnasöfnum til að framkvæma rannsóknir eða þróa forrit til að takast á við raunveruleg vandamál í ýmsum geirum.

Hins vegar er skortur á hágæða magnbundnum gagnasöfnum áhyggjuefni. Gögn hafa hækkað gríðarlega og munu halda áfram að stækka hraðar í framtíðinni.

Í þessari færslu munum við fjalla um frjáls tiltæk gagnasöfn sem þú getur notað til að þróa næsta gervigreind verkefni.

1. Gagnasett fyrir CelebFaces eiginleika

CelebFaces Attributes Dataset (CelebA) inniheldur yfir 200 stjörnumyndir og 40 eiginleikaskýringar fyrir hverja mynd, sem gerir það að frábærum upphafspunkti fyrir verkefni eins og andlitsþekking, andlitsgreining, staðsetning kennileita (eða andlitshluta) og andlitsbreyting og myndun andlits. Ennfremur innihalda myndirnar í þessu safni mikið úrval af stöðuafbrigðum og rugl í bakgrunni.

2. DOTA

DOTA (gagnasett af Hlutgreining in Aerial Photos) er umfangsmikið gagnasafn fyrir hlutgreiningu sem inniheldur 15 algenga flokka (td skip, flugvél, bíl, osfrv.), 1411 myndir til þjálfunar og 458 myndir til staðfestingar.

3. Samanburðargagnasafn fyrir andlitstjáningu Google

Samanburðargagnasafn Google fyrir andlitstjáning inniheldur um 500,000 þríburamyndir, þar á meðal 156,000 andlitsmyndir. Þess má geta að hver þríhyrningur í þessu gagnasafni var skrifaður af að minnsta kosti sex mannlegum matsmönnum.

Þetta gagnasafn er gagnlegt fyrir verkefni sem fela í sér greiningu á andlitstjáningu, svo sem myndheimtu sem byggir á tjáningu, tilfinningaflokkun, tjáningarmyndun og svo framvegis. Til að fá aðgang að gagnasafninu þarf að fylla út stutt eyðublað.

4. Sjónrænt erfðamengi

Visual Question Svargögn í fjölvalsumhverfi eru fáanleg í Visual Genome. Það samanstendur af 101,174 MSCOCO myndum með 1.7 milljón QA pörum, með 17 spurningum að meðaltali á hverja mynd.

Í samanburði við gagnasöfnun Visual Question Answering hefur Visual Genome gagnapakkanum sanngjarnari dreifingu á sex spurningategundir: Hvað, Hvar, Hvenær, Hver, Hvers vegna og Hvernig.

Að auki inniheldur Visual Genome gagnasafnið 108K myndir sem hafa verið mjög merktar með hlutum, eiginleikum og tengingum.

5. LibriSpeech

LibriSpeech corpus er safn um 1,000 klukkustunda af hljóðbókum frá LibriVox verkefninu. Meirihluti hljóðbókanna kemur frá Project Gutenberg.

Þjálfunargögnunum er skipt í þrjú skipting, 100 klst., 360 klst. og 500 klst. sett, en þróunar- og prófunargögnin eru um það bil 5 klst. að lengd hljóðs.

6. Borgarrýmin

Einn þekktasti umfangsmikli gagnagrunnur með hljómtæki myndböndum með útsýni yfir borgina heitir The Cityscapes.

Með punkta-nákvæmum athugasemdum sem innihalda GPS staðsetningar, útihitastig, gögn um sjálfshreyfingar og rétt steríósjónarhorn, inniheldur það upptökur frá 50 aðskildum þýskum borgum.

7. Kinetics gagnasett

Eitt af þekktustu myndbandsgagnasöfnunum til að bera kennsl á mannlega starfsemi í stórum stíl og með góðum gæðum er Kinetics gagnasafnið. Það eru að minnsta kosti 600 myndinnskot fyrir hvern af 600 flokkum manna, samtals yfir 500,000 alls.

Myndirnar voru dregnar af YouTube; hver og einn er um 10 sekúndur að lengd og hefur aðeins einn virkniflokk á listanum.

8. CelebAMask-HQ

CelebAMask-HQ er safn 30,000 andlitsmynda í hárri upplausn með vandlega merktum grímum og 19 flokkum sem innihalda andlitshluta eins og húð, nef, augu, augabrúnir, eyru, munn, vör, hár, hatt, gleraugu, eyrnalokka, hálsmen, háls, efni.

Hægt er að nota gagnasafnið til að prófa og þjálfa andlitsgreiningu, andlitsþáttun og GANs fyrir andlitsmyndagerð og breyting á reikniritum.

9. Penn Treebank

Einn athyglisverðasti og oft notaði corpora fyrir mat á líkönum fyrir raðmerkingar er enska Penn Treebank (PTB) corpus, einkum sá hluti corpus sem samsvarar greinum í Wall Street Journal.

Hvert orð verður að hafa sinn orðhluta merkt sem hluti af verkefninu. Persónustig og orðastig tungumálalíkön notar líka oft corpus.

10. VoxCeleb

VoxCeleb er umfangsmikið talauðkenningargagnasett sem er búið til sjálfkrafa úr opnum miðlum. VoxCeleb hefur yfir milljón orð frá yfir 6 þúsund hátölurum.

Þar sem gagnasafnið inniheldur hljóð- og myndefni er hægt að nota það fyrir margs konar viðbótarforrit, þar á meðal sjónræna talgervil, talaðskilnað, þvert á flutning frá andliti til rödd eða öfugt, og þjálfun andlitsgreiningar úr myndbandi til að bæta við núverandi andlitsgreiningu gagnasöfn.

11. SIXray

SIXray gagnasafnið inniheldur 1,059,231 röntgenmyndir sem safnað hefur verið frá neðanjarðarlestarstöðvum og skráðar af öryggiseftirlitsmönnum til að greina sex helstu tegundir bannaðra hluta: skammbyssur, hnífa, skiptilykla, tangir, skæri og hamar. Ennfremur hefur afmörkunarreitum fyrir hvern óleyfilegan hlut verið bætt handvirkt við prófunarsettin til að meta frammistöðu staðsetningar hluta.

12. Bandarísk slys

Efni verkefnisins er þegar komið í ljós með nafni gagnasafnsins, US Accidents. Þetta gagnasafn um bifreiðaslys á landsvísu inniheldur upplýsingar frá febrúar 2016 til desember 2021 og nær yfir 49 fylki í Bandaríkjunum.

Um það bil 1.5 milljónir slysaskráa eru nú til í þessu safni. Það var safnað saman í rauntíma með því að nota nokkur umferðar-API.

Þessi API senda umferðarupplýsingar sem safnað er frá ýmsum aðilum, þar á meðal umferðarmyndavélum, löggæslustofnunum og flutningadeildum Bandaríkjanna og ríkisins.

13. Augnsjúkdómaviðurkenning

Skipulagður gagnagrunnur augnlækninga Ocular Disease Intelligent Recognition (ODIR) inniheldur upplýsingar um 5,000 sjúklinga, þar á meðal aldur þeirra, lit augnbotnsins í vinstra og hægra augum og greiningarorð heilbrigðisstarfsmanna.

Þetta gagnasafn er raunverulegt safn sjúklingagagna frá ýmsum sjúkrahúsum og sjúkrastofnunum í Kína sem Shanggong Medical Technology Co., Ltd. hefur eignast. Með stjórnun gæðaeftirlits, athugasemdir voru merktar af færum mönnum lesendum.

14. Heart Disease

Þetta gagnasafn um hjartasjúkdóma hjálpar til við að bera kennsl á tilvist hjartasjúkdóma hjá sjúklingi út frá 76 breytum eins og aldri, kyni, tegund brjóstverkja, blóðþrýstingi í hvíld og svo framvegis.

Með 303 tilfellum leitast gagnagrunnurinn einfaldlega við að aðgreina tilvist sjúkdóms (gildi 1,2,3,4) frá fjarveru hans (gildi 0).

15. CLEVR

CLEVR gagnasafnið (Compositional Language and Elementary Visual Reasoning) líkir eftir Visual Question Answering. Það samanstendur af ljósmyndum af hlutum sem eru gerðir í þrívídd, með hverri mynd fylgir röð af mjög samsetningaspurningum sem skipt er í nokkra flokka.

Fyrir allar lestar- og löggildingarmyndir og spurningar samanstendur gagnasafnið af 70,000 ljósmyndum og 700,000 spurningum til þjálfunar, 15,000 myndum og 150,000 spurningum til staðfestingar, og 15,000 myndum og 150,000 spurningum til að prófa sem fela í sér hluti, svör, grafík fyrir sviðsmyndir og virkni.

16. Alhliða ósjálfstæði

The Universal Dependencies (UD) verkefnið miðar að því að búa til þvermálfræðilega samræmda formfræði og setningafræði trjábankaskýringar fyrir mörg tungumál. Útgáfa 2.7, sem kom út árið 2020, hefur 183 trjábanka á 104 tungumálum.

Skýringin samanstendur af alhliða POW merkjum, ávanahausum og alhliða ávanamerkjum.

17. KITTI – 360

Eitt mest notaða gagnasafnið fyrir farsíma vélmenni og sjálfstæður akstur er KITTI (Karlsruhe Institute of Technology og Toyota Technological Institute).

Það samanstendur af klukkustunda virði af umferðaratburðarás sem var tekin með ýmsum skynjaraaðferðum, svo sem háupplausn RGB, grátóna hljómtæki og 3D leysiskanni myndavélar. Gagnapakkinn hefur verið endurbættur með tímanum af nokkrum rannsakendum sem skrifaðu handvirkt ýmsa hluta þess til að henta þörfum þeirra.

18. MOT (Multiple Object Tracking)

MOT (Multiple Object Tracking) er gagnapakka fyrir mælingar á mörgum hlutum sem felur í sér inni- og útilandslag á opinberum stöðum sem innihalda gangandi vegfarendur sem áhugaverða hluti. Myndband hverrar senu er skipt í tvo hluta, annað fyrir þjálfun og hitt til að prófa.

Gagnapakkinn inniheldur hlutgreiningar í myndrömmum með því að nota þrjá skynjara: SDP, Faster-RCNN og DPM.

19. PASCAL 3D+

Pascal3D+ multi-view gagnasafnið samanstendur af ljósmyndum sem safnað er í náttúrunni, þ.e. myndum af vöruflokkum með miklum breytileika, teknar við óviðráðanlegar aðstæður, í fjölmennu umhverfi og á ýmsum stöðum. Pascal3D+ inniheldur 12 stífa hlutaflokka sem dregnir eru úr PASCAL VOC 2012 gagnapakkanum.

Þessir hlutir hafa upplýsingar um líkamsstöðu merktar á sig (azimut, hæð og fjarlægð til myndavélarinnar). Pascal3D+ inniheldur að auki myndir með stellingu frá ImageNet safninu í þessum 12 flokkum.

20. Andlits aflöganleg líkön af dýrum

Markmið verkefnisins Facial Deformable Models of Animals (FDMA) er að ögra núverandi aðferðafræði við auðkenningu og rekja kennileiti í andliti manna og að þróa ný reiknirit sem geta tekist á við töluvert meiri breytileika sem er einkennandi fyrir andlitseiginleika dýra.

Reiknirit verkefnisins sýndu hæfileikann til að þekkja og rekja kennileiti á andlitum manna á meðan þau takast á við frávik sem stafa af breytingum á tilfinningum eða stöðum í andliti, lokunar að hluta og lýsingu.

21. MPII Human Post Gagnasett

MPII Human Pose Dataset inniheldur um það bil 25K myndir, þar af 15K af þjálfunarsýni, 3K af þeim eru staðfestingarsýni og 7K af þeim eru prófunarsýni.

Stöðurnar eru handvirkt merktar með allt að 16 líkamsliðum og myndirnar eru teknar úr YouTube kvikmyndum sem fjalla um 410 ýmsar mannlegar athafnir.

22. UCF101

UCF101 gagnasafnið inniheldur 13,320 myndinnskot sem raðað er í 101 flokk. Þessum 101 flokkum er skipt í fimm flokka: líkamshreyfingar, mann-mann-samskipti, mann-hlut-samskipti, hljóðfæraleik og íþróttir.

Myndböndin eru af YouTube og eru 27 klukkustundir að lengd.

23. Hljóðsett

Audioset er gagnasett fyrir hljóðviðburði sem samanstendur af yfir 2 milljónum 10 sekúndna myndbandsþáttum sem eru merktir manna. Til að skýra þessi gögn er notuð stigveldisverufræði sem samanstendur af 632 atburðategundum, sem gefur til kynna að sama hljóðið gæti verið merkt öðruvísi.

24. Stanford Natural Language Inference

SNLI gagnasafnið (Stanford Natural Language Inference) inniheldur 570 setningarpörun sem hefur verið flokkuð handvirkt sem meðfylgjandi, mótsögn eða hlutlaus.

Forsendur eru Flickr30k myndlýsingar, en tilgátur voru þróaðar af höfundum sem fengu fjöldauppsprettur sem fengu forsendur og leiðbeiningar um að búa til flóknar, mótsagnarkenndar og hlutlausar fullyrðingar.

25. Sjónræn spurningasvar

Visual Question Answering (VQA) er gagnasafn sem inniheldur opnar spurningar varðandi myndir. Til að svara þessum spurningum þarftu að skilja sjón, tungumál og skynsemi.

Niðurstaða

Eftir því sem vélanám og gervigreind (AI) verða algengari í nánast öllum viðskiptum og í daglegu lífi okkar, eykst fjöldi tilfræða og upplýsinga sem eru tiltækar um efnið.

Tilbúin opinber gagnasöfn veita frábæran upphafspunkt til að þróa gervigreind líkön á sama tíma og þeir gera vana ML forritara kleift að spara tíma og einbeita sér að öðrum þáttum verkefna sinna.

25 bestu val AI þjálfunargagnasöfnin

1. Gagnasett fyrir CelebFaces eiginleika

2. DOTA

3. Samanburðargagnasafn fyrir andlitstjáningu Google

4. Sjónrænt erfðamengi

5. LibriSpeech

6. Borgarrýmin

7. Kinetics gagnasett

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Bandarísk slys

13. Augnsjúkdómaviðurkenning

14. Heart Disease

15. CLEVR

16. Alhliða ósjálfstæði

17. KITTI – 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Andlits aflöganleg líkön af dýrum

21. MPII Human Post Gagnasett

22. UCF101

23. Hljóðsett

24. Stanford Natural Language Inference

25. Sjónræn spurningasvar

Niðurstaða

Um okkur Jay

Fleiri greinar um HashDork:

Hvernig á að draga úr ofskynjunum í gervigreind þinni

Colossyan gegn Heygen

Þetta framtíðartæknifréttabréf er ekki sýkt

25 bestu val AI þjálfunargagnasöfnin

1. Gagnasett fyrir CelebFaces eiginleika

2. DOTA

3. Samanburðargagnasafn fyrir andlitstjáningu Google

4. Sjónrænt erfðamengi

5. LibriSpeech

6. Borgarrýmin

7. Kinetics gagnasett

8. CelebAMask-HQ

9. Penn Treebank

10. VoxCeleb

11. SIXray

12. Bandarísk slys

13. Augnsjúkdómaviðurkenning

14. Heart Disease

15. CLEVR

16. Alhliða ósjálfstæði

17. KITTI – 360

18. MOT (Multiple Object Tracking)

19. PASCAL 3D+

20. Andlits aflöganleg líkön af dýrum

21. MPII Human Post Gagnasett

22. UCF101

23. Hljóðsett

24. Stanford Natural Language Inference

25. Sjónræn spurningasvar

Niðurstaða

Um okkur Jay

Fleiri greinar um HashDork:

Hvernig á að draga úr ofskynjunum í gervigreind þinni

10 bestu gervigreindartækin fyrir samfélagsmiðla

Colossyan gegn Heygen

10 bestu gervihnattamyndagerðarverkfærin

lesandi Milliverkanir

Skildu eftir skilaboð Hætta við svar

Þetta framtíðartæknifréttabréf er ekki sýkt