Clár na nÁbhar[Folaigh][Taispeáin]
- 1. Tacar Sonraí Tréithe CelebFaces
- 2. DÓTA
- 3. Tacar sonraí comparáide Google Facial Expression
- 4. Géanóm Amharc
- 5. LibiSpeech
- 6. Na Spásanna Cathrach
- 7. Cinéitic Tacar Sonraí
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. Timpistí SAM
- 13. Aitheantas Galar Súile
- 14. Galar Croí
- 15. CLEVR
- 16. Spleáchais Uilíocha
- 17. KITTI – 360
- 18. MOT (Rianú Il-Réada)
- 19. Pascal 3D+
- 20. Samhlacha Ainmhithe In-dhífhoirmithe Aghaidhe
- 21. Tacar Sonraí Poist Daonna MPII
- 22. UCF101
- 23. Gléas fuaime
- 24. Stanford Tátal Teanga Nádúrtha
- 25. Freagra Ceist Amharc
- Conclúid
Sa lá atá inniu ann, tá an chuid is mó againn dírithe ar shamhlacha meaisínfhoghlama agus AI a fhorbairt agus aghaidh a thabhairt ar shaincheisteanna ag baint úsáide as tacair shonraí reatha. Ach ar dtús, ní mór dúinn tacar sonraí a shainiú, a thábhacht, agus a ról maidir le réitigh láidre AI agus ML a fhorbairt.
Sa lá atá inniu ann, tá raidhse tacar sonraí foinse oscailte againn ar féidir taighde a dhéanamh orthu nó feidhmchláir a fhorbairt chun dul i ngleic le saincheisteanna sa saol fíor in earnálacha éagsúla.
Is cúis imní é, áfach, go bhfuil ganntanas tacar sonraí cainníochtúla ar ardchaighdeán ann. Tá méadú ollmhór tagtha ar na sonraí agus leanfaidh siad ag méadú ag ráta níos tapúla amach anseo.
Sa phost seo, clúdóidh muid tacair shonraí atá ar fáil go héasca agus is féidir leat a úsáid chun do chéad tionscadal AI eile a fhorbairt.
1. Tacar Sonraí Tréithe CelebFaces
Tá os cionn 200K grianghraf cáiliúla agus 40 nóta aitreabúide le haghaidh gach íomhá i dtacar sonraí CelebFaces Attributes (CelebA), rud a fhágann gur pointe tosaigh iontach é do thionscadail ar nós aitheantas aghaidh, lorg aghaidhe, logánú sainchomhartha (nó comhpháirt aghaidhe), agus eagarthóireacht aghaidh & sintéis. Ina theannta sin, tá raon leathan malairtí suímh agus tranglam cúlra sna grianghraif sa bhailiúchán seo.
2. DOTA
DOTA (Tacar Sonraí de Brath Cuspóra in Aer-Ghrianghraif) tacar sonraí ar mhórscála chun réada a bhrath a chuimsíonn 15 chatagóir choiteann (eg, long, eitleán, carr, etc.), 1411 íomhá le haghaidh oiliúna, agus 458 íomhá le haghaidh bailíochtaithe.
3. Tacar sonraí comparáide Google Face Expression
Tá thart ar 500,000 triplets pictiúr i dtacar sonraí comparáide gnúise Google, lena n-áirítear 156,000 grianghraf aghaidh. Is fiú a thabhairt faoi deara go ndearna seisear rátaithe daonna ar a laghad nótaí ar gach triplet sa tacar sonraí seo.
Tá an tacar sonraí seo úsáideach do thionscadail a bhaineann le hanailís aghaidhléirithe, mar aisghabháil pictiúr bunaithe ar chaint, catagóiriú mothúcháin, sintéis slonn, agus mar sin de. Chun rochtain a fháil ar an tacar sonraí, ní mór foirm ghairid a chomhlánú.
4. Géanóma Amhairc
Amharc-Cheist Tá sonraí freagartha i dtimpeallacht ilroghnacha ar fáil in Visual Genome. Tá sé comhdhéanta de 101,174 grianghraf MSCOCO le 1.7 milliún péire QA, le meán de 17 gceist in aghaidh an íomhá.
I gcomparáid leis an tacar sonraí Amharc-Cheisteanna Freagartha, tá dáileadh níos cothroime ar an tacar sonraí Genome Amhairc thar sé chineál ceiste: Cad, Cá háit, Cathain, Cé, Cén Fáth, agus Conas.
Ina theannta sin, cuimsíonn an tacar sonraí Visual Genome grianghraif 108K a ndearnadh clib trom orthu le rudaí, airíonna agus naisc.
5. LibiSpeech
Bailiúchán de thart ar 1,000 uair an chloig de chlosleabhair ón tionscadal LibriVox is ea corpas LibrSpeech. Is ó Project Gutenberg a tháinig formhór na gcluasleabhair.
Tá na sonraí oiliúna roinnte i dtrí dheighilt de thacair 100 uair, 360 uair, agus 500 uair, agus tá fad fuaime na sonraí dev agus tástála thart ar 5 uair.
6. Na Cathrachspásanna
Tugtar The Cityscapes ar cheann de na bunachair shonraí mórscála is cáiliúla d’fhíseáin steirió le radharcanna uirbeacha.
Le nótaí atá cruinn ó thaobh picteilín de, lena n-áirítear láithreacha GPS, an teocht amuigh faoin aer, sonraí gluaiseachta ego, agus peirspictíochtaí ceart steirió, áirítear ann taifeadtaí ó 50 cathair Gearmánach ar leith.
7. Cinéitic Tacar Sonraí
Tá an tacar sonraí Cinéitic ar cheann de na tacair shonraí físeáin is cáiliúla chun gníomhaíocht dhaonna a aithint ar scála mór agus ar ardchaighdeán. Tá 600 gearrthóg físe ar a laghad ann do gach ceann de na 600 rang gníomhaíochta daonna, sin breis agus 500,000 san iomlán.
Tarraingíodh na scannáin ó YouTube; tá gach ceann timpeall 10 soicind ar fad agus níl ach rang gníomhaíochta amháin liostaithe.
8. CelebAMask-HQ
Is bailiúchán é CelebAMask-HQ de 30,000 grianghraf aghaidh ardtaifigh le maisc anótáilte go cúramach agus 19 rang a chuimsíonn comhpháirteanna aghaidhe cosúil le craiceann, srón, súile, malaí, cluasa, béal, liopaí, gruaig, hata, spéaclaí, cluaise, muince, muineál, ábhar.
Is féidir an tacar sonraí a úsáid chun aithint aghaidhe, parsáil aghaidheanna, agus GANanna a thástáil agus a oiliúint le haghaidh algartaim aghaidh-ghiniúna agus eagarthóireachta.
9. Bruach na gCrann Penn
Tá corpas Béarla Penn Treebank (PTB) ar cheann de na corpas is suntasaí agus a úsáidtear go minic chun measúnú a dhéanamh ar mhúnlaí clibeála seichimh, go háirithe an chuid den chorpas a chomhfhreagraíonn d’ailt Wall Street Journal.
Caithfidh gach focal a chuid cainte a bheith clibáilte mar chuid den tasc. Leibhéal carachtair agus leibhéal focal samhaltú teanga úsáideann an corpas go minic freisin.
10. VoxCeleb
Is tacar sonraí sainaitheanta cainte ar mhórscála é VoxCeleb a ghintear go huathoibríoch ó meáin foinse oscailte. Tá os cionn milliún cainte ag VoxCeleb ó níos mó ná 6k cainteoir.
Toisc go n-áirítear closamhairc sa tacar sonraí, is féidir é a úsáid le haghaidh éagsúlacht d’fheidhmchláir bhreise, lena n-áirítear sintéis urlabhra amhairc, scaradh cainte, aistriú trasmhódúil ó aghaidh go guth nó vice versa, agus oiliúint aitheantais aghaidh ó fhíseán chun aitheantas aghaidh reatha a fhorlíonadh. tacair shonraí.
11. SIXray
Áirítear le tacar sonraí SIXray 1,059,231 pictiúr X-gha a bailíodh ó stáisiúin fobhealach agus atá anótáilte ag cigirí slándála daonna chun sé phríomhchineál míreanna toirmiscthe a bhrath: piostail, sceana, rinsí, greamairí, siosúr agus casúir. Ina theannta sin, cuireadh boscaí teorann le haghaidh gach míre dícheadaithe leis na tacair tástála de láimh chun feidhmíocht logánú réad a mheas.
12. Timpistí SAM
Tá substaint an tionscadail le fios cheana féin faoi ainm an tacar sonraí, US Accidents. Áiríonn an tacar sonraí seo ar thimpistí gluaisteán ar fud na tíre faisnéis ó Feabhra 2016 go Nollaig 2021 agus clúdaíonn sé 49 stát i SAM.
Tá thart ar 1.5 milliún taifead timpistí sa bhailiúchán seo anois. Bailíodh é i bhfíor-am trí roinnt API tráchta a úsáid.
Tarchuireann na APIanna seo faisnéis tráchta a bhailítear ó fhoinsí éagsúla, lena n-áirítear ceamaraí tráchta, eagraíochtaí forfheidhmithe dlí, agus ranna iompair SAM agus stáit.
13. Aitheantas Galar Ocular
Tá faisnéis ar 5,000 othar sa bhunachar sonraí oftalmach eagraithe um Aithint Chliste um Ghalair Ocular (ODIR), lena n-áirítear a n-aois, dath an chiste ina súile clé agus ar dheis, agus eochairfhocail dhiagnóiseacha gairmithe leighis.
Is é an tacar sonraí seo ná bailiúchán iarbhír sonraí othar ó ospidéil agus áiseanna leighis éagsúla sa tSín a fuair Shanggong Medical Technology Co., Ltd. Le bainistíocht rialaithe cáilíochta, rinne léitheoirí daonna oilte na nótaí a chlibeáil.
14. Galar Croí
Cuidíonn an tacar sonraí Galar Croí seo le galar croí a aithint in othar bunaithe ar 76 paraiméadair mar aois, inscne, cineál pian cliabhraigh, brú fola scíthe, agus mar sin de.
Le 303 cás, féachann an bunachar le hidirdhealú simplí a dhéanamh idir breoiteacht (luach 1,2,3,4) agus é as láthair (luach 0).
15. CLEVR
Déanann tacar sonraí CLEVR (Teanga Comhdhéanta agus Bunús Amhairc) aithris ar Fhreagra Ceist Amharc. Tá sé comhdhéanta de ghrianghraif de réada rindreáilte 3D, le gach grianghraf in éineacht le sraith ceisteanna an-chumadóireachta roinnte i gcatagóirí éagsúla.
I gcás gach pictiúr agus ceist traenach agus bailíochtaithe, cuimsíonn an tacar sonraí 70,000 grianghraf agus 700,000 ceist le haghaidh oiliúna, 15,000 íomhá agus 150,000 ceist le bailíochtú, agus 15,000 íomhá agus 150,000 ceist le haghaidh tástála a bhaineann le réada, freagraí, graif radhairc, agus cláir fheidhmiúla.
16. Spleáchais Uilíoch
Tá sé mar aidhm ag an tionscadal um Spleáchas Uilíoch (UD) deilbhíocht tras-teangeolaíoch aonfhoirmeach agus crannchuir chomhréire a chruthú do go leor teangacha. Tá 2.7 banc crann i 2020 teanga ag Leagan 183, a eisíodh in 104.
Tá an nóta comhdhéanta de chlibeanna uilíocha POW, cinn spleáchais, agus lipéid spleáchais uilíoch.
17. KitTI – 360
Ceann de na tacair shonraí is minice a úsáidtear le haghaidh robots soghluaiste agus tiomáint uathrialach Is é KITTI (Institiúid Teicneolaíochta Karlsruhe agus Institiúid Teicneolaíochta Toyota).
Tá sé comhdhéanta d’fhiú uaireanta de chásanna tráchta a gabhadh ag baint úsáide as raon módúlachtaí braiteora, mar shampla RGB ardtaifigh, steirió liathscála, agus ceamaraí scanóir léasair 3D. Feabhsaíodh an tacar sonraí le himeacht ama ag go leor taighdeoirí a rinne anótáil de láimh ar chodanna éagsúla de chun freastal ar a gcuid riachtanas.
18. MOT(Rianú Il-Réada)
Is tacar sonraí é MOT (Multiple Object Tracking) le haghaidh rianaithe réad iolracha a áiríonn radharcra laistigh agus lasmuigh de shuíomhanna poiblí a áiríonn coisithe mar ábhar spéise. Tá físeán gach radharc briste ina dhá phíosa, ceann amháin le haghaidh oiliúna agus an ceann eile le haghaidh tástála.
Áirítear leis an tacar sonraí braite réad i bhfrámaí físeáin ag baint úsáide as trí bhrathadóir: SDP, Faster-RCNN, agus DPM.
19. Pascal 3D+
Tá tacar sonraí ilamhairc Pascal3D+ comhdhéanta de ghrianghraif a bailíodh san fhiántas, .i. íomhánna de chatagóirí míreanna a bhfuil éagsúlacht ard acu, a gabhadh i gcúinsí neamhrialaithe, i dtimpeallachtaí plódaithe, agus i suíomhanna éagsúla. Áiríonn Pascal3D+ 12 chatagóir oibiachta dochta arna dtarraingt ó thacar sonraí PASCAL VOC 2012.
Tá faisnéis staidiúir marcáilte ar na míreanna seo (azimuth, ingearchló, agus fad go dtí an ceamara). Áiríonn Pascal3D+ freisin grianghraif le nótaí posa ó bhailiúchán ImageNet sna 12 chatagóir seo.
20. Múnlaí Aghaidh Dhífhoirmithe Ainmhithe
Is é sprioc an tionscadail Múnlaí Aghaidh-Dífhoirmithe Ainmhithe (FDMA) ná dúshlán a thabhairt do mhodheolaíochtaí reatha maidir le sainaithint agus rianú aghaidheanna an duine agus halgartaim nua a fhorbairt a fhéadfaidh déileáil leis an inathraitheacht i bhfad níos mó atá mar shaintréithe de shaintréithe aghaidheanna ainmhithe.
Léirigh halgartaim an tionscadail an cumas sainchomharthaí tíre ar aghaidheanna daonna a aithint agus a rianú agus ag déileáil le hathraitheas a tharlódh de bharr athruithe ar mhothúcháin nó ar shuímh aghaidhe, ar pháirt-occlusion, agus ar shoilsiú.
21. Tacar Sonraí Poist Dhaonna MPII
Tá thart ar 25K grianghraf i Thacar Sonraí Pose Daonna MPII, ar samplaí oiliúna iad 15K díobh, ar samplaí bailíochtaithe iad 3K acu, agus 7K acu ina samplaí tástála.
Déantar na poist a lipéadú de láimh le suas le 16 alt coirp, agus tógtar na grianghraif ó scannáin YouTube a chlúdaíonn 410 gníomhaíocht dhaonna éagsúla.
22. UCF101
Tá 101 gearrthóg físe eagraithe i 13,320 chatagóir i dtacar sonraí UCF101. Tá na 101 chatagóir seo roinnte i gcúig chatagóir: gluaiseachtaí coirp, idirghníomhaíochtaí daonna-daonna, idirghníomhaíochtaí daonna-réada, seinm uirlisí ceoil, agus spóirt.
Tá na físeáin ó YouTube agus tá siad 27 uair an chloig ar fad.
23. Tacar fuaime
Is tacar sonraí d’imeachtaí fuaime é Audioset ina bhfuil breis agus 2 mhilliún mír fhíseáin 10 soicind anótáilte ag an duine. Chun na sonraí seo a anótáil, úsáidtear onteolaíocht ordlathach a chuimsíonn 632 cineál teagmhais, a thugann le tuiscint go bhféadfaí an fhuaim chéanna a lipéadú ar bhealach difriúil.
24. Tátal Teanga Nádúrtha Stanford
I dtacar sonraí SNLI (Tátal Teanga Nádúrtha Stanford) tá 570 péire abairtí atá catagóirithe de láimh mar eibleacht, contrárthacht, nó neodrach.
Is éard atá san áitreabh ná tuairiscí pictiúr Flickr30k, agus d’fhorbair anótálaithe sluafhoinsithe hipitéisí ar cuireadh bonn dóibh agus ar tugadh treoir dóibh ráitis mhionsonraithe, bhréagacha agus neodracha a ghiniúint.
25. Freagra Ceist Amharc
Is tacar sonraí é Freagra Amharc-Cheisteanna (VQA) ina bhfuil ceisteanna neamhiata maidir le pictiúir. Chun na ceisteanna seo a fhreagairt, ní mór duit fís, teanga agus tuiscint choiteann a thuiscint.
Conclúid
De réir mar a éiríonn meaisínfhoghlaim agus intleacht shaorga (AI) níos forleithne i mbeagnach gach gnó agus inár saol laethúil, is amhlaidh atá an méid acmhainní agus faisnéise atá ar fáil ar an ábhar.
Soláthraíonn tacair sonraí poiblí réamhullmhaithe pointe tosaigh iontach chun samhlacha AI a fhorbairt agus ag an am céanna ligeann do ríomhchláraitheoirí ML séasúracha am a shábháil agus díriú ar ghnéithe eile dá gcuid tionscadal.
Leave a Reply