Tabl Cynnwys[Cuddio][Dangos]
- 1. Set Ddata Priodoleddau CelebFaces
- 2. DOTA
- 3. Set ddata cymharu Mynegiant Wyneb Google
- 4. Genom Gweledol
- 5. LibriAraith
- 6. Y Cityspaces
- 7. Set Ddata Cineteg
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. Damweiniau yr Unol Daleithiau
- 13. Adnabod Clefyd y Llygaid
- 14. Clefyd y Galon
- 15. CLEVR
- 16. Dibyniaethau Cyffredinol
- 17. KITTI – 360
- 18. MOT (Tracio Gwrthrychau Lluosog)
- 19. Pascal 3D+
- 20. Modelau Wyneb Anffurfiol o Anifeiliaid
- 21. MPII Set Ddata Post Dynol
- 22. UCF101
- 23. Sainset
- 24. Stanford Casgliad Iaith Naturiol
- 25. Ateb Cwestiynau Gweledol
- Casgliad
Y dyddiau hyn, mae'r rhan fwyaf ohonom yn canolbwyntio ar ddatblygu modelau dysgu peiriannau a deallusrwydd artiffisial a mynd i'r afael â materion gan ddefnyddio setiau data cyfredol. Ond yn gyntaf, rhaid inni ddiffinio set ddata, ei harwyddocâd, a'i rôl wrth ddatblygu datrysiadau AI ac ML cryf.
Heddiw, mae gennym ni lu o setiau data ffynhonnell agored ar gyfer cynnal ymchwil neu ddatblygu cymwysiadau i fynd i'r afael â materion y byd go iawn mewn amrywiaeth o sectorau.
Fodd bynnag, mae prinder setiau data meintiol o ansawdd uchel yn destun pryder. Mae data wedi codi'n aruthrol a bydd yn parhau i ehangu'n gyflymach yn y dyfodol.
Yn y swydd hon, byddwn yn ymdrin â setiau data sydd ar gael am ddim y gallwch eu defnyddio i ddatblygu eich prosiect AI nesaf.
1. Set Ddata Priodoleddau CelebFaces
Mae Set Ddata Priodoleddau CelebFaces (CelebA) yn cynnwys dros 200K o luniau o enwogion a 40 anodiad priodoledd ar gyfer pob delwedd, gan ei wneud yn fan cychwyn ardderchog ar gyfer prosiectau fel adnabod wyneb, canfod wynebau, lleoleiddio tirnod (neu gydran wyneb), a golygu a syntheseiddio wynebau. Ymhellach, mae'r lluniau yn y casgliad hwn yn cynnwys ystod eang o amrywiadau safle ac annibendod cefndir.
2. DOTA
DOTA (set ddata o Canfod Gwrthrych yn Aerial Photos) yn set ddata ar raddfa fawr ar gyfer canfod gwrthrychau sy'n cynnwys 15 categori cyffredin (ee, llong, awyren, car, ac ati), 1411 o ddelweddau ar gyfer hyfforddiant, a 458 o ddelweddau i'w dilysu.
3. Set ddata cymharu Mynegiant Wyneb Google
Mae set ddata cymharu mynegiant wyneb Google yn cynnwys tua 500,000 o dripledi llun, gan gynnwys 156,000 o luniau wyneb. Mae'n werth nodi bod pob tripled yn y set ddata hon wedi'i anodi gan o leiaf chwe graddiwr dynol.
Mae'r set ddata hon yn ddefnyddiol ar gyfer prosiectau sy'n ymwneud â dadansoddi mynegiant wyneb, megis adalw lluniau ar sail mynegiant, categoreiddio emosiwn, synthesis mynegiant, ac ati. Er mwyn cael mynediad i'r set ddata, rhaid llenwi ffurflen gryno.
4. Genom Gweledol
Mae data Ateb Cwestiwn Gweledol mewn amgylchedd aml-ddewis ar gael yn Visual Genom. Mae'n cynnwys 101,174 o luniau MSCOCO gyda 1.7 miliwn o barau QA, gyda chyfartaledd o 17 cwestiwn fesul delwedd.
O'i gymharu â'r set ddata Ateb Cwestiynau Gweledol, mae gan y set ddata Genom Gweledol ddosraniad mwy teg ar draws chwe math o gwestiwn: Beth, Ble, Pryd, Pwy, Pam, a Sut.
Yn ogystal, mae set ddata Genom Gweledol yn cynnwys lluniau 108K sydd wedi'u tagio'n drwm â gwrthrychau, priodweddau a chysylltiadau.
5. LibriAraith
Casgliad o tua 1,000 o oriau o lyfrau sain o brosiect LibriVox yw corpws LibriSpeech. Mae mwyafrif y llyfrau sain yn tarddu o Project Gutenberg.
Rhennir y data hyfforddi yn dri rhaniad o setiau 100awr, 360awr, a 500awr, tra bod y data dev a phrofion tua 5 awr o hyd sain.
6. Y Cityspaces
Enw un o'r cronfeydd data graddfa fawr mwyaf adnabyddus o fideos stereo gyda golygfeydd trefol yw The Cityscapes.
Gydag anodiadau picsel cywir sy'n cynnwys lleoliadau GPS, y tymheredd awyr agored, data ego-symud, a safbwyntiau stereo cywir, mae'n cynnwys recordiadau o 50 o ddinasoedd gwahanol yn yr Almaen.
7. Set Ddata Cineteg
Un o'r setiau data fideo mwyaf adnabyddus ar gyfer adnabod gweithgaredd dynol ar raddfa fawr ac o ansawdd da yw set ddata Kinetics. Mae o leiaf 600 o glipiau fideo ar gyfer pob un o'r 600 o ddosbarthiadau gweithgaredd dynol, sef cyfanswm o dros 500,000 i gyd.
Tynnwyd y ffilmiau o YouTube; mae pob un tua 10 eiliad o hyd a dim ond un dosbarth gweithgaredd sydd wedi'i restru.
8. CelebAMask-Pencadlys
Mae CelebAMask-HQ yn gasgliad o 30,000 o luniau wyneb cydraniad uchel gyda masgiau wedi'u hanodi'n ofalus a 19 dosbarth sy'n cynnwys cydrannau wyneb fel croen, trwyn, llygaid, aeliau, clustiau, ceg, gwefus, gwallt, het, eyeglass, clustdlws, mwclis, gwddf, defnydd.
Gellir defnyddio'r set ddata i brofi a hyfforddi adnabod wynebau, dosrannu wynebau, a GANs ar gyfer algorithmau cynhyrchu wynebau a golygu.
9. Penn Treebank
Un o'r corpora mwyaf nodedig ac a ddefnyddir yn aml ar gyfer asesu modelau ar gyfer tagio dilyniant yw'r corpws Saesneg Penn Treebank (PTB), yn enwedig y rhan o'r corpws sy'n cyfateb i erthyglau Wall Street Journal.
Rhaid i bob gair gael ei ran o leferydd wedi'i thagio fel rhan o'r dasg. Lefel cymeriad a lefel geiriau modelu iaith hefyd yn defnyddio'r corpws yn aml.
10. VoxCeleb
Set ddata adnabod lleferydd ar raddfa fawr yw VoxCeleb a gynhyrchir yn awtomatig o cyfryngau ffynhonnell agored. Mae gan VoxCeleb dros filiwn o ymadroddion gan dros 6k o siaradwyr.
Gan fod y set ddata yn cynnwys clyweledol, gellir ei ddefnyddio ar gyfer amrywiaeth o gymwysiadau ychwanegol, gan gynnwys synthesis lleferydd gweledol, gwahanu lleferydd, trosglwyddo traws-foddol o wyneb i lais neu i'r gwrthwyneb, a hyfforddi adnabod wynebau o fideo i ategu'r adnabyddiaeth wyneb gyfredol. setiau data.
11. SIXray
Mae set ddata SIXray yn cynnwys 1,059,231 o luniau pelydr-X a gasglwyd o orsafoedd isffordd a'u hanodi gan arolygwyr diogelwch dynol i ganfod chwe phrif fath o eitemau gwaharddedig: pistolau, cyllyll, wrenches, gefail, siswrn, a morthwylion. At hynny, mae blychau terfyn ar gyfer pob eitem nas caniateir wedi'u hychwanegu â llaw at y setiau profi er mwyn gwerthuso perfformiad lleoleiddio gwrthrychau.
12. Damweiniau UDA
Mae sylwedd y prosiect eisoes wedi'i ddatgelu gan enw'r set ddata, US Accidents. Mae'r set ddata hon ar ddamweiniau ceir ledled y wlad yn cynnwys gwybodaeth rhwng Chwefror 2016 a Rhagfyr 2021 ac mae'n cwmpasu 49 o daleithiau yn UDA.
Mae tua 1.5 miliwn o gofnodion damweiniau bellach yn bresennol yn y casgliad hwn. Fe'i casglwyd mewn amser real trwy ddefnyddio sawl API traffig.
Mae'r APIs hyn yn trosglwyddo gwybodaeth traffig a gasglwyd o amrywiaeth o ffynonellau, gan gynnwys camerâu traffig, sefydliadau gorfodi'r gyfraith, ac adrannau trafnidiaeth yr Unol Daleithiau a'r wladwriaeth.
13. Adnabod Clefyd y Llygaid
Mae'r gronfa ddata offthalmig a drefnwyd ar gyfer Adnabod Clefydau Ociwlar (ODIR) yn cynnwys gwybodaeth am 5,000 o gleifion, gan gynnwys eu hoedran, lliw'r ffwndws yn eu llygaid chwith a dde, a geiriau allweddol diagnostig gweithwyr meddygol proffesiynol.
Mae'r set ddata hon yn gasgliad gwirioneddol o ddata cleifion o wahanol ysbytai a chyfleusterau meddygol yn Tsieina y mae Shanggong Medical Technology Co, Ltd wedi'u caffael. Gyda rheoli rheoli ansawdd, tagiwyd anodiadau gan ddarllenwyr dynol medrus.
14. Clefyd y Galon
Mae'r set ddata clefyd y galon hon yn helpu i nodi bodolaeth clefyd y galon mewn claf yn seiliedig ar baramedrau 76 megis oedran, rhyw, math o boen yn y frest, pwysedd gwaed gorffwys, ac ati.
Gyda 303 o achosion, mae'r gronfa ddata yn ceisio gwahaniaethu'n syml rhwng bodolaeth salwch (gwerth 1,2,3,4) a'i absenoldeb (gwerth 0).
15. CLEVR
Mae set ddata CLEVR (Iaith Gyfansoddiadol a Rhesymu Gweledol Elfennol) yn dynwared Ateb Cwestiynau Gweledol. Mae'n cynnwys ffotograffau o wrthrychau 3D-rendr, gyda phob ffotograff ynghyd â chyfres o gwestiynau cyfansoddiadol iawn wedi'u rhannu'n sawl categori.
Ar gyfer yr holl luniau a chwestiynau hyfforddi a dilysu, mae'r set ddata yn cynnwys 70,000 o ffotograffau a 700,000 o gwestiynau ar gyfer hyfforddiant, 15,000 o ddelweddau a 150,000 o gwestiynau i'w dilysu, a 15,000 o ddelweddau a 150,000 o gwestiynau ar gyfer profi sy'n cynnwys gwrthrychau, atebion, graffiau golygfeydd, a rhaglenni swyddogaethol.
16. Dibyniaethau Cyffredinol
Nod y prosiect Dibyniaethau Cyffredinol (UD) yw creu morffoleg unffurf trawsieithyddol ac anodiad banc coed cystrawen ar gyfer llawer o ieithoedd. Mae gan Fersiwn 2.7, a ryddhawyd yn 2020, 183 o fanciau coed mewn 104 o ieithoedd.
Mae'r anodiad yn cynnwys tagiau carcharorion rhyfel cyffredinol, pennau dibyniaeth, a labeli dibyniaeth gyffredinol.
17. KITTI – 360
Un o'r setiau data a ddefnyddir amlaf ar gyfer robotiaid symudol a gyrru ymreolaethol yw KITTI (Sefydliad Technoleg Karlsruhe a Sefydliad Technolegol Toyota).
Mae'n cynnwys gwerth oriau o senarios traffig a gafodd eu dal gan ddefnyddio ystod o ddulliau synhwyrydd, megis RGB cydraniad uchel, stereo graddlwyd, a chamerâu sganiwr laser 3D. Mae'r set ddata wedi'i gwella dros amser gan sawl ymchwilydd a wnaeth anodi amrywiol rannau ohoni â llaw i weddu i'w hanghenion.
18. MOT(Tracio Gwrthrychau Lluosog)
Mae MOT (Tracio Gwrthrychau Lluosog) yn set ddata ar gyfer tracio gwrthrychau lluosog sy'n cynnwys golygfeydd dan do ac awyr agored o leoliadau cyhoeddus sy'n cynnwys cerddwyr fel gwrthrychau o ddiddordeb. Mae fideo pob golygfa wedi'i dorri'n ddau ddarn, un ar gyfer hyfforddiant a'r llall ar gyfer profi.
Mae'r set ddata yn cynnwys darganfyddiadau gwrthrych mewn fframiau fideo gan ddefnyddio tri synhwyrydd: SDP, Faster-RCNN, a DPM.
19. Pascal 3D+
Mae set ddata aml-olwg Pascal3D+ yn cynnwys ffotograffau a gasglwyd yn y gwyllt, hy, delweddau o gategorïau eitemau ag amrywiaeth uchel, wedi'u dal mewn amgylchiadau afreolus, mewn amgylcheddau gorlawn, ac mewn amrywiaeth o safleoedd. Mae Pascal3D+ yn cynnwys 12 categori gwrthrych anhyblyg wedi'u tynnu o set ddata PASCAL VOC 2012.
Mae gan yr eitemau hyn wybodaeth ystum wedi'i marcio arnynt (azimuth, drychiad, a phellter i'r camera). Mae Pascal3D+ hefyd yn cynnwys lluniau ystum-anodedig o gasgliad ImageNet yn y 12 categori hyn.
20. Modelau Wyneb Anffurfiol o Anifeiliaid
Nod y prosiect Modelau Anifeiliaid Anffurfiol yr Wyneb (FDMA) yw herio methodolegau cyfredol mewn adnabod ac olrhain tirnod wyneb dynol a datblygu algorithmau newydd a all ddelio â'r amrywioldeb llawer mwy sy'n nodweddiadol o nodweddion wyneb anifeiliaid.
Roedd algorithmau'r prosiect yn dangos y gallu i adnabod ac olrhain tirnodau ar wynebau dynol wrth ddelio ag amrywiannau a achosir gan newidiadau mewn emosiynau neu ystumiau wyneb, ogwyddiadau rhannol, a goleuo.
21. Set Ddata Post Dynol MPII
Mae Set Data Pose Dynol MPII yn cynnwys tua 25K o luniau, y mae 15K ohonynt yn samplau hyfforddi, 3K ohonynt yn samplau dilysu, a 7K ohonynt yn samplau profi.
Mae'r swyddi wedi'u labelu â llaw gyda hyd at 16 o gymalau corfforol, a chymerir y lluniau o ffilmiau YouTube sy'n cwmpasu 410 o weithgareddau dynol amrywiol.
22. UCF101
Mae set ddata UCF101 yn cynnwys 13,320 o glipiau fideo wedi'u trefnu'n 101 categori. Rhennir y 101 categori hyn yn bum categori: symudiadau corfforol, rhyngweithiadau dynol-dynol, rhyngweithiadau dynol-gwrthrych, chwarae offerynnau cerdd, a chwaraeon.
Daw'r fideos o YouTube ac maent yn para 27 awr.
23. Set sain
Set ddata digwyddiad sain yw Audioset sy'n cynnwys dros 2 filiwn o segmentau fideo 10 eiliad â nodiadau dynol. I anodi'r data hwn, defnyddir ontoleg hierarchaidd sy'n cynnwys 632 o fathau o ddigwyddiadau, sy'n awgrymu y gallai'r un sain gael ei labelu'n wahanol.
24. Casgliad Iaith Naturiol Stanford
Mae set ddata SNLI (Stanford Natural Language Inference) yn cynnwys parau brawddegau 570k sydd wedi'u categoreiddio â llaw fel cynffon, gwrth-ddweud, neu niwtral.
Disgrifiadau llun Flickr30k yw adeiladau, tra datblygwyd damcaniaethau gan anodyddion o ffynonellau torfol a gafodd ragosodiad a'u cyfarwyddo i gynhyrchu datganiadau dirgel, gwrth-ddweud a niwtral.
25. Ateb Cwestiynau Gweledol
Set ddata yw Ateb Cwestiynau Gweledol (VQA) sy'n cynnwys cwestiynau penagored ynghylch lluniau. I ateb y cwestiynau hyn, mae angen i chi ddeall gweledigaeth, iaith, a synnwyr cyffredin.
Casgliad
Wrth i ddysgu peirianyddol a deallusrwydd artiffisial (AI) ddod yn fwy cyffredin ym mron pob busnes ac yn ein bywydau beunyddiol, felly hefyd y nifer o adnoddau a gwybodaeth sydd ar gael ar y pwnc.
Mae setiau data cyhoeddus parod yn fan cychwyn gwych i ddatblygu modelau AI tra hefyd yn caniatáu i raglenwyr ML profiadol arbed amser a chanolbwyntio ar elfennau eraill o'u prosiectau.
Gadael ymateb