Tabl Cynnwys[Cuddio][Dangos]
Mae pob prosiect Machine Learning yn dibynnu ar set ddata dda. Y set ddata fawr hon a fydd yn eich galluogi i hyfforddi a dilysu eich model ML. Felly, rhan fawr o waith prosiect ML yw dod o hyd i'r set ddata berffaith ar gyfer eich anghenion. Fodd bynnag, nid yw bob amser yn bosibl dod o hyd i opsiwn sy'n cyd-fynd â'ch uchelgais, gan nad yw llawer o ffeiliau sy'n edrych yn ddiddorol yn y pen draw.
Gall fod yn frawychus i wastraffu amser yn lawrlwytho setiau data dirifedi nes i chi gyrraedd set ddelfrydol. Gyda hynny mewn golwg, rydym wedi casglu rhai opsiynau sy'n ymddangos yn ddiddorol ac a all eich helpu i ddatblygu eich prosiect ML. Sylwch fod rhai wedi'u bwriadu ar gyfer defnydd personol yn hytrach na masnachol, felly edrychwch ar yr opsiynau hyn fel ffordd o ennill profiad yn y bydysawd ML.
Hanfodion Setiau Data
Cyn i ni sôn am y setiau data, dylem ddiffinio rhai termau. Mewn prosiectau Deallusrwydd Artiffisial, yn enwedig Dysgu peiriant, mae angen llawer iawn o ddata, a fydd yn cael ei ddefnyddio i hyfforddi'r algorithm. Cesglir y swm hwn o ddata mewn cronfa ddata, sy'n hynod ddefnyddiol i ddysgu algorithm.
Gyda'r data hwn, mae'r algorithm wedi'i hyfforddi - hefyd yn cael ei brofi - ac yn dod yn gallu dod o hyd i batrymau, sefydlu perthnasoedd ac felly gwneud penderfyniadau'n annibynnol. Heb hyfforddiant, Dysgu peiriant ni all algorithmau gyflawni unrhyw weithred. Felly, y gorau yw'r data hyfforddi, y gorau y bydd y model yn perfformio. Er mwyn i gronfa ddata fod yn ddefnyddiol i'r prosiect, nid yw'n ymwneud â maint: mae hefyd yn ymwneud â dosbarthu.
Yn ddelfrydol, dylai'r data gael ei labelu'n dda. Meddyliwch am achos chatbots: mae mewnosod iaith yn bwysig, ond rhaid gwneud dadansoddiad cystrawennol gofalus fel bod yr algorithm sy'n cael ei greu yn gallu deall pryd mae'r interlocutor yn defnyddio slang. Dim ond wedyn y bydd y rhith-gynorthwyydd yn gallu lansio'r ateb yn unol â'r hyn y gofynnodd y defnyddiwr amdano.
Gellir cynhyrchu setiau data o arolygon, data pryniant defnyddwyr, gwerthusiadau a adawyd ar wasanaethau, ac mewn llawer o ffyrdd eraill sy'n caniatáu casglu gwybodaeth ddefnyddiol wedi'i threfnu mewn colofnau a rhesi mewn ffeil CSV.
Cyn i chi fynd ati i chwilio am y set ddata berffaith, mae'n bwysig eich bod chi'n gwybod pwrpas eich prosiect, yn enwedig os yw'n dod o faes penodol, fel tywydd, cyllid, iechyd, ac ati. Bydd hyn yn pennu o ba ffynhonnell y byddwch chi'n dod o hyd i'ch set ddata.
Setiau data ar gyfer ML
Hyfforddiant Chatbot
Mae chatbot effeithiol yn gofyn am lawer iawn o ddata hyfforddi er mwyn datrys ymholiadau defnyddwyr yn gyflym heb ymyrraeth ddynol. Fodd bynnag, y brif dagfa yn natblygiad chatbot yw cael data deialog realistig sy'n canolbwyntio ar dasgau i hyfforddi'r systemau Machine Learning hyn.
Mae set ddata sgyrsiol yn casglu data ar ffurf cwestiwn ac ateb. Mae'n ddelfrydol ar gyfer hyfforddi chatbots a fydd yn rhoi atebion awtomataidd i'r gynulleidfa. Heb y data hwn, ni fydd y chatbot yn datrys ymholiadau defnyddwyr yn gyflym nac yn ateb cwestiynau defnyddwyr heb fod angen ymyrraeth ddynol.
Gan ddefnyddio’r setiau data hyn, gall busnesau greu offeryn sy’n darparu atebion cyflym i gwsmeriaid 24/7 ac sy’n sylweddol rhatach na chael tîm o bobl yn rhoi cymorth i gwsmeriaid.
1. Set Ddata Cwestiwn-Ateb
Mae'r set ddata hon yn darparu set o erthyglau Wicipedia, cwestiynau a'u hatebion priodol a gynhyrchir â llaw. Mae’n set ddata a gasglwyd rhwng 2008 a 2010 i’w defnyddio yn ymchwil academaidd.
2. Data Iaith
Mae Data Iaith yn gronfa ddata a reolir gan Yahoo gyda gwybodaeth a gynhyrchir gan rai o wasanaethau'r cwmni, megis Yahoo! Ateb, sy'n gweithio fel cymuned agored i ddefnyddwyr bostio cwestiynau ac atebion.
3. WiciQA
Mae corpws WikiQA hefyd yn cynnwys set o gwestiynau ac atebion. Bing yw ffynhonnell y cwestiynau, tra bod yr atebion yn cysylltu â thudalen Wicipedia sydd â'r potensial i ddatrys y cwestiwn cychwynnol.
At ei gilydd, mae mwy na 3,000 o gwestiynau a set o 29,258 o frawddegau yn y set ddata, ac mae tua 1,400 ohonynt wedi’u categoreiddio fel atebion i gwestiwn cyfatebol.
Data'r Llywodraeth
Mae setiau data a gynhyrchir gan lywodraethau yn dod â data demograffig, sy'n fewnbynnau gwych ar gyfer prosiectau sy'n ymwneud â deall tueddiadau cymdeithasol, creu polisïau cyhoeddus, a gwella cymdeithas. Gall hyn fod yn ddefnyddiol ar gyfer ymgyrchoedd gwleidyddol, hysbysebu wedi'i dargedu, neu ddadansoddiad o'r farchnad.
Mae'r setiau data hyn fel arfer yn cynnwys data dienw, felly er bod y modelau'n gallu cyrchu'r data crai, nid oes unrhyw dorri ar breifatrwydd personol.
4. Data.gov
Wedi'i lansio yn 2009, Data.gov yw ffynhonnell data Gogledd America. Mae ei gatalog yn drawiadol: mwy na 218,000 o setiau data sy'n caniatáu segmentu yn ôl fformat, tagiau, mathau, a phynciau.
5. Porth Data Agored yr UE
Mae Porth Data Agored yr UE yn darparu mynediad i ddata agored a rennir gan sefydliadau'r Undeb Ewropeaidd. Mae'r rhain yn ddata y gellir eu bwriadu at ddefnydd masnachol ac anfasnachol. Mae mwy na 15.5 mil o setiau data ar gael i'r defnyddiwr, sy'n ymdrin â phynciau fel iechyd, ynni, yr amgylchedd, diwylliant ac addysg.
Data iechyd
Yn sgil yr argyfwng iechyd parhaus ledled y byd, mae setiau data a gynhyrchir gan sefydliadau iechyd yn hanfodol i ddatblygu atebion effeithiol i achub bywydau. Gall y setiau data hyn helpu i nodi’r ffactorau risg, gweithio allan patrymau trosglwyddo clefydau, a chyflymu diagnosis.
Mae'r setiau data hyn yn cynnwys cofnodion iechyd, demograffeg cleifion, mynychder clefydau, defnydd meddyginiaethol, gwerthoedd maethol, a llawer mwy.
6. Arsyllfa Iechyd Byd-eang
Mae'r set ddata hon yn fenter gan Sefydliad Iechyd y Byd (WHO). Mae'n darparu data cyhoeddus sy'n ymwneud â gwahanol feysydd iechyd, wedi'u trefnu yn ôl themâu fel systemau iechyd, rheoli'r defnydd o dybaco, mamolaeth, HIV/AIDS, ac ati. Mae opsiwn hefyd i ymgynghori â data ar COVID-19.
7. CORD-19
Mae CORD-19 yn gorpws o gyhoeddiadau academaidd ar COVID-19 ac erthyglau eraill am y coronafirws newydd. Mae'n set ddata agored gyda'r bwriad o gynhyrchu mewnwelediadau newydd ar COVID-19.
Data economeg
Mae setiau data sy'n ymwneud â'r amgylchedd ariannol fel arfer yn casglu llawer iawn o wybodaeth, gan ei bod yn gyffredin eu bod wedi'u casglu ers amser maith. Maent yn ddelfrydol ar gyfer creu rhagfynegiadau economaidd neu sefydlu tueddiadau buddsoddi.
Gyda'r setiau data ariannol cywir, a Model Dysgu Peiriannau efallai y bydd yn gallu rhagweld ymddygiad ased penodol. Dyna pam mae'r sector ariannol yn gwneud popeth o fewn ei allu i greu model ML effeithiol, gan fod gan unrhyw beth a all ragweld hyd yn oed yn weddol dda y potensial i gynhyrchu miliynau o ddoleri. Mae Machine Learning eisoes yn rhagweld ymddygiad dinasyddion, sy'n effeithio ar y ffordd y mae llunwyr polisi yn gwneud eu gwaith.
8. Gronfa Ariannol Ryngwladol
Mae set ddata'r IMF yn cadw ystod o ddangosyddion economaidd ac ariannol, ystadegau aelod-wledydd, a data arall ar fenthyciadau a chyfraddau cyfnewid.
9. Banc y Byd
Mae ystorfa Banc y Byd yn cynnwys gwahanol setiau data gyda gwybodaeth economaidd o wahanol wledydd. Mae mwy na 17,000 o setiau data wedi'u rhannu yn ôl cyfandiroedd.
Adolygiadau o gynnyrch a gwasanaethau
Mae dadansoddiad teimlad wedi canfod ei gymwysiadau mewn amrywiol feysydd sydd bellach yn helpu mentrau i amcangyfrif a dysgu gan eu cleientiaid neu gwsmeriaid yn gywir. Mae dadansoddiad teimlad yn cael ei ddefnyddio fwyfwy ar gyfer monitro cyfryngau cymdeithasol, monitro brand, llais y cwsmer (VoC), gwasanaeth cwsmeriaid, ac ymchwil marchnad.
Mae dadansoddiad teimlad yn defnyddio NLP (rhaglennu niwro-ieithyddol) dulliau ac algorithmau sydd naill ai'n seiliedig ar reolau, hybrid, neu'n dibynnu ar dechnegau Dysgu Peiriannau i ddysgu data o setiau data.
Dylai'r data sydd ei angen ar gyfer dadansoddi teimladau fod yn arbenigol ac yn ofynnol mewn symiau mawr. Y rhan fwyaf heriol am y broses hyfforddi dadansoddi teimladau yw peidio â dod o hyd i ddata mewn symiau mawr; yn hytrach, mae i ddod o hyd i'r setiau data perthnasol. Rhaid i'r setiau data hyn gwmpasu maes eang o geisiadau dadansoddi teimlad ac achosion defnydd.
10. Adolygiadau Amazon
Mae'r set ddata hon yn cynnwys tua 35 miliwn o adolygiadau Amazon, yn rhychwantu cyfnod o 18 mlynedd o wybodaeth a gasglwyd. Mae'n set ddata o gynnwys cynnyrch, defnyddiwr a chynnwys adolygu.
11. Adolygiadau Yelp
Mae Yelp hefyd yn cynnig set ddata sy'n seiliedig ar wybodaeth a gasglwyd o'i wasanaeth. Mae dros 8 miliwn o adolygiadau, 1 miliwn o awgrymiadau, ynghyd â bron i 1.5 miliwn o nodweddion yn ymwneud â busnesau, megis oriau agor ac argaeledd.
12. Adolygiadau IMDB
Mae'r gronfa ddata hon yn cynnwys set o fwy na 25 mil o adolygiadau ffilm ar gyfer hyfforddiant a 25 mil arall ar gyfer profion a gymerwyd yn anffurfiol o dudalen IMDB, sy'n arbenigo mewn graddfeydd ffilm. Mae hefyd yn cynnig data heb ei labelu fel atodiad.
Setiau data ar gyfer y camau cyntaf yn ML
13. Set Ddata Ansawdd Gwin
Mae'r set ddata hon yn darparu gwybodaeth yn ymwneud â gwin, yn goch a gwyrdd, a gynhyrchwyd yng ngogledd Portiwgal. Y nod yw diffinio ansawdd y gwin yn seiliedig ar brofion ffisigocemegol. Diddorol i'r rhai sydd eisiau ymarfer creu system ragfynegi.
14. Set ddata Titanic
Mae’r set ddata hon yn dod â data o 887 o deithwyr go iawn o’r Titanic, gyda phob colofn yn diffinio a wnaethant oroesi, eu hoedran, dosbarth teithwyr, rhyw, a’r ffi fyrddio a dalwyd ganddynt. Roedd y set ddata hon yn rhan o her a lansiwyd gan lwyfan Kaggle, a’i nod oedd creu model a allai ragweld pa deithwyr a oroesodd suddo’r Titanic.
Llwyfannau ar gyfer Dod o Hyd i Setiau Data Eraill
Os ydych chi am fynd ymhellach a dod o hyd i'ch set ddata eich hun, y ffordd orau yw pori trwy ystorfeydd enwocaf y Dysgu peiriant bydysawd:
Kaggle
Mae Kaggle, is-gwmni i Google LLC, yn gymuned ar-lein o wyddonwyr data a gweithwyr proffesiynol Dysgu Peiriannau. Mae Kaggle yn galluogi defnyddwyr i ddarganfod a chyhoeddi setiau data, archwilio a chreu modelau mewn amgylchedd gwyddor data ar y we; gweithio gyda gwyddonwyr data eraill a Peirianwyr Dysgu Peiriannau, a chymryd rhan mewn cystadlaethau i ddatrys heriau gwyddor data.
Dechreuodd Kaggle yn 2010 trwy gynnig cystadlaethau Dysgu Peiriant ac mae bellach hefyd yn cynnig cyhoedd llwyfan data, mainc waith yn y cwmwl ar gyfer addysg gwyddor data ac addysg Deallusrwydd Artiffisial.
Chwiliad Set Ddata
Mae Dataset Search yn beiriant chwilio gan Google sy'n helpu ymchwilwyr i ddod o hyd i ddata ar-lein sydd ar gael am ddim i'w ddefnyddio. Ar draws y we, mae miliynau o setiau data am bron unrhyw bwnc sydd o ddiddordeb i chi.
Os ydych chi'n bwriadu prynu ci bach, fe allech chi ddod o hyd i setiau data sy'n casglu cwynion am brynwyr cŵn bach neu astudiaethau ar wybyddiaeth cŵn bach. Neu os ydych chi'n hoffi sgïo, fe allech chi ddod o hyd i ddata ar refeniw cyrchfannau sgïo neu gyfraddau anafiadau a niferoedd cyfranogiad. Mae Dataset Search wedi mynegeio bron i 25 miliwn o'r setiau data hyn, gan roi un lle i chi chwilio am setiau data a dod o hyd i ddolenni i leoliad y data.
Ystorfa Dysgu Peiriannau UCI
Mae Ystorfa Dysgu Peiriannau UCI yn gasgliad o gronfeydd data, damcaniaethau parth, a chynhyrchwyr data a ddefnyddir gan y gymuned Machine Learning ar gyfer dadansoddiad empirig o algorithmau Machine Learning. Crëwyd yr archif fel archif ftp ym 1987 gan David Aha a chyd-fyfyrwyr graddedig UC Irvine.
Ers hynny, fe'i defnyddiwyd yn helaeth gan fyfyrwyr, addysgwyr ac ymchwilwyr ledled y byd fel prif ffynhonnell setiau data ML. Fel arwydd o effaith yr archif, mae wedi cael ei ddyfynnu dros 1000 o weithiau, sy’n golygu ei fod yn un o’r 100 “papur” mwyaf poblogaidd ym maes cyfrifiadureg i gyd.
Quandl
Mae Quandl yn blatfform sy'n darparu setiau data economaidd, ariannol ac amgen i'w ddefnyddwyr. Gall defnyddwyr lawrlwytho data am ddim, prynu data taledig neu werthu data i Quandl. Gall fod yn arf defnyddiol ar gyfer datblygu algorithmau masnachu, Er enghraifft.
Casgliad
Trwy archwilio'r offer hyn, rydych chi'n sicr o ddod o hyd i fewnbynnau gwych ar gyfer eich prosiectau. Gwnewch yn siŵr eich bod yn dewis y set ddata sydd fwyaf addas ar gyfer eich anghenion penodol a chadwch mewn cof bob amser: nid yw'n ymwneud â maint yn unig, ond hefyd ansawdd. Mae'r set ddata yn sail i unrhyw Prosiect Dysgu Peiriannau ac mae'n hanfodol adeiladu ar ddata o ansawdd er mwyn osgoi'r risg o ddod i gasgliadau diffygiol.
Gadael ymateb