Hvert vélnámsverkefni byggir á góðu gagnasafni. Það er þetta stóra gagnasafn sem gerir þér kleift að þjálfa og sannreyna ML líkanið þitt. Svo, stór hluti vinnunnar í ML verkefni er að finna hið fullkomna gagnasafn fyrir þarfir þínar. Hins vegar er ekki alltaf hægt að finna valmöguleika sem hentar metnaði þínum, þar sem margar skrár sem líta áhugaverðar út á endanum eru það ekki.
Það getur verið ógnvekjandi að eyða tíma í að hlaða niður óteljandi gagnasöfnum þar til þú kemst að ákjósanlegu setti. Með það í huga höfum við tekið saman nokkra möguleika sem virðast áhugaverðir og geta hjálpað þér að þróa ML verkefnið þitt. Athugaðu að sumir eru ætlaðir til persónulegra nota í stað viðskipta, svo líttu á þessa valkosti sem leið til að öðlast reynslu í ML alheiminum.
Grunnatriði gagnasöfn
Áður en við nefnum gagnasöfnin ættum við að skilgreina nokkur hugtök. Í gervigreindarverkefnum, sérstaklega vél Learning, þarf mikið magn af gögnum, sem verður notað til að þjálfa reikniritið. Þessu gagnamagni er safnað í gagnagrunn sem er afar gagnlegt til að kenna reiknirit.
Með þessum gögnum er reikniritið þjálfað – einnig prófað – og verður fær um að finna mynstur, koma á tengslum og þannig taka ákvarðanir sjálfstætt. Án þjálfunar, vél Learning reiknirit geta ekki framkvæmt neina aðgerð. Því betri sem þjálfunargögnin eru, því betri mun líkanið standa sig. Til þess að gagnagrunnur nýtist verkefninu snýst þetta ekki um magn heldur einnig um flokkun.
Helst ættu gögnin að vera vel merkt. Hugsaðu um tilfelli spjallbotna: tungumálainnsetning er mikilvæg, en nákvæm setningafræðigreining verður að fara fram svo að reikniritið sem búið er til geti skilið hvenær viðmælandi notar slangur. Aðeins þá mun sýndaraðstoðarmaðurinn geta ræst svarið í samræmi við það sem notandinn bað um.
Hægt er að búa til gagnasett úr könnunum, gögnum um kaup notenda, mati sem skilið er eftir á þjónustu og á margan annan hátt sem gerir kleift að safna gagnlegum upplýsingum sem eru skipulagðar í dálkum og línum í CSV skrá.
Áður en þú leggur af stað í leitina að hinu fullkomna gagnasafni er mikilvægt að þú þekkir tilgang verkefnisins, sérstaklega ef það er frá ákveðnu svæði, svo sem veður, fjármál, heilsu osfrv. Þetta mun ráða hvaða uppruna þú munt fá gagnasafn.
Gagnasett fyrir ML
Chatbot þjálfun
Skilvirkt spjallbot krefst gríðarlegt magn af þjálfunargögnum til að leysa fljótt fyrirspurnir notenda án mannlegrar íhlutunar. Hins vegar er aðal flöskuhálsinn í þróun spjallbotna að afla raunhæfra, verkefnamiðaðra gluggagagna til að þjálfa þessi vélræna kerfi.
Samtalsgagnasafn safnar gögnum á spurninga- og svarsniði. Það er tilvalið til að þjálfa spjallbotna sem gefa áhorfendum sjálfvirk svör. Án þessara gagna mun spjallbotninn ekki leysa fljótt fyrirspurnir notenda eða svara spurningum notenda án þess að þurfa mannleg afskipti.
Með því að nota þessi gagnasöfn geta fyrirtæki búið til tól sem veitir viðskiptavinum skjót svör allan sólarhringinn og er verulega ódýrara en að hafa hóp af fólki sem sinnir þjónustuveri.
1. Spurning-Svar Gagnasett
Þetta gagnasafn býður upp á safn af Wikipedia greinum, spurningum og viðkomandi handvirkum svörum þeirra. Það er gagnapakka sem safnað var á milli 2008 og 2010 til notkunar í fræðileg rannsókn.
2. Tungumálagögn
Language Data er gagnagrunnur sem stjórnað er af Yahoo með upplýsingum sem eru búnar til úr sumum þjónustum fyrirtækisins, eins og Yahoo! Svar, sem virkar sem opið samfélag fyrir notendur til að senda inn spurningar og svör.
3. WikiQA
WikiQA sameignin samanstendur einnig af spurningum og svörum. Uppspretta spurninganna er Bing, en svörin tengjast á Wikipedia síðu með möguleika á að leysa upphafsspurninguna.
Alls eru meira en 3,000 spurningar og safn 29,258 setningar í gagnasafninu, þar af um 1,400 sem hafa verið flokkaðar sem svör við samsvarandi spurningu.
Gögn stjórnvalda
Gagnasöfn sem stjórnvöld búa til koma með lýðfræðileg gögn, sem eru frábær inntak fyrir verkefni sem tengjast skilningi á samfélagsþróun, að skapa opinbera stefnu og bæta samfélagið. Þetta getur verið gagnlegt fyrir pólitískar herferðir, markvissar auglýsingar eða markaðsgreiningar.
Þessi gagnasöfn innihalda venjulega nafnlaus gögn, þannig að þó að líkönin hafi aðgang að hrágögnunum eru engin brot á persónuvernd.
4. Data.gov
Data.gov var hleypt af stokkunum árið 2009 og er Norður-Ameríkuuppspretta gagna. Vörulistinn er áhrifamikill: meira en 218,000 gagnasöfn sem leyfa skiptingu eftir sniði, merkjum, gerðum og efni.
5. Opin gagnagátt ESB
Open Data Portal ESB veitir aðgang að opnum gögnum sem stofnanir Evrópusambandsins deila. Þetta eru gögn sem geta verið ætluð til notkunar í atvinnuskyni og ekki í viðskiptalegum tilgangi. Til ráðstöfunar notanda eru meira en 15.5 þúsund gagnasöfn sem ná yfir efni eins og heilsu, orku, umhverfi, menningu og menntun.
Heilbrigðisgögn
Í kjölfar yfirstandandi heilsukreppu um allan heim eru gagnasöfn sem eru búin til af heilbrigðisstofnunum nauðsynleg til að þróa árangursríkar lausnir til að bjarga mannslífum. Þessi gagnasöfn geta hjálpað til við að bera kennsl á áhættuþættina, útskýra smitmynstur sjúkdóma og flýta fyrir greiningu.
Þessi gagnasöfn samanstanda af heilsufarsskrám, lýðfræði sjúklinga, algengi sjúkdóma, lyfjanotkun, næringargildi og margt fleira.
6. Global Health Observatory
Þetta gagnasafn er að frumkvæði Alþjóðaheilbrigðismálastofnunarinnar (WHO). Það veitir opinber gögn sem tengjast mismunandi heilbrigðissviðum, skipulögð eftir þemum eins og heilbrigðiskerfi, tóbaksnotkun, mæðravernd, HIV/alnæmi o.s.frv. Einnig er möguleiki á að skoða gögn um COVID-19.
7. CORD-19
CORD-19 er safn fræðilegra rita um COVID-19 og aðrar greinar um nýju kórónavírusinn. Þetta er opið gagnasafn sem ætlað er að skapa nýja innsýn í COVID-19.
Hagfræðigögn
Gagnasöfn sem tengjast fjármálaumhverfi safna yfirleitt miklu magni af upplýsingum, enda algengt að þeim hafi verið safnað í langan tíma. Þau eru tilvalin til að búa til efnahagsspár eða koma á fjárfestingarþróun.
Með réttum fjárhagslegum gagnasöfnum, a Machine Learning líkan gæti sagt fyrir um hegðun tiltekinnar eignar. Þess vegna gerir fjármálageirinn allt sem í hans valdi stendur til að búa til áhrifaríkt ML líkan, þar sem allt sem getur spáð fyrir um jafnvel sæmilega vel hefur tilhneigingu til að skila milljónum dollara. Machine Learning er nú þegar að spá fyrir um hegðun borgaranna, sem hefur áhrif á hvernig stjórnmálamenn vinna störf sín.
8. International Monetary Fund
Gagnagrunnur Alþjóðagjaldeyrissjóðsins hefur að geyma margs konar efnahags- og fjármálavísa, tölfræði aðildarlanda og önnur láns- og gengisgögn.
9. Alþjóðabankinn
Geymsla Alþjóðabankans inniheldur mismunandi gagnasöfn með efnahagslegum upplýsingum frá mismunandi löndum. Það eru meira en 17,000 gagnasöfn skipt eftir heimsálfum.
Umsagnir um vöru og þjónustu
Viðhorfsgreining hefur fundið notkun þess á ýmsum sviðum sem nú hjálpa fyrirtækjum að meta og læra af viðskiptavinum sínum eða viðskiptavinum rétt. Viðhorfsgreining er í auknum mæli notuð fyrir eftirlit með samfélagsmiðlum, vörumerkjavöktun, rödd viðskiptavinarins (VoC), þjónustu við viðskiptavini og markaðsrannsóknir.
Viðhorfsgreining notar NLP (tauga-málforritun) aðferðir og reiknirit sem eru annaðhvort reglubundin, blendingur eða byggja á vélrænni tækni til að læra gögn úr gagnasöfnum.
Gögnin sem þarf í tilfinningagreiningu ættu að vera sérhæfð og er krafist í miklu magni. Það sem er mest krefjandi við tilfinningagreiningarþjálfunarferlið er að finna ekki gögn í miklu magni; í staðinn er það að finna viðeigandi gagnasöfn. Þessi gagnasöfn verða að ná yfir breitt svið tilfinningagreiningarforrita og notkunartilvika.
10. Amazon Umsagnir
Þetta gagnasafn inniheldur um 35 milljónir Amazon umsagna, sem spannar 18 ára tímabil af söfnuðum upplýsingum. Það er gagnapakka af vöru-, notanda- og endurskoðunarefni.
11. Yelp umsagnir
Yelp býður einnig upp á gagnapakka byggt á upplýsingum sem safnað er úr þjónustu þess. Það eru yfir 8 milljónir umsagna, 1 milljón ábendingar, auk næstum 1.5 milljón eiginleika sem tengjast fyrirtækjum, eins og opnunartími og framboð.
12. IMDB umsagnir
Þessi gagnagrunnur inniheldur meira en 25 þúsund kvikmyndagagnrýni fyrir þjálfun og önnur 25 þúsund fyrir próf tekin óformlega af IMDB síðunni, sem sérhæfir sig í einkunnagjöf fyrir kvikmyndir. Það býður einnig upp á ómerkt gögn sem viðbót.
Gagnasett fyrir fyrstu skrefin í ML
13. Gagnasett fyrir víngæði
Þetta gagnasafn veitir upplýsingar sem tengjast víni, bæði rauðu og grænu, framleitt í norðurhluta Portúgals. Markmiðið er að skilgreina gæði vínsins út frá eðlisefnafræðilegum prófunum. Áhugavert fyrir þá sem vilja æfa sig í að búa til spákerfi.
14. Titanic gagnasett
Þetta gagnasafn færir gögn frá 887 raunverulegum farþegum frá Titanic, þar sem hver dálkur skilgreinir hvort þeir lifðu af, aldur þeirra, farþegaflokk, kyn og fargjaldið sem þeir greiddu. Þetta gagnasafn var hluti af áskorun sem Kaggle vettvangurinn setti af stað, en markmið hennar var að búa til líkan sem gæti sagt fyrir um hvaða farþegar lifðu af sökk Titanic.
Pallur til að finna önnur gagnasöfn
Ef þú vilt ganga lengra og finna þitt eigið gagnasafn er besta leiðin að fletta í gegnum frægustu geymslurnar vél Learning alheimur:
Kaggle
Kaggle, dótturfyrirtæki Google LLC, er netsamfélag gagnafræðinga og vélanámssérfræðinga. Kaggle gerir notendum kleift að finna og birta gagnasöfn, kanna og búa til líkön í vefbundnu gagnafræðiumhverfi; vinna með öðrum gagnafræðingum og Vélnámsverkfræðingar, og taka þátt í keppnum til að leysa áskoranir í gagnavísindum.
Kaggle byrjaði árið 2010 með því að bjóða upp á vélnámskeppnir og býður nú einnig upp á almenning gagnapallur, skýjabundinn vinnubekkur fyrir gagnavísindi og gervigreind menntun.
Gagnasettaleit
Gagnasettaleit er leitarvél frá Google sem hjálpar rannsakendum að finna gögn á netinu sem eru frjáls til notkunar. Víða á vefnum eru milljónir gagnasafna um næstum hvaða efni sem þú hefur áhuga á.
Ef þú ert að leita að því að kaupa hvolp gætirðu fundið gagnasöfn sem taka saman kvartanir frá hvolpakaupendum eða rannsóknir á hvolpaþekkingu. Eða ef þér líkar við skíði gætirðu fundið gögn um tekjur skíðasvæða eða meiðslatíðni og þátttökufjölda. Gagnasettaleit hefur skráð næstum 25 milljónir af þessum gagnasöfnum, sem gefur þér einn stað til að leita að gagnasöfnum og finna tengla á hvar gögnin eru.
UCI vélanámsgeymsla
UCI Machine Learning Repository er safn gagnagrunna, lénakenninga og gagnaframleiðenda sem eru notuð af Machine Learning samfélaginu til reynslugreiningar á vélrænum reikniritum. Skjalasafnið var búið til sem ftp skjalasafn árið 1987 af David Aha og samnemendum í framhaldsnámi við UC Irvine.
Síðan þá hefur það verið mikið notað af nemendum, kennurum og fræðimönnum um allan heim sem aðaluppspretta ML gagnasafna. Sem vísbending um áhrif skjalasafnsins hefur verið vitnað í það yfir 1000 sinnum, sem gerir það að einu af 100 mest vitna „blöðum“ í allri tölvunarfræði.
Quandl
Quandl er vettvangur sem veitir notendum sínum efnahagsleg, fjárhagsleg og önnur gagnasöfn. Notendur geta hlaðið niður ókeypis gögnum, keypt greidd gögn eða selt gögn til Quandl. Það getur verið gagnlegt tæki til að þróa viðskiptaalgrím, til dæmis.
Niðurstaða
Með því að kanna þessi verkfæri ertu viss um að þú munt finna frábær inntak fyrir verkefnin þín. Vertu viss um að velja gagnasafnið sem hentar best fyrir sérstakar þarfir þínar og hafðu alltaf í huga: þetta snýst ekki bara um magn heldur líka gæði. Gagnagrunnurinn er grundvöllur hvers kyns Vélrænt verkefni og nauðsynlegt er að byggja á gæðagögnum til að forðast hættu á að draga rangar niðurstöður.
Skildu eftir skilaboð