Clàr-innse[Falaich][Seall]
Tha a h-uile pròiseact Ionnsachadh Inneal an urra ri seata dàta math. Is e an stòr-dàta mòr seo a leigeas leat do mhodal ML a thrèanadh agus a dhearbhadh. Mar sin, is e pàirt mhòr den obair ann am pròiseact ML a bhith a’ lorg an stòr-dàta foirfe airson na feumalachdan agad. Ach, chan eil e an-còmhnaidh comasach roghainn a lorg a fhreagras air do mhiann, leis nach eil mòran fhaidhlichean a tha a ’coimhead inntinneach, aig a’ cheann thall.
Faodaidh e a bhith eagallach ùine a chaitheamh a’ luchdachadh sìos grunn stòran-dàta gus an ruig thu seata air leth. Le sin san amharc, tha sinn air cuid de roghainnean a chruinneachadh a tha a’ coimhead inntinneach agus a chuidicheas tu gus do phròiseact ML a leasachadh. Thoir an aire gu bheil cuid an dùil airson cleachdadh pearsanta an àite malairteach, mar sin thoir sùil air na roghainnean sin mar dhòigh air eòlas fhaighinn anns a’ chruinne-cè ML.
Bun-bheachdan de stòran-dàta
Mus toir sinn iomradh air na stòran-dàta, bu chòir dhuinn cuid de theirmean a mhìneachadh. Ann am pròiseactan Artificial Intelligence, gu sònraichte Machine Ionnsachadh, tha feum air tòrr dàta, a thèid a chleachdadh gus an algairim a thrèanadh. Tha an tomhas seo de dhàta air a chruinneachadh ann an stòr-dàta, a tha air leth feumail airson algairim a theagasg.
Leis an dàta seo, tha an algairim air a thrèanadh - cuideachd air a dhearbhadh - agus bidh e comasach dha pàtrain a lorg, dàimhean a stèidheachadh agus mar sin co-dhùnaidhean a dhèanamh gu neo-eisimeileach. Gun trèanadh, Machine Ionnsachadh chan urrainn dha algorithms gnìomh sam bith a dhèanamh. Mar sin, mar as fheàrr an dàta trèanaidh, is ann as fheàrr a choileanas am modail. Airson stòr-dàta a bhith feumail don phròiseact, chan ann mu dheidhinn meud a tha e: tha e cuideachd mu dheidhinn seòrsachadh.
Gu h-iomchaidh, bu chòir an dàta a bhith air a chomharrachadh gu math. Smaoinich air cùis chatbots: tha cuir a-steach cànain cudromach, ach feumar mion-sgrùdadh syntactic faiceallach a dhèanamh gus an tuig an algairim a chaidh a chruthachadh nuair a bhios an neach-conaltraidh a’ cleachdadh slang. Is ann dìreach an uairsin a bhios an neach-cuideachaidh brìgheil comasach air am freagairt a chuir air bhog a rèir na dh’ iarr an neach-cleachdaidh.
Faodar seataichean dàta a chruthachadh bho sgrùdaidhean, dàta ceannach luchd-cleachdaidh, measaidhean air am fàgail air seirbheisean, agus ann an iomadh dòigh eile a leigeas le fiosrachadh feumail a chruinneachadh ann an colbhan agus sreathan ann am faidhle CSV.
Mus tòisich thu a’ lorg an t-seata dàta foirfe, tha e cudromach gum bi fios agad air adhbhar a’ phròiseict agad, gu h-àraidh ma tha e bho raon sònraichte, leithid aimsir, ionmhas, slàinte, msaa. stòr-dàta.
Stòr-dàta airson ML
Trèanadh Chatbot
Feumaidh chatbot èifeachdach tòrr dàta trèanaidh gus ceistean luchd-cleachdaidh fhuasgladh gu sgiobalta gun eadar-theachd daonna. Ach, is e am prìomh bhotal ann an leasachadh chatbot a bhith a’ faighinn dàta còmhraidh fìrinneach, stèidhichte air gnìomh gus na siostaman sin a tha stèidhichte air Ionnsachadh Inneal a thrèanadh.
Bidh stòr-dàta còmhraidh a’ cruinneachadh dàta ann an cruth ceist is freagairt. Tha e air leth freagarrach airson chatbots a thrèanadh a bheir freagairtean fèin-ghluasadach don luchd-èisteachd. Às aonais an dàta seo, cha bhith an chatbot a’ fuasgladh cheistean luchd-cleachdaidh gu sgiobalta no a’ freagairt cheistean luchd-cleachdaidh gun fheum air eadar-theachd daonna.
A’ cleachdadh na stòran-dàta sin, faodaidh gnìomhachasan inneal a chruthachadh a bheir freagairtean sgiobalta do luchd-ceannach 24/7 agus a tha gu math nas saoire na bhith a’ faighinn sgioba de dhaoine a’ dèanamh taic teachdaiche.
1. Seata-dàta Ceist-Freagair
Tha an stòr-dàta seo a’ toirt seachad seata de artaigilean Wikipedia, ceistean agus na freagairtean aca a chaidh a chruthachadh le làimh. Is e seo clàr-dàta a chaidh a chruinneachadh eadar 2008 agus 2010 airson a chleachdadh ann an rannsachadh acadaimigeach.
2. Dàta Cànain
'S e stòr-dàta a th' ann an Language Data air a stiùireadh le Yahoo le fiosrachadh air a chruthachadh bho chuid de sheirbheisean a' chompanaidh, leithid Yahoo! Freagairt, a tha ag obair mar choimhearsnachd fhosgailte airson luchd-cleachdaidh gus ceistean agus freagairtean a phostadh.
3. WikiQA
Tha seata de cheistean is fhreagairtean ann an corpas WikiQA cuideachd. 'S e Bing tùs nan ceistean, agus tha na freagairtean a' ceangal ri duilleag Wikipedia a dh'fhaodadh a' chiad cheist fhuasgladh.
Gu h-iomlan, tha còrr air 3,000 ceist agus seata de 29,258 seantansan anns an t-seata dàta, le timcheall air 1,400 dhiubh sin air an seòrsachadh mar fhreagairtean do cheist cho-fhreagarrach.
Dàta riaghaltais
Bidh seataichean dàta a ghineadh riaghaltasan a’ toirt dàta deamografach, a tha nan deagh thaic do phròiseactan co-cheangailte ri bhith a’ tuigsinn gluasadan sòisealta, a’ cruthachadh phoileasaidhean poblach, agus a’ leasachadh comann-sòisealta. Faodaidh seo a bhith feumail airson iomairtean poilitigeach, sanasachd cuimsichte, no mion-sgrùdadh margaidh.
Mar as trice bidh dàta gun urra anns na stòran-dàta sin, agus mar sin ged a gheibh na modailean cothrom air an dàta amh, chan eil briseadh sam bith ann air prìobhaideachd pearsanta.
4. Data.gov
Air a chuir air bhog ann an 2009, is e Data.gov an stòr dàta ann an Ameireagaidh a Tuath. Tha an catalog aige drùidhteach: còrr air 218,000 dàta a leigeas le sgaradh a rèir cruth, tagaichean, seòrsaichean agus cuspairean.
5. Port Dàta Fosgailte an EU
Tha Port Dàta Fosgailte an EU a’ toirt cothrom air dàta fosgailte a tha air a cho-roinn le institiudan an Aonaidh Eòrpaich. Is iad sin dàta a dh’ fhaodar a dhealbhadh airson cleachdadh malairteach agus neo-mhalairteach. Tha còrr air 15.5 mìle dàta aig an neach-cleachdaidh, a’ còmhdach cuspairean leithid slàinte, lùth, àrainneachd, cultar agus foghlam.
Dàta slàinte
Mar thoradh air an èiginn slàinte leantainneach air feadh an t-saoghail, tha dàta bho bhuidhnean slàinte deatamach gus fuasglaidhean èifeachdach a leasachadh gus beatha a shàbhaladh. Faodaidh na stòran-dàta seo cuideachadh le bhith ag aithneachadh nam factaran cunnairt, ag obrachadh a-mach pàtrain tar-chuir galair, agus a’ luathachadh breithneachadh.
Tha na stòran-dàta sin a’ toirt a-steach clàran slàinte, deamografaigs euslaintich, tricead galair, cleachdadh cungaidh-leigheis, luachan beathachaidh, agus mòran a bharrachd.
6. Amharclann Slàinte Cruinneil
Tha an seata dàta seo na iomairt le Buidheann Slàinte na Cruinne (WHO). Bidh e a’ toirt seachad dàta poblach co-cheangailte ri diofar raointean slàinte, air a chuir air dòigh le cuspairean leithid siostaman slàinte, smachd cleachdadh tombaca, màthaireachd, HIV/AIDS, msaa. Tha roghainn ann cuideachd co-chomhairle a chumail ri dàta mu COVID-19.
7. CÒRR-19
Tha CORD-19 na chorpas de fhoillseachaidhean acadaimigeach air COVID-19 agus artaigilean eile mun coronavirus ùr. Is e stòr-dàta fosgailte a th’ ann a tha ag amas air seallaidhean ùra a ghineadh air COVID-19.
Stòr-dàta eaconamaidh
Mar as trice bidh stòran-dàta co-cheangailte ris an àrainneachd ionmhais a’ cruinneachadh tòrr fiosrachaidh, leis gu bheil e cumanta gun deach a chruinneachadh airson ùine mhòr. Tha iad air leth freagarrach airson ro-innse eaconamach a chruthachadh no gluasadan tasgaidh a stèidheachadh.
Leis na stòran-dàta ionmhais ceart, a Modail ionnsachadh inneal is dòcha gun urrainn dhut giùlan maoin sònraichte a ro-innse. Sin as coireach gu bheil an roinn ionmhais a’ dèanamh a h-uile càil na cumhachd gus modal ML èifeachdach a chruthachadh, leis gu bheil comas aig rud sam bith as urrainn ro-innse eadhon gu reusanta milleanan dolar a ghineadh. Tha Machine Learning mu thràth a’ ro-innse giùlan shaoranaich, a tha a’ toirt buaidh air an dòigh sa bheil luchd-poileasaidh a’ dèanamh an cuid obrach.
8. Maoin Ionmhasail Eadar-nàiseanta
Tha stòr-dàta an IMF a’ cumail raon de thaisbeanairean eaconamach is ionmhais, staitistig ball-dùthchannan, agus dàta reataichean iasaid is iomlaid eile.
9. Banca na Cruinne
Ann an stòr Banca na Cruinne tha diofar stòran-dàta le fiosrachadh eaconamach bho dhiofar dhùthchannan. Tha còrr air 17,000 dàta air an roinn a rèir mòr-thìrean.
Lèirmheasan toraidh is seirbheis
Tha mion-sgrùdadh faireachdainn air na tagraidhean aige a lorg ann an grunn raointean a tha a-nis a’ cuideachadh iomairtean gus tuairmse a dhèanamh agus ionnsachadh bhon luchd-dèiligidh no an luchd-ceannach aca gu ceart. Tha mion-sgrùdadh faireachdainn ga chleachdadh barrachd is barrachd airson sgrùdadh meadhanan sòisealta, sgrùdadh branda, guth an neach-ceannach (VoC), seirbheis teachdaiche, agus sgrùdadh margaidh.
Bidh mion-sgrùdadh faireachdainn a’ cleachdadh NLP (prògramadh neuro-cànanach) agus algorithms a tha an dàrna cuid stèidhichte air riaghailtean, tar-chinealach, no an urra ri dòighean Ionnsachadh Inneal gus dàta ionnsachadh bho stòran-dàta.
Bu chòir an dàta a tha a dhìth airson mion-sgrùdadh faireachdainn a bhith sònraichte agus a dhìth ann am meudan mòra. Is e am pàirt as dùbhlanaiche mun phròiseas trèanaidh mion-sgrùdadh faireachdainn gun a bhith a’ lorg dàta ann an suimean mòra; an àite sin, tha e airson na stòran-dàta iomchaidh a lorg. Feumaidh na seataichean dàta sin a bhith a’ còmhdach raon farsaing de thagraidhean mion-sgrùdadh faireachdainn agus cùisean cleachdaidh.
10. Lèirmheasan Amazon
Anns an t-seata dàta seo tha timcheall air 35 millean lèirmheas Amazon, thairis air ùine 18-bliadhna de fhiosrachadh cruinnichte. Tha e na sheata de shusbaint toraidh, neach-cleachdaidh agus ath-bhreithneachaidh.
11. Lèirmheasan Yelp
Bidh Yelp cuideachd a’ tabhann stòr-dàta stèidhichte air fiosrachadh a chaidh a chruinneachadh bhon t-seirbheis aige. Tha còrr air 8 millean lèirmheas ann, 1 millean comhairle, a bharrachd air faisg air 1.5 millean buadhan co-cheangailte ri gnìomhachasan, leithid uairean fosglaidh agus ruigsinneachd.
12. Lèirmheasan IMDB
Anns an stòr-dàta seo tha seata de chòrr air 25 mìle lèirmheas film airson trèanadh agus 25 mìle eile airson deuchainnean a chaidh a thogail gu neo-fhoirmeil bho dhuilleag IMDB, gu sònraichte ann an rangachadh film. Bidh e cuideachd a’ tabhann dàta gun ainm mar rud a bharrachd.
Seataichean dàta airson na ciad cheumannan ann am ML
13. Stòr-dàta Càileachd Fìon
Tha an dàta seo a’ toirt seachad fiosrachadh co-cheangailte ri fìon, gach cuid dearg is uaine, air a thoirt gu buil ann an ceann a tuath Portagal. Is e an t-amas càileachd fìon a mhìneachadh stèidhichte air deuchainnean fiosaig. Inntinneach dhaibhsan a tha airson cleachdadh siostam ro-innse a chruthachadh.
14. Stòr-dàta Titanic
Bheir an dàta seo dàta bho 887 fìor luchd-siubhail bhon Titanic, le gach colbh a’ mìneachadh an robh iad beò, an aois, clas luchd-siubhail, gnè, agus a’ chìs-chòmhnaidh a phàigh iad. Bha an dàta seo mar phàirt de dhùbhlan a chuir àrd-ùrlar Kaggle air bhog, leis an amas modal a chruthachadh a dh’ fhaodadh ro-innse dè an luchd-siubhail a thàinig beò nuair a chaidh an Titanic fodha.
Àrd-ùrlaran airson seataichean dàta eile a lorg
Ma tha thu airson a dhol nas fhaide agus an stòr-dàta agad fhèin a lorg, is e an dòigh as fheàrr a bhith a’ brobhsadh tro na stòran as ainmeil den t-sreath Machine Ionnsachadh cruinne-cè:
Kaggle
Tha Kaggle, fo-bhuidheann de Google LLC, na choimhearsnachd air-loidhne de luchd-saidheans dàta agus proifeiseantaich Ionnsachadh Inneal. Leigidh Kaggle le luchd-cleachdaidh stòran-dàta a lorg agus fhoillseachadh, modalan a sgrùdadh agus a chruthachadh ann an àrainneachd saidheans dàta stèidhichte air an lìon; ag obair le luchd-saidheans dàta eile agus Innleadairean Ionnsachadh Inneal, agus pàirt a ghabhail ann am farpaisean gus fuasgladh fhaighinn air dùbhlain saidheans dàta.
Thòisich Kaggle ann an 2010 le bhith a’ tabhann co-fharpaisean Ionnsachadh Inneal agus tha e a-nis a’ tabhann don phoball àrd-ùrlar dàta, being obrach stèidhichte air sgòthan airson saidheans dàta agus foghlam Artificial Intelligence.
Rannsachadh Seata-dàta
Tha Dataset Search na einnsean sgrùdaidh bho Google a chuidicheas luchd-rannsachaidh gus dàta air-loidhne a lorg a tha ri fhaighinn gu saor airson a chleachdadh. Air feadh an lìn, tha milleanan de dhàta-dàta ann mu cha mhòr cuspair sam bith anns a bheil ùidh agad.
Ma tha thu a’ coimhead ri cuilean a cheannach, dh’ fhaodadh tu stòran-dàta a lorg a’ cur ri chèile gearanan mu luchd-ceannach chuilean no sgrùdaidhean air eòlas-cèilidh. No mas toil leat sgitheadh, lorgadh tu dàta air teachd a-steach ionadan sgithidh no ìrean leòn agus àireamhan com-pàirteachaidh. Tha Dataset Search air faisg air 25 millean de na stòran-dàta sin a chlàradh, a’ toirt dhut aon àite airson stòran-dàta a lorg agus ceanglaichean a lorg far a bheil an dàta.
Stòr Ionnsachaidh Inneal UCI
Tha Stòr-dàta Ionnsachaidh Inneal UCI na chruinneachadh de stòran-dàta, teòiridhean fearainn, agus gineadairean dàta a bhios coimhearsnachd Ionnsachadh Inneal a’ cleachdadh airson mion-sgrùdadh empirigeach air algorithms Ionnsachadh Inneal. Chaidh an tasglann a chruthachadh mar thasglann ftp ann an 1987 le Daibhidh Aha agus co-oileanaich ceumnaiche aig UC Irvine.
Bhon àm sin, tha e air a bhith air a chleachdadh gu farsaing le oileanaich, luchd-foghlaim agus luchd-rannsachaidh air feadh an t-saoghail mar phrìomh thùs de stòran-dàta ML. Mar chomharra air buaidh an tasglann, chaidh a ghairm còrr is 1000 uair, ga fhàgail mar aon de na 100 “pàipearan” as motha a chaidh ainmeachadh ann an saidheans coimpiutaireachd gu lèir.
Quandl
Tha Quandl na àrd-ùrlar a bheir seachad dàta eaconamach, ionmhais agus eile dha luchd-cleachdaidh. Faodaidh luchd-cleachdaidh dàta an-asgaidh a luchdachadh sìos, dàta pàighte a cheannach no dàta a reic ri Quandl. Faodaidh e a bhith na inneal feumail airson leasachadh a 'chraicinn algorithms malairt, mar eisimpleir.
Co-dhùnadh
Le bhith a 'sgrùdadh nan innealan sin, tha thu cinnteach gum faigh thu a-steach math airson do phròiseactan. Dèan cinnteach gun tagh thu an dàta as freagarraiche airson na feumalachdan sònraichte agad agus cumaibh cuimhne an-còmhnaidh: chan ann dìreach mu dheidhinn meud a tha e, ach cuideachd càileachd. Tha an stòr-dàta na bhunait airson gin Pròiseact inneal ionnsachaidh a agus tha e riatanach togail air dàta càileachd gus an cunnart bho bhith a’ tighinn gu co-dhùnaidhean lochtach a sheachnadh.
Leave a Reply