Clár na nÁbhar[Folaigh][Taispeáin]
Braitheann gach tionscadal Machine Learning ar thacar sonraí maith. Is é an tacar sonraí mór seo a ligfidh duit do mhúnla ML a oiliúint agus a bhailíochtú. Mar sin, is cuid mhór den obair i dtionscadal ML é an tacar sonraí foirfe a aimsiú do do chuid riachtanas. Mar sin féin, ní féidir i gcónaí rogha a aimsiú a oireann do d'uaillmhian, toisc nach bhfuil go leor comhaid a bhfuil cuma suimiúil orthu, sa deireadh.
Is féidir leis a bheith scanrúil am a chur amú ag íoschóipeáil tacair shonraí iomadúla go dtí go sroicheann tú tacar idéalach. Agus é sin san áireamh, tá roinnt roghanna bailithe againn a bhfuil cuma spéisiúil orthu agus ar féidir leo cabhrú leat do thionscadal ML a fhorbairt. Tabhair faoi deara go bhfuil cuid acu beartaithe le haghaidh úsáide pearsanta seachas úsáid tráchtála, mar sin breathnaigh ar na roghanna seo mar bhealach chun taithí a fháil sa chruinne ML.
Bunúsacha Thacair Sonraí
Sula luaimid na tacair sonraí, ba cheart dúinn roinnt téarmaí a shainiú. I dtionscadail Intleachta Saorga, go háirithe Foghlaim Meaisín, tá gá le líon mór sonraí, a úsáidfear chun an algartam a oiliúint. Bailítear an méid sonraí seo i mbunachar sonraí, atá thar a bheith úsáideach chun algartam a mhúineadh.
Leis na sonraí seo, cuirtear oiliúint ar an algartam - déantar tástáil air freisin - agus éiríonn sé in ann patrúin a aimsiú, caidrimh a bhunú agus cinntí a dhéanamh go neamhspleách dá réir. Gan oiliúint, Foghlaim Meaisín ní féidir le halgartaim aon ghníomh a dhéanamh. Dá bhrí sin, is amhlaidh is fearr na sonraí oiliúna, is amhlaidh is fearr a fheidhmeoidh an tsamhail. Chun bunachar sonraí a bheith úsáideach don tionscadal, ní bhaineann sé le cainníocht: baineann sé le haicmiú freisin.
Go hidéalach, ba cheart na sonraí a lipéadú go maith. Smaoinigh ar chás chatbots: tá cur isteach teanga tábhachtach, ach ní mór anailís chomhréire cúramach a dhéanamh ionas gur féidir leis an algartam a chruthaítear a thuiscint nuair a bhíonn slang in úsáid ag an idirghabhálaí. Is ansin a bheidh an cúntóir fíorúil in ann an freagra a sheoladh de réir an méid a d’iarr an t-úsáideoir.
Is féidir tacair sonraí a ghiniúint ó shuirbhéanna, ó shonraí ceannacháin úsáideoirí, ó mheastóireachtaí a fhágtar ar sheirbhísí, agus ar go leor bealaí eile a cheadaíonn faisnéis úsáideach a bhailiú eagraithe i gcolúin agus i sraitheanna i gcomhad CSV.
Sula dtéann tú sa tóir ar an tacar sonraí foirfe, tá sé tábhachtach go mbeadh cuspóir do thionscadail ar eolas agat, go háirithe más ó réimse ar leith é, amhail aimsir, airgeadas, sláinte, etc. tacar sonraí.
tacair sonraí le haghaidh ML
Oiliúint Chatbot
Éilíonn chatbot éifeachtach méid ollmhór sonraí oiliúna chun fiosrúcháin úsáideoirí a réiteach go tapa gan idirghabháil dhaonna. Mar sin féin, is é an príomh-bhac i bhforbairt chatbot ná sonraí réalaíocha dialóige atá dírithe ar thascanna a fháil chun na córais seo atá bunaithe ar Fhoghlaim Meaisín a oiliúint.
Bailíonn tacar sonraí comhrá sonraí i bhformáid ceisteanna agus freagraí. Tá sé oiriúnach le haghaidh chatbots a oiliúint a thabharfaidh freagraí uathoibrithe don lucht féachana. Gan na sonraí seo, ní theipeann ar an chatbot fiosrúcháin úsáideoirí a réiteach go tapa nó ceisteanna úsáideoirí a fhreagairt gan gá le hidirghabháil daonna.
Ag baint úsáide as na tacair sonraí seo, is féidir le gnólachtaí uirlis a chruthú a sholáthraíonn freagraí tapa do chustaiméirí 24/7 agus atá i bhfad níos saoire ná foireann daoine a bheith ag tabhairt tacaíochta do chustaiméirí.
1. Ceist-Freagra Tacar Sonraí
Soláthraíonn an tacar sonraí seo sraith alt Vicipéid, ceisteanna agus na freagraí a ghintear de láimh faoi seach. Is tacar sonraí é a bailíodh idir 2008 agus 2010 le húsáid i taighde acadúil.
2. Sonraí Teanga
Is bunachar sonraí é Language Data atá á bhainistiú ag Yahoo le faisnéis a ghintear ó chuid de sheirbhísí na cuideachta, mar Yahoo! Freagra, a oibríonn mar phobal oscailte d'úsáideoirí chun ceisteanna agus freagraí a phostáil.
3. WikiQA
Tá sraith ceisteanna agus freagraí i gcorpas WikiQA freisin. Is é Bing foinse na gceisteanna, agus nascann na freagraí le leathanach Vicipéid a d’fhéadfadh an cheist tosaigh a réiteach.
San iomlán, tá níos mó ná 3,000 ceist agus sraith de 29,258 abairt sa tacar sonraí, a bhfuil thart ar 1,400 catagóirithe mar fhreagraí ar cheist chomhfhreagrach.
Sonraí rialtais
Tugann tacair sonraí a ghineann rialtais sonraí déimeagrafacha, ar ionchuir iontach iad do thionscadail a bhaineann le treochtaí sóisialta a thuiscint, beartais phoiblí a chruthú, agus an tsochaí a fheabhsú. Féadfaidh sé seo a bheith úsáideach le haghaidh feachtais pholaitiúla, fógraíocht spriocdhírithe, nó anailís mhargaidh.
Go hiondúil bíonn sonraí gan ainm sna tacair sonraí seo, mar sin cé gur féidir leis na samhlacha rochtain a fháil ar na sonraí amh, níl aon sárú ar phríobháideachas pearsanta.
4. Sonraí
Seolta in 2009, is é Data.gov foinse sonraí Mheiriceá Thuaidh. Tá a chatalóg go hiontach: níos mó ná 218,000 tacar sonraí a cheadaíonn deighilt de réir formáide, clibeanna, cineálacha agus topaicí.
5. Tairseach Sonraí Oscailte an AE
Soláthraíonn Tairseach Sonraí Oscailte an AE rochtain ar shonraí oscailte arna roinnt ag institiúidí an Aontais Eorpaigh. Is sonraí iad seo ar féidir a bheith beartaithe le haghaidh úsáide tráchtála agus neamhthráchtála. Tá níos mó ná 15.5 míle tacar sonraí ar fáil don úsáideoir, a chlúdaíonn ábhair mar shláinte, fuinneamh, comhshaol, cultúr agus oideachas.
Sonraí sláinte
Mar thoradh ar an ngéarchéim sláinte leanúnach ar fud an domhain, tá tacair shonraí arna nginiúint ag eagraíochtaí sláinte ríthábhachtach chun réitigh éifeachtacha a fhorbairt chun daoine a shábháil. Is féidir leis na tacair sonraí seo cabhrú leis na fachtóirí riosca a aithint, patrúin tarchuir galair a oibriú amach, agus diagnóis a bhrostú.
Cuimsíonn na tacair sonraí seo taifid sláinte, déimeagrafaic na n-othar, leitheadúlacht galair, úsáid íocshláinte, luachanna cothaitheacha, agus go leor eile.
6. Réadlann Sláinte Domhanda
Tionscnamh de chuid na hEagraíochta Domhanda Sláinte (WHO) is ea an tacar sonraí seo. Soláthraíonn sé sonraí poiblí a bhaineann le réimsí éagsúla sláinte, arna n-eagrú de réir téamaí amhail córais sláinte, rialú úsáid tobac, máithreachas, VEID/SEIF, etc. Tá an rogha ann freisin sonraí a cheadú maidir le COVID-19.
7. CORD-19
Corpas d’fhoilseacháin acadúla ar COVID-19 agus altanna eile faoin choróinvíreas nua is ea CORD-19. Is tacar sonraí oscailte é atá ceaptha chun léargais nua a ghiniúint ar COVID-19.
Sonraí eacnamaíocha
De ghnáth bailíonn tacair sonraí a bhaineann leis an timpeallacht airgeadais méid ollmhór faisnéise, ós rud é go bhfuil sé coitianta go bhfuil siad bailithe le fada an lá. Tá siad oiriúnach chun tuar eacnamaíoch a chruthú nó chun treochtaí infheistíochta a bhunú.
Leis na tacair shonraí airgeadais cearta, a Múnla Foghlama Meaisín b'fhéidir go mbeifeá in ann iompar sócmhainn ar leith a thuar. Sin an fáth go bhfuil an earnáil airgeadais ag déanamh gach rud atá ina cumhacht chun samhail éifeachtach ML a chruthú, mar go bhfuil an cumas ag aon rud is féidir a thuar fiú go réasúnta na milliúin dollar a ghiniúint. Tá iompraíocht na saoránach á thuar cheana féin ag Machine Learning, rud atá ag dul i bhfeidhm ar an mbealach ina bhfuil lucht déanta beartas ag déanamh a gcuid oibre.
8. Ciste Airgeadaíochta Idirnáisiúnta
Coinníonn tacar sonraí an IMF raon táscairí eacnamaíocha agus airgeadais, staitisticí ballstáit, agus sonraí eile maidir le hiasachtaí agus rátaí malairte.
9. An Banc Domhanda
Tá tacair shonraí éagsúla le faisnéis eacnamaíoch ó thíortha éagsúla i stór an Bhainc Dhomhanda. Tá níos mó ná 17,000 tacar sonraí roinnte de réir ilchríocha.
Léirmheasanna ar tháirgí agus ar sheirbhísí
Fuair anailís meon a fheidhmchláir i réimsí éagsúla atá ag cabhrú le fiontair anois meastachán a dhéanamh agus foghlaim óna gcliaint nó óna gcustaiméirí i gceart. Tá níos mó úsáide á baint as anailís mothúcháin le haghaidh monatóireachta ar na meáin shóisialta, monatóireacht branda, guth an chustaiméara (VoC), seirbhís do chustaiméirí, agus taighde margaidh.
Úsáideann anailís mothúcháin NLP (ríomhchlárú néar-theangeolaíoch) modhanna agus halgartaim atá bunaithe ar rialacha, hibrideach, nó a bhíonn ag brath ar theicnící Meaisín Foghlama chun sonraí a fhoghlaim ó thacair sonraí.
Ba cheart go mbeadh na sonraí is gá chun anailís a dhéanamh ar dhearcadh sainiúil agus go mbeadh gá leo i gcainníochtaí móra. Is í an chuid is dúshlánaí faoin bpróiseas oiliúna um anailísiú meon ná nach mór sonraí a aimsiú; ina ionad sin, tá sé chun na tacair shonraí ábhartha a aimsiú. Ní mór go gclúdódh na tacair sonraí seo réimse leathan d’iarratais anailíse meon agus cásanna úsáide.
10. Athbhreithnithe Amazon
Tá thart ar 35 milliún léirmheas Amazon sa tacar sonraí seo, a chuimsíonn tréimhse 18 mbliana d’fhaisnéis bhailithe. Is tacar sonraí é d’ábhar táirge, úsáideora agus athbhreithnithe.
11. Léirmheasanna Yelp
Cuireann Yelp tacar sonraí ar fáil freisin bunaithe ar fhaisnéis a bhailítear óna sheirbhís. Tá os cionn 8 milliún léirmheas, 1 mhilliún leid, chomh maith le beagnach 1.5 milliún tréithe a bhaineann le gnólachtaí, mar uaireanta oscailte agus infhaighteacht.
12. Léirmheasanna IMDB
Sa bhunachar sonraí seo tá sraith de níos mó ná 25 míle léirmheas scannán le haghaidh oiliúna agus 25 míle eile le haghaidh tástálacha a glacadh go neamhfhoirmiúil ó leathanach IMDB, speisialaithe i rátálacha scannán. Cuireann sé sonraí gan lipéad ar fáil mar bhreis eile.
Tacair sonraí do na chéad chéimeanna in ML
13. Tacar Sonraí Cáilíochta Fíona
Soláthraíonn an tacar sonraí seo faisnéis a bhaineann le fíon, dearg agus glas, a tháirgtear i dtuaisceart na Portaingéile. Is é an sprioc cáilíocht an fhíona a shainiú bunaithe ar thástálacha fisiciceimiceacha. Suimiúil dóibh siúd ar mian leo cleachtadh a dhéanamh ar chóras tuar a chruthú.
14. Tacar sonraí Titanic
Tugann an tacar sonraí seo sonraí ó 887 fíorphaisinéir ón Titanic, agus sainíonn gach colún cé acu ar tháinig siad slán, a n-aois, aicme paisinéirí, inscne, agus an táille bordála a d’íoc siad. Bhí an tacar sonraí seo mar chuid de dhúshlán a sheol ardán Kaggle, a raibh sé mar aidhm aige múnla a chruthú a d’fhéadfadh a thuar cé na paisinéirí a tháinig slán nuair a chuaigh an Titanic go tóin poill.
Ardáin chun Tacair Sonraí Eile a Aimsiú
Más mian leat dul níos faide agus do thacair sonraí féin a aimsiú, is é an bealach is fearr chun brabhsáil trí na stórtha is cáiliúla de na Foghlaim Meaisín cruinne:
Kaggle
Is pobal ar líne eolaithe sonraí agus gairmithe Machine Learning é Kaggle, fochuideachta de chuid Google LLC. Ligeann Kaggle d’úsáideoirí tacair shonraí a aimsiú agus a fhoilsiú, samhlacha a iniúchadh agus a chruthú i dtimpeallacht eolaíochta sonraí gréasán-bhunaithe; oibriú le heolaithe sonraí eile agus Innealtóirí Foghlama Meaisín, agus páirt a ghlacadh i gcomórtais chun dúshláin eolaíocht sonraí a réiteach.
Thosaigh Kaggle in 2010 trí chomórtais Machine Learning a thairiscint agus cuireann sé ar fáil don phobal anois freisin ardán sonraí, binse oibre néal-bhunaithe le haghaidh eolaíocht sonraí agus oideachas Intleachta Saorga.
Cuardach Tacar Sonraí
Is inneall cuardaigh ó Google é Dataset Search a chuidíonn le taighdeoirí sonraí ar líne a aimsiú atá ar fáil go héasca le húsáid. Ar fud an ghréasáin, tá na milliúin tacar sonraí faoi ábhar ar bith nach mór a bhfuil spéis agat ann.
Má tá tú ag iarraidh coileán a cheannach, d’fhéadfá tacair shonraí a aimsiú a thiomsaíonn gearáin ó cheannaitheoirí coileán nó staidéir ar chognaíocht coileán. Nó más maith leat sciáil, d’fhéadfá sonraí a fháil ar ioncam ionaid sciála nó rátaí gortaithe agus líon na rannpháirtíochta. Tá beagnach 25 milliún de na tacair sonraí seo innéacsaithe ag Dataset Search, rud a thugann áit amháin duit chun tacair shonraí a chuardach agus naisc a aimsiú go dtí an áit a bhfuil na sonraí.
Stór Foghlama Meaisín UCI
Is éard atá i Stór Foghlama Meaisín UCI ná bailiúchán bunachair shonraí, teoiricí fearainn, agus gineadóirí sonraí a úsáideann an pobal Machine Learning chun anailís eimpíreach a dhéanamh ar halgartaim Meaisín Foghlama. Chruthaigh David Aha agus comh-mhic léinn iarchéime ag UC Irvine an chartlann mar chartlann ftp i 1987.
Ón am sin, tá sé á úsáid go forleathan ag mic léinn, oideachasóirí, agus taighdeoirí ar fud an domhain mar phríomhfhoinse tacair sonraí ML. Mar léiriú ar thionchar na cartlainne, luadh breis agus 1000 uair í, rud a fhágann go bhfuil sé ar cheann de na 100 “páipéar” is mó a luadh san eolaíocht ríomhaireachta ar fad.
Quandl
Is ardán é Quandl a sholáthraíonn tacair shonraí eacnamaíocha, airgeadais agus malartacha dá úsáideoirí. Is féidir le húsáideoirí sonraí saor in aisce a íoslódáil, sonraí íoctha a cheannach nó sonraí a dhíol le Quandl. Is féidir leis a bheith ina uirlis úsáideach le haghaidh fhorbairt na halgartaim trádála, mar shampla.
Conclúid
Trí na huirlisí seo a iniúchadh, tá tú cinnte go bhfaighidh tú ionchuir iontacha do do thionscadail. Bí cinnte a roghnú an tacar sonraí is oiriúnaí do do riachtanais ar leith agus a choinneáil i gcuimhne i gcónaí: ní hamháin go bhfuil sé faoi chainníocht, ach freisin ar cháilíocht. Tá an tacar sonraí mar bhunús le haon Tionscadal meaisín foghlama agus tá sé ríthábhachtach tógáil ar shonraí cáilíochta chun an baol a sheachaint go dtiocfar ar chonclúidí lochtacha.
Leave a Reply