Ọrụ mmụta igwe ọ bụla na-adabere na ezigbo dataset. Ọ bụ nnukwu dataset ga-enye gị ohere ịzụ ma kwado ụdị ML gị. Yabụ, akụkụ buru ibu nke ọrụ na ọrụ ML bụ ịchọta dataset zuru oke maka mkpa gị. Otú ọ dị, ọ bụghị mgbe nile ka ọ ga-ekwe omume ịchọta nhọrọ nke dabara na ọchịchọ gị, n'ihi na ọtụtụ faịlụ ndị na-adọrọ mmasị, n'ikpeazụ, adịghị.
Ọ nwere ike bụrụ ihe na-akụda mmụọ igbu oge na nbudata dataset na-enweghị atụ ruo mgbe ị rutere n'usoro dị mma. N'iburu nke ahụ n'uche, anyị achịkọtala ụfọdụ nhọrọ ndị na-amasị gị ma nwee ike inyere gị aka ịzụlite ọrụ ML gị. Rịba ama na e bu n'obi ụfọdụ maka nkeonwe kama iji azụmaahịa, yabụ lelee nhọrọ ndị a dịka ụzọ iji nweta ahụmịhe na mbara igwe ML.
Ihe ndabere nke Datasets
Tupu anyị ekwuo ihe ndị datasets, anyị kwesịrị ịkọwa ụfọdụ okwu. Na oru ọgụgụ isi Artificial, karịsịa Igwe ihe igwe, a chọrọ nnukwu data, nke a ga-eji zụọ algọridim. A na-achịkọta ọnụọgụ data a na nchekwa data, nke bara ezigbo uru iji kuzie algọridim.
Site na data a, a na-azụ algọridim - a nwalekwara ya - wee nwee ike ịchọta usoro, guzobe mmekọrịta ma si otú a na-eme mkpebi n'onwe ya. Enweghị ọzụzụ, Igwe ihe igwe algọridim enweghị ike ime ihe ọ bụla. Ya mere, ka data ọzụzụ dị mma, ihe nlereanya ahụ ga-arụ ọrụ nke ọma. Maka nchekwa data bara uru maka ọrụ ahụ, ọ bụghị maka ọnụọgụgụ: ọ bụkwa maka nhazi.
Dị ka o kwesịrị, a ga-edepụta data ahụ nke ọma. Chee echiche banyere okwu nkata: ntinye asụsụ dị mkpa, mana a ghaghị ime nyocha nke ọma nke ọma ka algọridim emepụtara wee ghọta mgbe onye na-emekọrịta ihe na-eji slang. Naanị mgbe ahụ ka onye enyemaka mebere ga-enwe ike ịmalite azịza dịka ihe onye ọrụ rịọrọ.
Enwere ike ịmepụta datasets site na nyocha, data ịzụrụ onye ọrụ, nyocha hapụrụ na ọrụ, yana n'ọtụtụ ụzọ ndị ọzọ na-enye ohere ịnakọta ozi bara uru ahaziri na kọlụm na ahịrị na faịlụ CSV.
Tupu ịmalite ịchọ dataset zuru oke, ọ dị mkpa ka ị mara ebumnuche nke ọrụ gị, ọkachasị ma ọ bụrụ na ọ sitere na mpaghara akọwapụtara, dị ka ihu igwe, ego, ahụike, wdg. Nke a ga-ekpebi ebe ị ga-esi nweta isi mmalite gị. dataset.
Nchịkọta data maka ML
Ọzụzụ nkata
Mkparịta ụka dị mma chọrọ nnukwu data ọzụzụ iji dozie ajụjụ ndị ọrụ ngwa ngwa na-enweghị enyemaka mmadụ. Agbanyeghị, ihe bụ isi na mmepe chatbot bụ ịnweta data mkparịta ụka ga-arụ ọrụ iji zụọ sistemu igwe ndị a dabere na mmụta.
Nchịkọta data mkparịta ụka na-achịkọta data n'ụdị ajụjụ na azịza. Ọ dị mma maka ịzụ nkata nkata nke ga-enye ndị na-ege ntị azịza akpaghị aka. Enweghị data a, chatbot agaghị akwụsị ngwa ngwa ajụjụ onye ọrụ ma ọ bụ zaa ajụjụ onye ọrụ na-enweghị mkpa enyemaka mmadụ.
N'iji datasets ndị a, azụmahịa nwere ike ịmepụta ngwá ọrụ na-enye ndị ahịa azịza ngwa ngwa 24/7 ma dị ọnụ ala karịa inwe otu ndị na-akwado ndị ahịa.
1. Ajụjụ-Azịza Dataset
Nhazi data a na-enye nchịkọta akụkọ Wikipedia, ajụjụ na azịza ha ejiri aka mepụta. Ọ bụ ihe ndekọ data anakọtara n'etiti 2008 na 2010 maka ojiji nnyocha omumu.
2. Data asụsụ
Data Asụsụ bụ nchekwa data nke Yahoo jikwaa ozi sitere na ụfọdụ ọrụ ụlọ ọrụ, dị ka Yahoo! Azịza, nke na-arụ ọrụ dị ka obodo mepere emepe maka ndị ọrụ biputere ajụjụ na azịza.
3. WikiQA
WikiQA corpus nwekwara ọtụtụ ajụjụ na azịza. Isi mmalite ajụjụ ndị a bụ Bing, ebe azịza ya na-ejikọta na ibe Wikipedia nwere ike idozi ajụjụ mbụ.
Na mkpokọta, enwere ihe karịrị ajụjụ 3,000 na otu ahịrịokwu 29,258 n'ime dataset, nke ahaziela ihe dị ka 1,400 dị ka azịza nye ajụjụ kwekọrọ.
Data gọọmentị
Nchịkọta data gọọmentị na-emepụta na-eweta data igwe mmadụ, nke bụ nnukwu ntinye maka ọrụ metụtara ịghọta usoro mmekọrịta ọha na eze, ịmepụta atumatu ọha, na ịkwalite ọha mmadụ. Nke a nwere ike ịba uru maka mkpọsa ndọrọ ndọrọ ọchịchị, mgbasa ozi ezubere iche, ma ọ bụ nyocha ahịa.
Ntọala data ndị a na-enwekarị data amaghị aha, yabụ ebe ụdị ahụ nwere ike ịnweta data raw, enweghị mmebi nke nzuzo nkeonwe.
4. Data.gov
Ewepụtara na 2009, Data.gov bụ ebe North America maka data. Katalọgụ ya dị egwu: ihe karịrị 218,000 datasets na-enye ohere nkewa site na usoro, mkpado, ụdị na isiokwu.
5. EU mepere data Portal
EU Open Data Portal na-enye ohere imeghe data nke ụlọ ọrụ European Union kesara. Ndị a bụ data enwere ike ebu n'obi maka azụmahịa na nke na-abụghị nke azụmahịa. N'aka onye ọrụ nwere ihe karịrị puku data 15.5, na-ekpuchi isiokwu ndị dị ka ahụike, ike, gburugburu ebe obibi, omenala na agụmakwụkwọ.
Ahụ ike
N'ihi nsogbu ahụike na-aga n'ihu n'ụwa nile, datasets nke ụlọ ọrụ ahụike na-emepụta dị mkpa maka ịmepụta ngwọta dị irè iji zọpụta ndụ. Ihe ndekọ data ndị a nwere ike inye aka chọpụta ihe ndị dị ize ndụ, rụpụta usoro mgbasa ọrịa, na ime ngwa ngwa nyocha.
Ihe ndekọ data ndị a nwere ndekọ ahụike, ọnụọgụ ọnụọgụgụ nke ndị ọrịa, oke ọrịa, ojiji ọgwụ, ụkpụrụ nri, na ọtụtụ ndị ọzọ.
6. Global Health Observatory
Ntọala data a bụ atụmatụ nke Òtù Ahụ Ike Ụwa (WHO). Ọ na-enye data ọha metụtara mpaghara ahụike dị iche iche, ahaziri site na isiokwu dị ka sistemu ahụike, njikwa ụtaba, ịmụ nwa, HIV/AIDS, wdg. Enwekwara nhọrọ inyocha data na COVID-19.
7. CORD-19
CORD-19 bụ ngalaba nke akwụkwọ agụmakwụkwọ na COVID-19 na akụkọ ndị ọzọ gbasara coronavirus ọhụrụ. Ọ bụ dataset mepere emepe ezubere iji wepụta nghọta ọhụrụ na COVID-19.
Data akụ na ụba
Ihe ndekọ data metụtara gburugburu ebe ego na-achịkọta ọtụtụ ozi, ebe ọ bụ na a na-achịkọta ha ogologo oge. Ha dị mma maka ịmepụta amụma akụ na ụba ma ọ bụ guzobe usoro ntinye ego.
Site na ndekọ ndekọ ego ziri ezi, a Ụdị mmụta igwe nwere ike ibu amụma omume nke akụrụngwa enyere. Ọ bụ ya mere ụlọ ọrụ ego ji eme ihe niile dị ike iji mepụta ụdị ML dị irè, n'ihi na ihe ọ bụla nwere ike ịkọ ọbụna nke ọma nke ọma nwere ike ịmepụta ọtụtụ nde dollar. Ịmụ igwe na-ebu amụma omume nke ụmụ amaala, nke na-emetụta otú ndị na-eme iwu si arụ ọrụ ha.
8. Ego Monetary International
Ihe ndekọ IMF na-ejide ọtụtụ ihe ngosi akụ na ụba na ego, ọnụ ọgụgụ obodo ndị otu, yana data mbinye ego na ọnụego mgbanwe ndị ọzọ.
9. Bank World
Ebe nchekwa nke Bank World nwere ihe ndekọ data dị iche iche nwere ozi akụ na ụba sitere na mba dị iche iche. Enwere ihe karịrị puku data 17,000 nke kọntinent kewara.
Nlebanya ngwaahịa na ọrụ
Ntụle mmetụta achọpụtala ngwa ya n'akụkụ dị iche iche nke na-enyere ụlọ ọrụ aka ugbu a ịtụle na ịmụta n'aka ndị ahịa ha ma ọ bụ ndị ahịa ha nke ọma. A na-eji nyocha mmetụta uche na-arịwanye elu maka nlekota mgbasa ozi ọha na eze, nlekota ika, olu onye ahịa (VoC), ọrụ ndị ahịa, na nyocha ahịa.
Nyocha mmetụta uche na-eji NLP (mmemme mmemme neuro-linguistic) ụzọ na algọridim nke dabere na iwu, ngwakọ, ma ọ bụ dabere na usoro mmụta igwe iji mụta data sitere na datasets.
Ihe data achọrọ na nyocha mmetụta kwesịrị ịbụ ọkachamara na achọrọ ya n'ọtụtụ buru ibu. Akụkụ kacha sie ike gbasara usoro ọzụzụ nyocha nke mmetụta abụghị ịchọta data na nnukwu ego; kama, ọ bụ ịchọta datasets dị mkpa. Ntọala data ndị a ga-ekpuchirịrị akụkụ dị ukwuu nke ngwa nyocha mmetụta na iji ikpe.
10. Nyocha Amazon
Nke a dataset nwere ihe dị ka nde 35 Amazon nlebanya, na-agbasa ozi anakọtara afọ 18 afọ. Ọ bụ nchịkọta data nke ngwaahịa, onye ọrụ na ọdịnaya nyocha.
11. Nyocha Yelp
Yelp na-enyekwa ihe ndekọ data dabere na ozi anakọtara na ọrụ ya. Enwere ihe karịrị nde 8 nyocha, ndụmọdụ nde 1, gbakwunyere ihe fọrọ nke nta ka ọ bụrụ nde 1.5 metụtara azụmahịa, dị ka awa mmeghe na nnweta.
12. Nyocha IMDB
Ebe nchekwa data a nwere ihe nlebanya ihe nkiri karịrị puku iri abụọ na ise maka ọzụzụ yana puku iri abụọ na ise ọzọ maka ule ewepụtara na ibe IMDB, ndị ọkachamara na ọkwa ihe nkiri. Ọ na-enyekwa data enweghị akara ka mgbakwunye.
Nchịkọta data maka nzọụkwụ mbụ na ML
13. Ntọala Ogo Mmanya mmanya
Ihe ndekọ data a na-enye ozi metụtara mmanya, ma uhie na akwụkwọ ndụ akwụkwọ ndụ, nke emepụtara na ugwu Portugal. Ebumnobi bụ ịkọwapụta ogo mmanya dabere na ule physicochemical. Na-adọrọ mmasị maka ndị na-achọ ịmalite ịmepụta usoro amụma.
14. Titanic Dataset
Ihe ndekọ data a na-eweta data sitere na ezigbo ndị njem 887 sitere na Titanic, yana kọlụm ọ bụla na-akọwa ma ha dị ndụ, afọ ndụ ha, klaasị ndị njem, okike, na ụgwọ ụlọ ha kwụrụ. Ihe ndekọ data a bụ akụkụ nke ihe ịma aka nke ikpo okwu Kaggle malitere, nke ebumnuche ya bụ imepụta ihe atụ nke nwere ike ịkọ ndị njem lanarịrị nkpu nke Titanic.
Platform maka Ịchọta Datasets Ndị Ọzọ
Ọ bụrụ na ịchọrọ ịga n'ihu wee chọta dataset nke gị, ụzọ kachasị mma bụ ịgagharị na ebe nchekwa ndị ama ama nke Igwe ihe igwe eluigwe na ala:
Kaggle
Kaggle, onye enyemaka nke Google LLC, bụ obodo ntanetị nke ndị sayensị data na ndị ọkachamara mmụta igwe. Kaggle na-enye ndị ọrụ ohere ịchọta na ibipụta datasets, nyochaa na ịmepụta ụdị na gburugburu sayensị data dabeere na weebụ; na-arụ ọrụ na ndị ọkà mmụta sayensị data ndị ọzọ na Ndị injinia na-amụ ihe, ma sonye na asọmpi iji dozie ihe ịma aka sayensị data.
Kaggle malitere na 2010 site n'inye asọmpi mmụta igwe ma ugbu a na-enyekwa ọha mmadụ ikpo okwu data, igwe ojii dabere workbench maka data sayensị na Artificial ọgụgụ isi mmụta.
Ọchụchọ dataset
Ọchụchọ Dataset bụ igwe nchọta sitere na Google na-enyere ndị nyocha aka ịchọta data ịntanetị dị maka ojiji. N'ofe webụ, enwere ọtụtụ nde dataset gbasara ihe fọrọ nke nta ka ọ bụrụ isiokwu ọ bụla masịrị gị.
Ọ bụrụ na ị na-achọ ịzụta nwa nkita, ị nwere ike ịhụ datasets na-achịkọta mkpesa nke ndị na-azụ nwa nkịta ma ọ bụ ọmụmụ banyere cognition puppy. Ma ọ bụ ọ bụrụ na-amasị gị ski, ị nwere ike ịchọta data na ego a ga-enweta na ebe ntụrụndụ ski ma ọ bụ ọnụego mmerụ ahụ na ọnụọgụ nsonye. Ọchụchọ Dataset edepụtala ihe fọrọ nke nta ka ọ bụrụ nde 25 n'ime datasets ndị a, na-enye gị otu ebe iji chọọ ntọala data wee chọta njikọ na ebe data dị.
Ebe nchekwa igwe mmụta UCI
Ebe nchekwa igwe mmụta UCI bụ mkpokọta ọdụ data, echiche ngalaba, na ndị na-emepụta data nke obodo mmụta igwe na-eji maka nyocha ihe omimi nke algorithms mmụta igwe. Emebere ebe nchekwa ahụ dị ka ebe nchekwa ftp na 1987 site n'aka David Aha na ụmụ akwụkwọ gụsịrị akwụkwọ na UC Irvine.
Kemgbe ahụ, ụmụ akwụkwọ, ndị nkuzi na ndị nyocha na-eji ya eme ihe n'ụwa niile dị ka isi mmalite nke datasets ML. Dị ka ihe na-egosi mmetụta nke ebe a na-edebe ihe ochie, a kpọtụrụ ya ihe karịrị 1000 ugboro, na-eme ka ọ bụrụ otu n'ime 100 kasị elu nke "akwụkwọ" kacha akpọtụrụ na sayensị kọmputa niile.
Quandl
Quandl bụ ikpo okwu na-enye ndị ọrụ ya ihe ndekọ data akụ na ụba, ego na ọzọ. Ndị ọrụ nwere ike ibudata data efu, zụta data akwụ ụgwọ ma ọ bụ ree data na Quandl. Ọ nwere ike ịbụ ngwá ọrụ bara uru maka mmepe nke trading algọridim, dị ka ọmụmaatụ.
mmechi
Site n'inyocha ngwaọrụ ndị a, ị ga-ahụrịrị na ị ga-achọta ezigbo ntinye maka ọrụ gị. Jide n'aka na ịhọrọ dataset nke dabara adaba maka mkpa gị kpọmkwem ma buru n'uche mgbe niile: ọ bụghị naanị maka ọnụọgụ, kamakwa ogo. Dataset bụ ndabere nke ọ bụla Ọrụ mmụta igwe na ọ dị mkpa iji wulite data dị mma iji zere ihe ize ndụ nke iru nkwubi okwu na-ezighi ezi.
Nkume a-aza