Seti 14 Bora za Data za Kujifunza kwa Mashine

Orodha ya Yaliyomo[Ficha][Onyesha]

Misingi ya Hifadhidata
Seti za data za ML+-
Majukwaa ya Kupata Hifadhidata Zingine+-
Hitimisho

Kila mradi wa Kujifunza kwa Mashine unategemea mkusanyiko mzuri wa data. Ni mkusanyiko huu mkubwa wa data ambao utakuruhusu kutoa mafunzo na kuhalalisha muundo wako wa ML. Kwa hivyo, sehemu kubwa ya kazi katika mradi wa ML ni kutafuta hifadhidata inayofaa kwa mahitaji yako. Walakini, si mara zote inawezekana kupata chaguo linalolingana na matarajio yako, kwani faili nyingi ambazo zinaonekana kuvutia, mwishowe, sio.

Inaweza kuwa ngumu kupoteza muda kupakua hifadhidata nyingi hadi ufikie seti inayofaa. Kwa kuzingatia hilo, tumekusanya baadhi ya chaguo ambazo zinaonekana kuvutia na zinaweza kukusaidia kuendeleza mradi wako wa ML. Kumbuka kuwa zingine zimekusudiwa matumizi ya kibinafsi badala ya matumizi ya kibiashara, kwa hivyo angalia chaguo hizi kama njia ya kupata uzoefu katika ulimwengu wa ML.

Misingi ya Hifadhidata

Kabla ya kutaja seti za data, tunapaswa kufafanua baadhi ya masharti. Katika miradi ya Artificial Intelligence, haswa Kujifunza Machine, kiasi kikubwa cha data kinahitajika, ambacho kitatumika kufundisha algorithm. Kiasi hiki cha data kinakusanywa katika hifadhidata, ambayo ni muhimu sana kufundisha algoriti.

Kwa data hii, algorithm inafunzwa - pia imejaribiwa - na inakuwa na uwezo wa kupata ruwaza, kuanzisha mahusiano na hivyo kufanya maamuzi kwa uhuru. Bila mafunzo, Kujifunza Machine algoriti haziwezi kutekeleza kitendo chochote. Kwa hiyo, bora data ya mafunzo, bora mtindo utafanya. Ili hifadhidata iwe muhimu kwa mradi, haihusu wingi: pia inahusu uainishaji.

Kwa kweli, data inapaswa kuandikwa vizuri. Fikiria kuhusu kisa cha chatbots: uingizaji wa lugha ni muhimu, lakini uchanganuzi makini wa kisintaksia lazima ufanywe ili algoriti iliyoundwa iweze kuelewa wakati mpatanishi anatumia misimu. Hapo ndipo msaidizi wa mtandaoni ataweza kuzindua jibu kulingana na kile kilichoombwa na mtumiaji.

Seti za data zinaweza kuzalishwa kutoka kwa tafiti, data ya ununuzi wa mtumiaji, tathmini zilizoachwa kwenye huduma, na kwa njia nyinginezo nyingi zinazoruhusu kukusanya taarifa muhimu iliyopangwa katika safu wima na safu katika faili ya CSV.

Kabla ya kuanza kutafuta mkusanyiko kamili wa data, ni muhimu ujue madhumuni ya mradi wako, haswa ikiwa unatoka eneo mahususi, kama vile hali ya hewa, fedha, afya, n.k. Hii itaamuru chanzo ambacho utapata seti ya data.

Seti za data za ML

Mafunzo ya Chatbot

Chatbot inayofaa inahitaji kiasi kikubwa cha data ya mafunzo ili kutatua haraka maswali ya watumiaji bila kuingilia kati kwa mwanadamu. Hata hivyo, kikwazo cha msingi katika ukuzaji wa gumzo ni kupata data ya kidadisi yenye uhalisia, yenye mwelekeo wa kazi ili kutoa mafunzo kwa mifumo hii inayotegemea Kujifunza kwa Mashine.

Seti ya data ya mazungumzo hukusanya data katika muundo wa maswali na majibu. Ni bora kwa mafunzo ya chatbots ambayo yatatoa majibu ya kiotomatiki kwa hadhira. Bila data hii, chatbot itashindwa kutatua kwa haraka maswali ya mtumiaji au kujibu maswali ya mtumiaji bila hitaji la kuingilia kati kwa mwanadamu.

Kwa kutumia hifadhi hizi za data, biashara zinaweza kuunda zana ambayo hutoa majibu ya haraka kwa wateja 24/7 na ni nafuu zaidi kuliko kuwa na timu ya watu wanaotoa usaidizi kwa wateja.

1. Seti ya Data ya Majibu ya Maswali

Seti hii ya data hutoa seti ya makala za Wikipedia, maswali na majibu yao yanayotolewa kwa mikono. Ni mkusanyiko wa data uliokusanywa kati ya 2008 na 2010 kwa matumizi utafiti wa kitaaluma.

2. Data ya Lugha

Data ya Lugha ni hifadhidata inayosimamiwa na Yahoo yenye maelezo yanayotokana na baadhi ya huduma za kampuni, kama vile Yahoo! Jibu, ambalo hufanya kazi kama jumuiya iliyo wazi kwa watumiaji kutuma maswali na majibu.

Seti za data 1

3. WikiQA

Kongamano la WikiQA pia lina seti ya maswali na majibu. Chanzo cha maswali ni Bing, huku majibu yakiunganishwa na ukurasa wa Wikipedia wenye uwezo wa kutatua swali la awali.

Seti za data 2 Kwa jumla, kuna zaidi ya maswali 3,000 na seti ya sentensi 29,258 katika mkusanyiko wa data, ambapo takriban 1,400 zimeainishwa kama majibu kwa swali linalolingana.

Takwimu za serikali

Seti za data zinazozalishwa na serikali huleta data ya demografia, ambayo ni nyenzo bora kwa miradi inayohusiana na kuelewa mienendo ya kijamii, kuunda sera za umma na kuboresha jamii. Hii inaweza kuwa muhimu kwa kampeni za kisiasa, utangazaji lengwa, au uchanganuzi wa soko.

Seti hizi za data kwa kawaida huwa na data isiyojulikana, kwa hivyo ingawa miundo inaweza kufikia data ghafi, hakuna ukiukaji wa faragha ya kibinafsi.

4. Data.gov

Ilizinduliwa mnamo 2009, Data.gov ndio chanzo cha data cha Amerika Kaskazini. Katalogi yake inavutia: zaidi ya hifadhidata 218,000 zinazoruhusu kugawanywa kwa muundo, lebo, aina na mada.

5. EU Open Data Portal

EU Open Data Portal hutoa ufikiaji wa data wazi iliyoshirikiwa na taasisi za Jumuiya ya Ulaya. Hizi ni data zinazoweza kulenga matumizi ya kibiashara na yasiyo ya kibiashara. Kwa mtumiaji kuna hifadhidata zaidi ya elfu 15.5, zinazoshughulikia mada kama vile afya, nishati, mazingira, utamaduni na elimu.

Takwimu za kiafya

Kufuatia mzozo wa kiafya unaoendelea kote ulimwenguni, seti za data zinazotolewa na mashirika ya afya ni muhimu ili kutengeneza masuluhisho madhubuti ya kuokoa maisha. Seti hizi za data zinaweza kusaidia kutambua sababu za hatari, kutayarisha mifumo ya uambukizaji wa magonjwa, na kuharakisha utambuzi.

Seti hizi za data zinajumuisha rekodi za afya, idadi ya wagonjwa, kuenea kwa magonjwa, matumizi ya dawa, maadili ya lishe, na mengi zaidi.

6. Global Health Observatory

Seti hii ya data ni mpango wa Shirika la Afya Duniani (WHO). Inatoa data ya umma inayohusiana na maeneo mbalimbali ya afya, iliyopangwa kwa mada kama vile mifumo ya afya, udhibiti wa matumizi ya tumbaku, uzazi, VVU/UKIMWI, n.k. Pia kuna chaguo la kushauriana na data kuhusu COVID-19.

7. CORD-19

CORD-19 ni mkusanyiko wa machapisho ya kitaaluma kuhusu COVID-19 na makala mengine kuhusu virusi vipya vya corona. Ni mkusanyiko wa data ulio wazi unaokusudiwa kutoa maarifa mapya kuhusu COVID-19.

Seti za data7

Takwimu za uchumi

Seti za data zinazohusiana na mazingira ya kifedha kawaida hukusanya idadi kubwa ya habari, kwani ni kawaida kuwa wamekusanywa kwa muda mrefu. Ni bora kwa kuunda utabiri wa kiuchumi au kuanzisha mwelekeo wa uwekezaji.

Na seti sahihi za data za kifedha, a Mfano wa Kujifunza kwa Mashine inaweza kuwa na uwezo wa kutabiri tabia ya mali fulani. Ndio maana sekta ya fedha inafanya kila iwezalo kuunda muundo bora wa ML, kwani chochote kinachoweza kutabiri vyema kina uwezo wa kuzalisha mamilioni ya dola. Kujifunza kwa Mashine tayari kunatabiri tabia ya raia, ambayo inaathiri jinsi watunga sera wanavyofanya kazi zao.

8. Shirika la Fedha Duniani

Seti ya data ya IMF ina anuwai ya viashirio vya kiuchumi na kifedha, takwimu za nchi wanachama, na data nyingine ya viwango vya mikopo na ubadilishaji.

9. Benki ya Dunia

Hazina ya Benki ya Dunia ina seti tofauti za data zilizo na taarifa za kiuchumi kutoka nchi mbalimbali. Kuna zaidi ya hifadhidata 17,000 zilizogawanywa na mabara.

88 hifadhidata 7

Maoni ya bidhaa na huduma

Uchanganuzi wa hisia umepata matumizi yake katika nyanja mbalimbali ambazo sasa zinasaidia makampuni ya biashara kukadiria na kujifunza kutoka kwa wateja au wateja wao ipasavyo. Uchambuzi wa hisia unazidi kutumiwa kwa ufuatiliaji wa mitandao ya kijamii, ufuatiliaji wa chapa, sauti ya mteja (VoC), huduma kwa wateja na utafiti wa soko.

Uchambuzi wa hisia hutumia NLP (upangaji wa lugha ya neuro) mbinu na algoriti ambazo zinategemea kanuni, mseto, au zinategemea mbinu za Kujifunza Mashine ili kujifunza data kutoka kwa hifadhidata.

Data inayohitajika katika uchanganuzi wa hisia inapaswa kuwa maalum na inahitajika kwa idadi kubwa. Sehemu yenye changamoto zaidi kuhusu mchakato wa mafunzo ya uchanganuzi wa hisia sio kupata data kwa kiasi kikubwa; badala yake, ni kutafuta hifadhidata husika. Seti hizi za data lazima zijumuishe eneo pana la maombi ya uchambuzi wa hisia na kesi za utumiaji.

10. Mapitio ya Amazon

Seti hii ya data ina takriban hakiki milioni 35 za Amazon, zikichukua muda wa miaka 18 wa taarifa zilizokusanywa. Ni mkusanyiko wa data wa bidhaa, mtumiaji na maudhui ya ukaguzi.

11. Mapitio ya Yelp

Yelp pia hutoa mkusanyiko wa data kulingana na habari iliyokusanywa kutoka kwa huduma yake. Kuna maoni zaidi ya milioni 8, vidokezo milioni 1, pamoja na karibu sifa milioni 1.5 zinazohusiana na biashara, kama vile saa za kazi na upatikanaji.

12. Mapitio ya IMDB

Hifadhidata hii ina seti ya zaidi ya hakiki elfu 25 za filamu kwa mafunzo na zingine elfu 25 kwa majaribio yaliyochukuliwa kwa njia isiyo rasmi kutoka kwa ukurasa wa IMDB, maalum katika ukadiriaji wa filamu. Pia hutoa data isiyo na lebo kama nyongeza.

Seti za data za hatua za kwanza katika ML

13. Seti ya Data ya Ubora wa Mvinyo

Seti hii ya data hutoa habari inayohusiana na divai, nyekundu na kijani kibichi, inayozalishwa kaskazini mwa Ureno. Lengo ni kufafanua ubora wa divai kulingana na vipimo vya physicochemical. Kuvutia kwa wale ambao wanataka kufanya mazoezi ya kuunda mfumo wa utabiri.

14. Hifadhidata ya Titanic

Seti hii ya data huleta data kutoka kwa abiria 887 halisi kutoka Titanic, huku kila safu ikifafanua ikiwa walinusurika, umri wao, daraja la abiria, jinsia na ada ya kuabiri waliyolipa. Seti hii ya data ilikuwa sehemu ya changamoto iliyozinduliwa na jukwaa la Kaggle, ambalo lengo lake lilikuwa kuunda muundo ambao ungeweza kutabiri ni abiria gani waliokoka kuzama kwa meli ya Titanic.

Majukwaa ya Kupata Hifadhidata Zingine

Ikiwa unataka kwenda mbali zaidi na kupata hifadhidata yako mwenyewe, njia bora ni kuvinjari hazina maarufu za hifadhidata. Kujifunza Machine ulimwengu:

Kaggle

Kaggle, kampuni tanzu ya Google LLC, ni jumuiya ya mtandaoni ya wanasayansi wa data na wataalamu wa Kujifunza Mashine. Kaggle huruhusu watumiaji kutafuta na kuchapisha hifadhidata, kuchunguza na kuunda miundo katika mazingira ya sayansi ya data ya mtandao; fanya kazi na wanasayansi wengine wa data na Wahandisi wa Kujifunza kwa Mashine, na kushiriki katika mashindano ya kutatua changamoto za sayansi ya data.

Kaggle ilianza mwaka wa 2010 kwa kutoa mashindano ya Kujifunza Mashine na sasa pia inatoa umma jukwaa la data, benchi la kazi linalotegemea wingu la sayansi ya data na elimu ya Ujasusi Bandia.

Utafutaji wa Seti ya Data

Utafutaji wa Dataset ni injini ya utafutaji kutoka Google ambayo husaidia watafiti kupata data mtandaoni ambayo inapatikana kwa matumizi bila malipo. Kote kwenye wavuti, kuna mamilioni ya seti za data kuhusu karibu somo lolote linalokuvutia.

Ikiwa unatafuta kununua mbwa, unaweza kupata hifadhidata zinazokusanya malalamiko ya wanunuzi wa mbwa au masomo juu ya utambuzi wa mbwa. Au ikiwa unapenda kuteleza kwenye theluji, unaweza kupata data kuhusu mapato ya hoteli za kuteleza kwenye theluji au viwango vya majeruhi na nambari za ushiriki. Utafutaji wa Dataset umeorodhesha karibu milioni 25 ya seti hizi za data, na kukupa mahali pamoja pa kutafuta seti za data na kupata viungo vya mahali data ilipo.

Hazina ya Kujifunza ya Mashine ya UCI

Hazina ya Kujifunza ya Mashine ya UCI ni mkusanyiko wa hifadhidata, nadharia za kikoa, na jenereta za data ambazo hutumiwa na jumuiya ya Kujifunza Mashine kwa uchanganuzi wa majaribio wa algoriti za Kujifunza Mashine. Kumbukumbu iliundwa kama kumbukumbu ya ftp mnamo 1987 na David Aha na wanafunzi wenzake waliohitimu katika UC Irvine.

Tangu wakati huo, imekuwa ikitumiwa sana na wanafunzi, waelimishaji, na watafiti kote ulimwenguni kama chanzo kikuu cha seti za data za ML. Kama dalili ya athari ya kumbukumbu, imetajwa zaidi ya mara 1000, na kuifanya kuwa mojawapo ya "karatasi" 100 bora zaidi katika sayansi yote ya kompyuta.

Quandl

Quandl ni jukwaa ambalo huwapa watumiaji wake hifadhidata za kiuchumi, kifedha na mbadala. Watumiaji wanaweza kupakua data bila malipo, kununua data inayolipishwa au kuuza data kwa Quandl. Inaweza kuwa chombo muhimu kwa ajili ya maendeleo ya algorithms ya biashara, Kwa mfano.

Hitimisho

Kwa kuchunguza zana hizi, una uhakika wa kupata madokezo mazuri ya miradi yako. Hakikisha umechagua mkusanyiko wa data ambao unafaa zaidi kwa mahitaji yako mahususi na kumbuka kila wakati: sio tu juu ya wingi, lakini pia ubora. Seti ya data ndio msingi wa yoyote Mradi wa Kujifunza kwa Mashine na ni muhimu kujenga juu ya ubora wa data ili kuepuka hatari ya kufikia hitimisho potofu.

Hifadhidata Bora za kujifunza kwa mashine

Seti 14 Bora za Data za Kujifunza kwa Mashine

Misingi ya Hifadhidata