Gbogbo iṣẹ-ṣiṣe Ẹkọ Ẹrọ da lori data ti o dara. O jẹ dataset nla yii ti yoo gba ọ laaye lati ṣe ikẹkọ ati fọwọsi awoṣe ML rẹ. Nitorinaa, apakan nla ti iṣẹ naa ni iṣẹ akanṣe ML kan ni wiwa ipilẹ data pipe fun awọn iwulo rẹ. Sibẹsibẹ, kii ṣe nigbagbogbo ṣee ṣe lati wa aṣayan kan ti o baamu okanjuwa rẹ, nitori ọpọlọpọ awọn faili ti o dabi ohun ti o nifẹ, ni ipari, kii ṣe.
O le jẹ ìdàláàmú lati padanu akoko gbigba lati ayelujara ainiye datasets titi ti o ba de ni ohun bojumu ṣeto. Pẹlu iyẹn ni lokan, a ti ṣajọ diẹ ninu awọn aṣayan ti o dabi iwunilori ati pe o le ṣe iranlọwọ fun ọ lati ṣe agbekalẹ iṣẹ akanṣe ML rẹ. Ṣe akiyesi pe diẹ ninu jẹ ipinnu fun ara ẹni dipo lilo iṣowo, nitorinaa wo awọn aṣayan wọnyi bi ọna lati ni iriri ni agbaye ML.
Awọn ipilẹ ti Datasets
Ṣaaju ki a to mẹnuba awọn ipilẹ data, o yẹ ki a ṣalaye awọn ofin kan. Ni awọn iṣẹ akanṣe Oríkĕ oye, ni pataki machine Learning, iye nla ti data nilo, eyi ti yoo lo lati ṣe ikẹkọ algorithm. Iye data yii ni a pejọ sinu ibi ipamọ data, eyiti o wulo pupọ lati kọ algorithm kan.
Pẹlu data yii, alugoridimu naa jẹ ikẹkọ – tun ni idanwo – o si ni anfani lati wa awọn ilana, ṣe agbekalẹ awọn ibatan ati nitorinaa ṣe awọn ipinnu ni adase. Laisi ikẹkọ, machine Learning algoridimu ko lagbara lati ṣe eyikeyi igbese. Nitorina, awọn data ikẹkọ ti o dara julọ, dara julọ awoṣe yoo ṣe. Fun aaye data lati wulo si iṣẹ akanṣe, kii ṣe nipa opoiye: o tun jẹ nipa isọdi.
Bi o ṣe yẹ, data yẹ ki o jẹ aami daradara. Ronu nipa ọran ti chatbots: fifi sii ede jẹ pataki, ṣugbọn itupalẹ syntactic ti o ṣọra gbọdọ ṣee ṣe ki algorithm ti a ṣẹda le loye nigbati interlocutor nlo slang. Nikan lẹhinna oluranlọwọ foju yoo ni anfani lati ṣe ifilọlẹ idahun ni ibamu si ohun ti olumulo beere.
Awọn ipilẹ data le ṣe ipilẹṣẹ lati awọn iwadii, data rira olumulo, awọn igbelewọn ti o fi silẹ lori awọn iṣẹ, ati ni ọpọlọpọ awọn ọna miiran ti o gba laaye apejọ alaye to wulo ti a ṣeto ni awọn ọwọn ati awọn ori ila ni faili CSV kan.
Ṣaaju ki o to ṣeto jade ni wiwa ti data pipe, o ṣe pataki ki o mọ idi ti iṣẹ akanṣe rẹ, paapaa ti o ba wa lati agbegbe kan pato, gẹgẹbi oju ojo, iṣuna, ilera, ati bẹbẹ lọ Eyi yoo sọ orisun lati eyiti iwọ yoo ṣe orisun rẹ. ipilẹ data.
Awọn ipilẹ data fun ML
Chatbot ikẹkọ
chatbot ti o munadoko nilo iye nla ti data ikẹkọ lati le yara yanju awọn ibeere olumulo laisi idasi eniyan. Bibẹẹkọ, igo akọkọ ni idagbasoke chatbot n gba ojulowo, data ibaraẹnisọrọ ti iṣẹ-ṣiṣe lati ṣe ikẹkọ awọn eto orisun-ẹrọ ti ẹrọ wọnyi.
Atokọ data ibaraẹnisọrọ n ṣajọ data ni ibeere ati ọna kika idahun. O jẹ apẹrẹ fun ikẹkọ chatbots ti yoo fun awọn idahun adaṣe si awọn olugbo. Laisi data yii, chatbot yoo kuna lati yara yanju awọn ibeere olumulo tabi dahun awọn ibeere olumulo laisi iwulo fun ilowosi eniyan.
Lilo awọn datasets wọnyi, awọn iṣowo le ṣẹda ohun elo kan ti o pese awọn idahun iyara si awọn alabara 24/7 ati pe o din owo pupọ ju nini ẹgbẹ kan ti eniyan ṣe atilẹyin alabara.
1. Ibeere-Idahun Data
Eto data yii n pese akojọpọ awọn nkan Wikipedia, awọn ibeere ati awọn idahun ti a ṣe pẹlu ọwọ. O jẹ data ti a gba laarin 2008 ati 2010 fun lilo ninu iwadi ijinlẹ.
2. Data Ede
Data Ede jẹ ibi ipamọ data ti Yahoo ti ṣakoso pẹlu alaye ti a ṣejade lati diẹ ninu awọn iṣẹ ile-iṣẹ, gẹgẹbi Yahoo! Idahun, eyiti o ṣiṣẹ bi agbegbe ṣiṣi fun awọn olumulo lati firanṣẹ awọn ibeere ati awọn idahun.
3. WikiQA
WikiQA koposi tun ni akojọpọ awọn ibeere ati awọn idahun. Orisun awọn ibeere ni Bing, lakoko ti awọn idahun ṣe ọna asopọ si oju-iwe Wikipedia pẹlu agbara lati yanju ibeere akọkọ.
Ni apapọ, diẹ sii ju awọn ibeere 3,000 ati ṣeto awọn gbolohun ọrọ 29,258 ninu dataset, eyiti o jẹ tito lẹgbẹrun 1,400 bi awọn idahun si ibeere ti o baamu.
Awọn data ijọba
Awọn ipilẹ data ti ipilẹṣẹ nipasẹ awọn ijọba mu data ibi-aye wa, eyiti o jẹ awọn igbewọle nla fun awọn iṣẹ akanṣe ti o ni ibatan si agbọye awọn aṣa awujọ, ṣiṣẹda awọn eto imulo gbogbogbo, ati ilọsiwaju awujọ. Eyi le wulo fun awọn ipolongo iṣelu, ipolowo ìfọkànsí, tabi itupalẹ ọja.
Awọn ipilẹ data wọnyi ni igbagbogbo ni data ailorukọ, nitorinaa lakoko ti awọn awoṣe le wọle si data aise, ko si irufin aṣiri ti ara ẹni.
4. Data.gov
Ti ṣe ifilọlẹ ni ọdun 2009, Data.gov jẹ orisun North America fun data. Katalogi rẹ jẹ iwunilori: diẹ sii ju awọn ipilẹ data 218,000 ti o gba ipin laaye nipasẹ ọna kika, awọn ami, awọn oriṣi, ati awọn akọle.
5. EU Ṣii Data Portal
Portal Data Ṣii EU n pese iraye si ṣiṣi data ti o pin nipasẹ awọn ile-iṣẹ ti European Union. Iwọnyi jẹ data ti o le pinnu fun lilo iṣowo ati ti kii ṣe ti owo. Ni isọnu olumulo jẹ diẹ sii ju awọn ipilẹ data 15.5 ẹgbẹrun, ti o bo awọn akọle bii ilera, agbara, agbegbe, aṣa, ati eto-ẹkọ.
Awọn data ilera
Ni atẹle idaamu ilera ti nlọ lọwọ ni kariaye, awọn ipilẹ data ti ipilẹṣẹ nipasẹ awọn ẹgbẹ ilera ṣe pataki si idagbasoke awọn solusan to munadoko lati gba awọn ẹmi là. Awọn ipilẹ data wọnyi le ṣe iranlọwọ idanimọ awọn okunfa eewu, ṣiṣẹ awọn ilana gbigbe arun, ati iyara iwadii aisan.
Awọn ipilẹ data wọnyi ni awọn igbasilẹ ilera, awọn alaye nipa awọn alaisan, itankalẹ arun, lilo oogun, awọn iye ijẹẹmu, ati pupọ diẹ sii.
6. Agbaye Health Observatory
Eto data yii jẹ ipilẹṣẹ ti Ajo Agbaye fun Ilera (WHO). O pese data ti gbogbo eniyan ti o ni ibatan si awọn agbegbe oriṣiriṣi ti ilera, ṣeto nipasẹ awọn akori gẹgẹbi awọn eto ilera, iṣakoso lilo taba, alaboyun, HIV/AIDS, ati bẹbẹ lọ. Aṣayan tun wa lati kan si data lori COVID-19.
7. CORD-19
CORD-19 jẹ kopọsi ti awọn atẹjade ẹkọ lori COVID-19 ati awọn nkan miiran nipa coronavirus tuntun. O jẹ ipilẹ data ṣiṣi ti a pinnu lati ṣe ipilẹṣẹ awọn oye tuntun lori COVID-19.
Aje data
Awọn ipilẹ data ti o ni ibatan si agbegbe inawo nigbagbogbo n ṣajọ iye nla ti alaye, nitori o wọpọ pe wọn ti ṣajọ fun igba pipẹ. Wọn jẹ apẹrẹ fun ṣiṣẹda awọn asọtẹlẹ eto-ọrọ tabi iṣeto awọn aṣa idoko-owo.
Pẹlu awọn eto inawo ti o tọ, a Machine Learning awoṣe le ni anfani lati ṣe asọtẹlẹ ihuwasi ti dukia ti a fun. Ti o ni idi ti eka owo n ṣe ohun gbogbo ni agbara rẹ lati ṣẹda awoṣe ML ti o munadoko, nitori ohunkohun ti o le sọ asọtẹlẹ paapaa daradara ni agbara lati ṣe ina awọn miliọnu dọla. Ẹkọ ẹrọ ti n sọ asọtẹlẹ ihuwasi ti awọn ara ilu, eyiti o ni ipa lori ọna ti awọn oluṣeto imulo ṣe awọn iṣẹ wọn.
8. Fund Monetary International
Ipilẹ data IMF ni ọpọlọpọ awọn itọkasi eto-ọrọ aje ati inawo, awọn iṣiro orilẹ-ede ọmọ ẹgbẹ, ati awin miiran ati data oṣuwọn paṣipaarọ.
9. Banki Agbaye
Ibi ipamọ ti Banki Agbaye ni awọn ipilẹ data oriṣiriṣi pẹlu alaye eto-ọrọ lati awọn orilẹ-ede oriṣiriṣi. Diẹ sii ju awọn ipilẹ data 17,000 ti o pin nipasẹ awọn kọnputa.
Ọja ati awọn iṣẹ agbeyewo
Iṣiro ero inu ti rii awọn ohun elo rẹ ni awọn aaye pupọ ti o n ṣe iranlọwọ fun awọn ile-iṣẹ lọwọlọwọ lati ṣe iṣiro ati kọ ẹkọ lati ọdọ awọn alabara wọn tabi awọn alabara ni deede. Atupalẹ itara ti n pọ si ni lilo fun ibojuwo media awujọ, ibojuwo ami iyasọtọ, ohun alabara (VoC), iṣẹ alabara, ati iwadii ọja.
Itupalẹ ero inu nlo NLP (siseto-ede neuro-linguistic) awọn ọna ati awọn algoridimu ti o jẹ boya orisun-ofin, arabara, tabi gbarale awọn ilana Ẹkọ Ẹrọ lati kọ ẹkọ data lati awọn ipilẹ data.
Awọn data ti o nilo ni itupalẹ itara yẹ ki o jẹ amọja ati pe o nilo ni titobi nla. Apakan ti o nira julọ nipa ilana ikẹkọ itupalẹ itara kii ṣe wiwa data ni awọn oye nla; dipo, o jẹ lati wa awọn datasets ti o yẹ. Awọn eto data wọnyi gbọdọ bo agbegbe jakejado ti awọn ohun elo itupalẹ itara ati lilo awọn ọran.
10. Agbeyewo Amazon
Ipilẹ data yii ni nipa awọn atunwo Amazon miliọnu 35, ti o gba akoko ọdun 18 ti alaye ti a gba. O jẹ data ti ọja, olumulo, ati akoonu atunyẹwo.
11. Yelp agbeyewo
Yelp tun nfunni ni ipilẹ data ti o da lori alaye ti a pejọ lati iṣẹ rẹ. Awọn atunyẹwo to ju miliọnu 8 lọ, awọn imọran miliọnu kan, pẹlu awọn abuda miliọnu 1 ti o ni ibatan si awọn iṣowo, gẹgẹbi awọn wakati ṣiṣi ati wiwa.
12. IMDB agbeyewo
Ipamọ data yii ni eto ti o ju 25 ẹgbẹrun awọn atunyẹwo fiimu fun ikẹkọ ati 25 ẹgbẹrun miiran fun awọn idanwo ti a mu ni aijẹmu lati oju-iwe IMDB, amọja ni awọn idiyele fiimu. O tun funni ni data ti ko ni aami bi afikun.
Awọn ipilẹ data fun awọn igbesẹ akọkọ ni ML
13. Waini Didara Dataset
Eto data yii n pese alaye ti o ni ibatan si ọti-waini, mejeeji pupa ati alawọ ewe, ti a ṣejade ni ariwa Portugal. Ibi-afẹde ni lati ṣalaye didara ọti-waini ti o da lori awọn idanwo kẹmika. O nifẹ fun awọn ti o fẹ adaṣe ṣiṣẹda eto asọtẹlẹ kan.
14. Titanic Dataset
Atọka data yii mu data wa lati ọdọ awọn arinrin-ajo gidi 887 lati Titanic, pẹlu ọwọn kọọkan ti n ṣalaye boya wọn ye, ọjọ-ori wọn, kilasi ero-ọkọ, akọ abo, ati idiyele wiwọ ti wọn san. Eto data yii jẹ apakan ti ipenija ti a ṣe ifilọlẹ nipasẹ pẹpẹ Kaggle, eyiti ipinnu rẹ ni lati ṣẹda awoṣe kan ti o le sọ asọtẹlẹ iru awọn arinrin-ajo wo ni o yege ni wiwakọ ti Titanic.
Awọn iru ẹrọ fun Wiwa Awọn Iṣeduro Data miiran
Ti o ba fẹ lọ siwaju ki o wa data ti ara rẹ, ọna ti o dara julọ ni lati lọ kiri nipasẹ awọn ibi ipamọ olokiki julọ ti machine Learning agbaye:
Kaggle
Kaggle, oniranlọwọ ti Google LLC, jẹ agbegbe ori ayelujara ti awọn onimọ-jinlẹ data ati awọn alamọdaju Ẹkọ Ẹrọ. Kaggle ngbanilaaye awọn olumulo lati wa ati ṣe atẹjade awọn ipilẹ data, ṣawari ati ṣẹda awọn awoṣe ni agbegbe imọ-jinlẹ data orisun wẹẹbu; ṣiṣẹ pẹlu awọn miiran data sayensi ati Machine Learning Engineers, ati kopa ninu awọn idije lati yanju awọn italaya imọ-jinlẹ data.
Kaggle bẹrẹ ni ọdun 2010 nipa fifun awọn idije Ẹkọ Ẹrọ ati bayi tun funni ni gbangba Syeed data, Awọsanma-orisun workbench fun data Imọ ati Oríkĕ eko eko.
Iwadi Dataset
Iwadi Dataset jẹ ẹrọ wiwa lati ọdọ Google ti o ṣe iranlọwọ fun awọn oniwadi lati wa data ori ayelujara ti o wa larọwọto fun lilo. Kọja oju opo wẹẹbu, awọn miliọnu awọn ipilẹ data lo wa nipa fere eyikeyi koko-ọrọ ti o nifẹ si.
Ti o ba n wa lati ra puppy kan, o le wa awọn iwe data ti o n ṣajọ awọn ẹdun ọkan ti awọn olura aja tabi awọn ẹkọ lori imọ puppy. Tabi ti o ba fẹran sikiini, o le wa data lori wiwọle ti awọn ibi isinmi siki tabi awọn oṣuwọn ipalara ati awọn nọmba ikopa. Iwadi Dataset ti ṣe itọka fere 25 milionu ti awọn ipilẹ data wọnyi, fifun ọ ni aye kan lati wa awọn datasets ati ki o wa awọn ọna asopọ si ibiti data naa wa.
Ibi ipamọ Ẹkọ ẹrọ UCI
Ibi ipamọ Ẹkọ Ẹrọ UCI jẹ akojọpọ awọn data data, awọn imọ-jinlẹ agbegbe, ati awọn olupilẹṣẹ data ti agbegbe Ẹkọ Ẹrọ lo fun itupalẹ agbara ti awọn algoridimu Ẹkọ Ẹrọ. Ile-ipamọ naa ni a ṣẹda bi ile-ipamọ ftp ni ọdun 1987 nipasẹ David Aha ati awọn ọmọ ile-iwe giga ẹlẹgbẹ ni UC Irvine.
Lati igba naa, o ti jẹ lilo pupọ nipasẹ awọn ọmọ ile-iwe, awọn olukọni, ati awọn oniwadi ni gbogbo agbaye bi orisun akọkọ ti awọn iwe data ML. Gẹgẹbi itọkasi ti ipa ti ile ifi nkan pamosi, o ti tọka si awọn akoko 1000, ti o jẹ ki o jẹ ọkan ninu 100 ti o ga julọ “awọn iwe” ti a tọka si ni gbogbo imọ-ẹrọ kọnputa.
Quandl
Quandl jẹ pẹpẹ ti o pese awọn olumulo rẹ pẹlu eto-ọrọ ọrọ-aje, inawo, ati awọn ipilẹ data omiiran. Awọn olumulo le ṣe igbasilẹ data ọfẹ, ra data isanwo tabi ta data si Quandl. O le jẹ ohun elo ti o wulo fun idagbasoke ti iṣowo aligoridimu, fun apẹẹrẹ.
ipari
Nipa ṣiṣewadii awọn irinṣẹ wọnyi, o da ọ loju lati wa awọn igbewọle nla fun awọn iṣẹ akanṣe rẹ. Rii daju lati yan dataset ti o dara julọ fun awọn iwulo pato rẹ ati nigbagbogbo ni lokan: kii ṣe nipa opoiye nikan, ṣugbọn didara ga. Awọn dataset jẹ ipilẹ ti eyikeyi Machine Learning ise agbese ati pe o ṣe pataki lati kọ lori data didara lati yago fun eewu ti de awọn ipinnu aṣiṣe.
Fi a Reply