Kaundan[Itago][Ipakita]
Ang matag proyekto sa Machine Learning nagsalig sa usa ka maayo nga dataset. Kini ang dako nga dataset nga magtugot kanimo sa pagbansay ug pag-validate sa imong modelo sa ML. Mao nga, usa ka dako nga bahin sa trabaho sa usa ka proyekto sa ML mao ang pagpangita sa hingpit nga dataset alang sa imong mga panginahanglan. Bisan pa, dili kanunay posible nga makapangita usa ka kapilian nga mohaum sa imong ambisyon, tungod kay daghang mga file nga tan-awon nga makapaikag, sa katapusan, dili.
Mahimong makahahadlok ang pag-usik sa oras sa pag-download sa dili maihap nga mga dataset hangtod nga moabut ka sa usa ka sulundon nga set. Uban niana sa hunahuna, nagtigum kami pipila ka mga kapilian nga ingon makapaikag ug makatabang kanimo sa pagpalambo sa imong proyekto sa ML. Timan-i nga ang uban gituyo alang sa personal imbes nga komersyal nga paggamit, busa tan-awa kini nga mga kapilian ingon usa ka paagi aron makaangkon og kasinatian sa uniberso sa ML.
Mga sukaranan sa mga Dataset
Sa dili pa nato hisgutan ang mga dataset, kinahanglan natong ipasabut ang pipila ka mga termino. Sa mga proyekto sa Artipisyal nga Intelligence, labi na machine Pagkat-on, gikinahanglan ang daghang datos, nga gamiton sa pagbansay sa algorithm. Kini nga kantidad sa datos gitigum sa usa ka database, nga labi ka mapuslanon sa pagtudlo sa usa ka algorithm.
Uban niini nga datos, ang algorithm gibansay - gisulayan usab - ug mahimo nga makapangita og mga sumbanan, makatukod og mga relasyon ug sa ingon makahimo og mga desisyon nga awtonomiya. Kung walay training, machine Pagkat-on Ang mga algorithm dili makahimo sa bisan unsang aksyon. Busa, kon mas maayo ang datos sa pagbansay, mas maayo nga himoon ang modelo. Alang sa usa ka database nga mapuslanon sa proyekto, kini dili mahitungod sa gidaghanon: kini mahitungod usab sa klasipikasyon.
Sa tinuud, ang datos kinahanglan nga maayo nga marka. Hunahunaa ang kaso sa mga chatbots: importante ang pagsal-ot sa pinulongan, apan ang maampingong pagtuki sa syntactic kinahanglan nga buhaton aron ang algorithm nga gibuhat makasabut kung ang interlocutor naggamit sa slang. Unya ra ang virtual assistant makahimo sa paglansad sa tubag sumala sa gihangyo sa tiggamit.
Ang mga dataset mahimong mamugna gikan sa mga survey, data sa pagpalit sa user, mga ebalwasyon nga nahabilin sa mga serbisyo, ug sa daghang uban pang mga paagi nga nagtugot sa pagkolekta sa mapuslanong impormasyon nga giorganisar sa mga kolum ug mga laray sa usa ka CSV file.
Sa dili ka pa magsugod sa pagpangita sa hingpit nga dataset, importante nga nahibal-an nimo ang katuyoan sa imong proyekto, ilabi na kung kini gikan sa usa ka piho nga lugar, sama sa panahon, pinansya, kahimsog, ug uban pa. dataset.
Mga Dataset para sa ML
Pagbansay sa chatbot
Ang usa ka epektibo nga chatbot nanginahanglan daghang daghang datos sa pagbansay aron dali nga masulbad ang mga pangutana sa gumagamit nga wala’y interbensyon sa tawo. Bisan pa, ang panguna nga bottleneck sa pag-uswag sa chatbot mao ang pagkuha sa realistiko, gipunting sa buluhaton nga datos sa dialogo aron mabansay kini nga mga sistema nga nakabase sa Machine Learning.
Ang usa ka panag-istoryahanay nga dataset nagtigum sa datos sa usa ka pangutana ug tubag nga pormat. Maayo kini alang sa pagbansay sa mga chatbot nga maghatag awtomatiko nga mga tubag sa mamiminaw. Kung wala kini nga datos, ang chatbot mapakyas sa dali nga pagsulbad sa mga pangutana sa gumagamit o pagtubag sa mga pangutana sa tiggamit nga wala kinahanglana ang interbensyon sa tawo.
Gamit kini nga mga dataset, ang mga negosyo makahimo og usa ka himan nga naghatag og dali nga mga tubag sa mga kustomer 24/7 ug mas barato kay sa adunay usa ka grupo sa mga tawo nga naghimo og suporta sa customer.
1. Pangutana-Tubag Dataset
Kini nga dataset naghatag og usa ka hugpong sa mga artikulo sa Wikipedia, mga pangutana ug ang ilang tagsa-tagsa ka mano-manong gihimo nga mga tubag. Usa kini ka dataset nga nakolekta tali sa 2008 ug 2010 para gamiton sa academic research.
2. Data sa Pinulongan
Ang Language Data usa ka database nga gidumala sa Yahoo nga adunay impormasyon nga nakuha gikan sa pipila ka mga serbisyo sa kompanya, sama sa Yahoo! Tubag, nga naglihok isip usa ka bukas nga komunidad alang sa mga tiggamit sa pag-post sa mga pangutana ug tubag.
3. WikiQA
Ang WikiQA corpus naglangkob usab sa usa ka hugpong sa mga pangutana ug tubag. Ang gigikanan sa mga pangutana mao ang Bing, samtang ang mga tubag nag-link sa usa ka panid sa Wikipedia nga adunay potensyal nga masulbad ang una nga pangutana.
Sa kinatibuk-an, adunay labaw sa 3,000 ka mga pangutana ug usa ka set sa 29,258 ka mga sentence sa dataset, diin mga 1,400 ang gi-categorize isip mga tubag sa usa ka katugbang nga pangutana.
Data sa gobyerno
Ang mga dataset nga gihimo sa mga gobyerno nagdala sa demograpikong datos, nga maayo nga mga input alang sa mga proyekto nga may kalabutan sa pagsabut sa sosyal nga mga uso, paghimo sa publiko nga mga palisiya, ug pagpauswag sa katilingban. Mahimong mapuslanon kini alang sa mga kampanya sa politika, gipunting nga advertising, o pagtuki sa merkado.
Kini nga mga dataset kasagaran adunay wala mailhi nga datos, busa samtang ang mga modelo maka-access sa hilaw nga datos, walay mga paglapas sa personal nga pribasiya.
4. Data.gov
Gilunsad niadtong 2009, ang Data.gov mao ang tinubdan sa datos sa North America. Ang katalogo niini impresibo: labaw pa sa 218,000 nga mga dataset nga nagtugot sa pagbahin sa format, mga tag, mga tipo, ug mga hilisgutan.
5. Ang EU Open Data Portal
Ang EU Open Data Portal naghatag ug access sa open data nga gipaambit sa mga institusyon sa European Union. Kini mga datos nga mahimong gituyo alang sa komersyal ug dili komersyal nga paggamit. Ang magamit sa tiggamit labaw pa sa 15.5 ka libo nga mga datos, nga naglangkob sa mga hilisgutan sama sa kahimsog, kusog, kalikopan, kultura, ug edukasyon.
Data sa kahimsog
Taliwala sa nagpadayon nga krisis sa kahimsog sa tibuuk kalibutan, ang mga datos nga gihimo sa mga organisasyon sa kahimsog hinungdanon sa paghimo og epektibo nga mga solusyon aron maluwas ang mga kinabuhi. Kini nga mga datos makatabang sa pag-ila sa mga hinungdan sa peligro, pagtrabaho sa mga sumbanan sa pagpasa sa sakit, ug pagpadali sa pagdayagnos.
Kini nga mga datos naglangkob sa mga rekord sa kahimsog, demograpiko sa mga pasyente, pagkaylap sa sakit, paggamit sa tambal, mga kantidad sa nutrisyon, ug daghan pa.
6. Global Health Observatory
Kini nga set sa datos usa ka inisyatibo sa World Health Organization (WHO). Naghatag kini sa publiko nga datos nga may kalabutan sa lain-laing mga bahin sa kahimsog, nga giorganisar sa mga tema sama sa mga sistema sa kahimsog, pagkontrol sa paggamit sa tabako, maternity, HIV/AIDS, ug uban pa. Adunay usab kapilian nga mokonsulta sa datos sa COVID-19.
7. CORD-19
Ang CORD-19 usa ka corpus sa akademikong publikasyon bahin sa COVID-19 ug uban pang mga artikulo bahin sa bag-ong coronavirus. Kini usa ka bukas nga dataset nga gituyo aron makamugna og bag-ong mga panabut sa COVID-19.
Mga datos sa ekonomiya
Ang mga dataset nga may kalabotan sa pinansyal nga palibot kasagarang magtigom ug daghang impormasyon, tungod kay sagad nga kini natigom sa dugay nga panahon. Maayo kini alang sa paghimo sa mga panagna sa ekonomiya o pag-establisar sa mga uso sa pamuhunan.
Uban sa husto nga mga datos sa panalapi, a Modelo sa Machine Learning mahimong makatagna sa kinaiya sa usa ka gihatag nga asset. Mao nga gihimo sa sektor sa pinansya ang tanan sa iyang gahum aron makahimo usa ka epektibo nga modelo sa ML, tungod kay bisan unsa nga makatagna bisan sa makatarunganon nga maayo adunay potensyal nga makamugna og milyon-milyon nga dolyar. Gitagna na sa Machine Learning ang pamatasan sa mga lungsuranon, nga nakaapekto sa paagi sa paghimo sa mga magbabalaod sa ilang mga trabaho.
8. International Monetary Fund
Ang dataset sa IMF nagkupot ug lain-laing mga ekonomikanhon ug pinansyal nga mga indikasyon, mga estadistika sa nasud nga miyembro, ug uban pang datos sa loan ug exchange rate.
9. World Bank
Ang repository sa World Bank adunay lain-laing mga dataset nga adunay impormasyon sa ekonomiya gikan sa lain-laing mga nasud. Adunay labaw pa sa 17,000 nga mga datos nga gibahin sa mga kontinente.
Mga review sa produkto ug serbisyo
Ang pag-analisa sa sentimento nakit-an ang mga aplikasyon niini sa lainlaing mga natad nga karon nagtabang sa mga negosyo sa pagbanabana ug pagkat-on gikan sa ilang mga kliyente o kustomer sa husto. Ang pag-analisa sa sentimento labi nga gigamit alang sa pag-monitor sa social media, pag-monitor sa brand, tingog sa kustomer (VoC), serbisyo sa kustomer, ug panukiduki sa merkado.
Ang pag-analisa sa sentimento naggamit sa NLP (neuro-linguistic programming) nga mga pamaagi ug mga algorithm nga gibase sa lagda, hybrid, o nagsalig sa mga teknik sa Machine Learning aron makakat-on og datos gikan sa mga dataset.
Ang datos nga gikinahanglan sa pagtuki sa sentimento kinahanglan nga espesyal ug gikinahanglan sa daghang gidaghanon. Ang labing mahagiton nga bahin bahin sa proseso sa pagbansay sa pag-analisa sa sentimento mao ang dili pagpangita sa datos sa daghang kantidad; hinoon, kini mao ang pagpangita sa may kalabutan nga mga dataset. Kini nga mga set sa datos kinahanglan nga naglangkob sa usa ka halapad nga bahin sa mga aplikasyon sa pag-analisa sa sentimento ug mga kaso sa paggamit.
10. Mga Review sa Amazon
Kini nga dataset adunay mga 35 ka milyon nga mga review sa Amazon, nga naglangkob sa 18 ka tuig nga panahon sa nakolekta nga impormasyon. Usa kini ka dataset sa produkto, user, ug review content.
11. Mga Review sa Yelp
Nagtanyag usab ang Yelp og dataset base sa impormasyon nga natigom gikan sa serbisyo niini. Adunay sobra sa 8 milyon nga mga pagsusi, 1 milyon nga mga tip, dugang sa hapit 1.5 milyon nga mga kinaiya nga may kalabutan sa mga negosyo, sama sa mga oras sa pag-abli ug pagkaanaa.
12. Mga Review sa IMDB
Kini nga database naglangkob sa usa ka set nga labaw pa sa 25 ka libo nga mga review sa pelikula alang sa pagbansay ug laing 25 ka libo alang sa mga pagsulay nga gikuha nga dili pormal gikan sa IMDB nga panid, nga espesyalista sa mga rating sa pelikula. Nagtanyag usab kini nga wala’y label nga datos ingon usa ka dugang.
Mga set sa datos alang sa unang mga lakang sa ML
13. Dataset sa Kalidad sa Alak
Kini nga dataset naghatag og impormasyon nga may kalabutan sa bino, pula ug berde, nga gihimo sa amihanang Portugal. Ang tumong mao ang paghubit sa kalidad sa bino base sa physicochemical tests. Makapainteres alang niadtong gusto nga magpraktis paghimo og sistema sa panagna.
14. Titanic Dataset
Kini nga dataset nagdala og datos gikan sa 887 ka tinuod nga mga pasahero gikan sa Titanic, nga ang matag kolum nagtino kon sila naluwas, ang ilang edad, klase sa pasahero, gender, ug ang boarding fee nga ilang gibayad. Kini nga dataset kabahin sa usa ka hagit nga gilusad sa Kaggle platform, kansang tumong mao ang paghimo og modelo nga makatagna kon kinsa nga mga pasahero ang naluwas sa pagkalunod sa Titanic.
Mga Plataporma alang sa Pagpangita sa Ubang mga Dataset
Kung gusto nimo nga moadto pa ug mangita sa imong kaugalingon nga dataset, ang labing kaayo nga paagi mao ang pag-browse sa labing inila nga mga repositoryo sa machine Pagkat-on uniberso:
Kaggle
Ang Kaggle, usa ka subsidiary sa Google LLC, usa ka online nga komunidad sa mga data scientist ug mga propesyonal sa Machine Learning. Gitugotan sa Kaggle ang mga tiggamit sa pagpangita ug pagmantala sa mga dataset, pagsuhid ug paghimo og mga modelo sa usa ka palibot sa siyensya sa datos nga nakabase sa web; pagtrabaho kauban ang ubang mga data scientist ug Mga Engineer sa Pagkat-on sa Makina, ug pag-apil sa mga sangka aron masulbad ang mga hagit sa data science.
Nagsugod ang Kaggle kaniadtong 2010 pinaagi sa pagtanyag sa mga contest sa Machine Learning ug karon nagtanyag usab sa publiko plataporma sa datos, usa ka cloud-based workbench alang sa data science ug Artificial Intelligence nga edukasyon.
Pagpangita sa Dataset
Ang Dataset Search usa ka search engine gikan sa Google nga nagtabang sa mga tigdukiduki nga makit-an ang online nga datos nga libre nga magamit alang sa paggamit. Sa tibuok web, adunay minilyon nga mga dataset mahitungod sa halos bisan unsang hilisgutan nga makapainteres kanimo.
Kung nangita ka pagpalit usa ka itoy, mahimo nimong makit-an ang mga dataset nga nag-compile sa mga reklamo sa mga pumapalit sa itoy o mga pagtuon sa pag-ila sa itoy. O kung gusto nimo ang pag-ski, mahimo nimong makit-an ang datos sa kita sa mga ski resort o mga rate sa kadaot ug mga numero sa pag-apil. Ang Dataset Search nag-index sa halos 25 ka milyon niini nga mga dataset, nga naghatag kanimo og usa ka dapit sa pagpangita sa mga dataset ug pagpangita og mga link kung asa ang datos.
UCI Machine Learning Repository
Ang UCI Machine Learning Repository usa ka koleksyon sa mga database, domain theories, ug data generators nga gigamit sa Machine Learning community para sa empirical analysis sa Machine Learning algorithms. Ang archive gimugna isip ftp archive niadtong 1987 ni David Aha ug kaubang graduate nga mga estudyante sa UC Irvine.
Sukad niadto, kaylap na kining gigamit sa mga estudyante, magtutudlo, ug tigdukiduki sa tibuok kalibotan isip nag-unang tinubdan sa mga ML dataset. Isip usa ka timailhan sa epekto sa archive, kini gisitar sa kapin sa 1000 ka beses, nga naghimo niini nga usa sa nag-unang 100 nga labing gisitar nga "mga papel" sa tanang computer science.
Quandl
Ang Quandl usa ka plataporma nga naghatag sa mga tiggamit niini og ekonomikanhon, pinansyal, ug alternatibong mga dataset. Ang mga tiggamit maka-download sa libre nga datos, makapalit ug bayad nga datos o makabaligya sa datos sa Quandl. Kini mahimong usa ka mapuslanon nga himan alang sa pagpalambo sa mga algorithm sa pamatigayon, pananglitan.
Panapos
Pinaagi sa pagsuhid niini nga mga himan, sigurado ka nga makit-an ang daghang mga input alang sa imong mga proyekto. Siguruha nga pilion ang dataset nga labing angay alang sa imong piho nga mga panginahanglanon ug kanunay ibutang sa hunahuna: kini dili lamang bahin sa gidaghanon, apan usab sa kalidad. Ang dataset mao ang basehan sa bisan unsa Proyekto sa Machine Learning ug gikinahanglan ang pagtukod sa dekalidad nga datos aron malikayan ang risgo sa pagkab-ot sa sayop nga mga konklusyon.
Leave sa usa ka Reply