Talaan ng nilalaman[Tago][Ipakita]
Ang bawat proyekto ng Machine Learning ay umaasa sa isang magandang dataset. Ang malaking dataset na ito ang magbibigay-daan sa iyong sanayin at patunayan ang iyong modelo ng ML. Kaya, isang malaking bahagi ng gawain sa isang proyekto ng ML ay ang paghahanap ng perpektong dataset para sa iyong mga pangangailangan. Gayunpaman, hindi laging posible na makahanap ng isang opsyon na akma sa iyong ambisyon, dahil maraming mga file na mukhang kawili-wili, sa huli, ay hindi.
Maaaring nakakatakot na mag-aksaya ng oras sa pag-download ng hindi mabilang na mga dataset hanggang sa makarating ka sa isang perpektong hanay. Sa pag-iisip na iyon, nakalap kami ng ilang opsyon na mukhang kawili-wili at makakatulong sa iyong bumuo ng iyong proyekto sa ML. Tandaan na ang ilan ay inilaan para sa personal sa halip na komersyal na paggamit, kaya tingnan ang mga opsyong ito bilang isang paraan upang makakuha ng karanasan sa ML universe.
Mga Pangunahing Kaalaman sa Mga Dataset
Bago natin banggitin ang mga dataset, dapat nating tukuyin ang ilang termino. Sa mga proyekto ng Artificial Intelligence, lalo na Pag-aaral ng Machine, isang malaking halaga ng data ang kinakailangan, na gagamitin upang sanayin ang algorithm. Ang dami ng data na ito ay natipon sa isang database, na lubhang kapaki-pakinabang upang magturo ng isang algorithm.
Gamit ang data na ito, ang algorithm ay sinanay - nasubok din - at nakakahanap ng mga pattern, nakakapagtatag ng mga relasyon at sa gayon ay nakapagpapasya nang awtomatiko. Nang walang pagsasanay, Pag-aaral ng Machine ang mga algorithm ay hindi makakagawa ng anumang aksyon. Samakatuwid, mas mahusay ang data ng pagsasanay, mas mahusay na gaganap ang modelo. Para maging kapaki-pakinabang ang isang database sa proyekto, hindi ito tungkol sa dami: tungkol din ito sa pag-uuri.
Sa isip, ang data ay dapat na may mahusay na label. Isipin ang kaso ng mga chatbot: mahalaga ang pagpapasok ng wika, ngunit dapat gawin ang maingat na pagsusuri ng syntactic upang maunawaan ng nilikhang algorithm kapag gumagamit ng slang ang kausap. Pagkatapos lamang mailunsad ng virtual assistant ang sagot ayon sa hiniling ng user.
Maaaring mabuo ang mga dataset mula sa mga survey, data ng pagbili ng user, mga pagsusuri na natitira sa mga serbisyo, at sa maraming iba pang paraan na nagbibigay-daan sa pangangalap ng kapaki-pakinabang na impormasyong nakaayos sa mga column at row sa isang CSV file.
Bago ka maghanap ng perpektong dataset, mahalagang alam mo ang layunin ng iyong proyekto, lalo na kung ito ay mula sa isang partikular na lugar, tulad ng panahon, pananalapi, kalusugan, atbp. Ito ang magdidikta sa pinagmulan kung saan mo pagmumulan ang iyong dataset.
Mga dataset para sa ML
Pagsasanay sa chatbot
Ang isang epektibong chatbot ay nangangailangan ng napakalaking dami ng data ng pagsasanay upang mabilis na malutas ang mga katanungan ng user nang walang interbensyon ng tao. Gayunpaman, ang pangunahing bottleneck sa pagbuo ng chatbot ay ang pagkuha ng makatotohanan, data ng dialog na nakatuon sa gawain upang sanayin ang mga sistemang ito na nakabatay sa Machine Learning.
Ang isang pang-usap na dataset ay nangangalap ng data sa isang tanong at sagot na format. Ito ay perpekto para sa pagsasanay ng mga chatbot na magbibigay ng mga awtomatikong sagot sa madla. Kung wala ang data na ito, mabibigo ang chatbot na mabilis na malutas ang mga tanong ng user o sagutin ang mga tanong ng user nang hindi nangangailangan ng interbensyon ng tao.
Gamit ang mga dataset na ito, makakagawa ang mga negosyo ng tool na nagbibigay ng mabilis na sagot sa mga customer 24/7 at mas mura kaysa sa pagkakaroon ng team ng mga taong gumagawa ng customer support.
1. Dataset ng Tanong-Sagot
Ang dataset na ito ay nagbibigay ng isang hanay ng mga artikulo sa Wikipedia, mga tanong at kani-kanilang manu-manong nabuong mga sagot. Ito ay isang dataset na nakolekta sa pagitan ng 2008 at 2010 para magamit sa akademikong pananaliksik.
2. Data ng Wika
Ang Language Data ay isang database na pinamamahalaan ng Yahoo na may impormasyong nabuo mula sa ilan sa mga serbisyo ng kumpanya, gaya ng Yahoo! Sagot, na gumagana bilang isang bukas na komunidad para sa mga user na mag-post ng mga tanong at sagot.
3. WikiQA
Ang WikiQA corpus ay binubuo din ng isang hanay ng mga tanong at sagot. Ang pinagmulan ng mga tanong ay Bing, habang ang mga sagot ay naka-link sa isang pahina ng Wikipedia na may potensyal na malutas ang unang tanong.
Sa kabuuan, mayroong higit sa 3,000 mga tanong at isang hanay ng 29,258 na mga pangungusap sa dataset, kung saan humigit-kumulang 1,400 ang nakategorya bilang mga sagot sa isang kaukulang tanong.
Data ng gobyerno
Ang mga dataset na nabuo ng mga pamahalaan ay nagdadala ng demograpikong data, na mahusay na input para sa mga proyektong nauugnay sa pag-unawa sa mga social trend, paglikha ng mga pampublikong patakaran, at pagpapabuti ng lipunan. Maaari itong maging kapaki-pakinabang para sa mga kampanyang pampulitika, naka-target na advertising, o pagsusuri sa merkado.
Ang mga dataset na ito ay karaniwang naglalaman ng hindi nakikilalang data, kaya habang naa-access ng mga modelo ang raw data, walang mga paglabag sa personal na privacy.
4. Data.gov
Inilunsad noong 2009, ang Data.gov ay ang North American source para sa data. Ang catalog nito ay kahanga-hanga: higit sa 218,000 dataset na nagbibigay-daan sa pagse-segment ayon sa format, tag, uri, at paksa.
5. EU Open Data Portal
Ang EU Open Data Portal ay nagbibigay ng access sa open data na ibinahagi ng mga institusyon ng European Union. Ang mga ito ay data na maaaring inilaan para sa komersyal at hindi pang-komersyal na paggamit. Sa pagtatapon ng user ay higit sa 15.5 libong mga dataset, na sumasaklaw sa mga paksa tulad ng kalusugan, enerhiya, kapaligiran, kultura, at edukasyon.
Data ng kalusugan
Sa kabila ng patuloy na krisis sa kalusugan sa buong mundo, ang mga dataset na nabuo ng mga organisasyong pangkalusugan ay mahalaga sa pagbuo ng mga epektibong solusyon para makapagligtas ng mga buhay. Makakatulong ang mga dataset na ito na matukoy ang mga salik ng panganib, ayusin ang mga pattern ng paghahatid ng sakit, at pabilisin ang diagnosis.
Binubuo ang mga dataset na ito ng mga rekord ng kalusugan, demograpiko ng mga pasyente, pagkalat ng sakit, paggamit sa gamot, nutritional value, at marami pang iba.
6. Global Health Observatory
Ang set ng data na ito ay isang inisyatiba ng World Health Organization (WHO). Nagbibigay ito ng pampublikong data na nauugnay sa iba't ibang bahagi ng kalusugan, na inayos ayon sa mga tema gaya ng mga sistema ng kalusugan, kontrol sa paggamit ng tabako, maternity, HIV/AIDS, atbp. Mayroon ding opsyon na kumonsulta sa data sa COVID-19.
7. CORD-19
Ang CORD-19 ay isang pangkat ng mga akademikong publikasyon sa COVID-19 at iba pang mga artikulo tungkol sa bagong coronavirus. Isa itong bukas na dataset na nilalayon upang makabuo ng mga bagong insight sa COVID-19.
Data ng ekonomiya
Ang mga dataset na nauugnay sa kapaligiran sa pananalapi ay karaniwang kumukuha ng malaking halaga ng impormasyon, dahil karaniwan na ang mga ito ay natipon nang mahabang panahon. Ang mga ito ay perpekto para sa paglikha ng pang-ekonomiyang mga hula o pagtatatag ng mga uso sa pamumuhunan.
Gamit ang tamang mga financial dataset, a Modelo ng Machine Learning maaaring mahulaan ang gawi ng isang partikular na asset. Iyon ang dahilan kung bakit ginagawa ng sektor ng pananalapi ang lahat sa kanyang kapangyarihan upang lumikha ng isang epektibong modelo ng ML, dahil anumang bagay na maaaring mahulaan kahit na makatwirang mahusay ay may potensyal na makabuo ng milyun-milyong dolyar. Ang Machine Learning ay hinuhulaan na ang pag-uugali ng mga mamamayan, na nakakaapekto sa paraan ng paggawa ng mga policymakers sa kanilang mga trabaho.
8. International hinggil sa pananalapi ng Pondo
Ang dataset ng IMF ay nagtataglay ng isang hanay ng mga pang-ekonomiyang at pampinansyal na tagapagpahiwatig, mga istatistika ng bansang miyembro, at iba pang data ng loan at exchange rate.
9. World Bank
Ang repositoryo ng World Bank ay naglalaman ng iba't ibang dataset na may impormasyong pang-ekonomiya mula sa iba't ibang bansa. Mayroong higit sa 17,000 dataset na hinati ayon sa mga kontinente.
Mga review ng produkto at serbisyo
Natagpuan ng pagsusuri ng sentimento ang mga aplikasyon nito sa iba't ibang larangan na ngayon ay tumutulong sa mga negosyo na matantya at matuto nang tama mula sa kanilang mga kliyente o customer. Ang pagsusuri ng damdamin ay lalong ginagamit para sa pagsubaybay sa social media, pagsubaybay sa tatak, boses ng customer (VoC), serbisyo sa customer, at pananaliksik sa merkado.
Ang pagsusuri ng damdamin ay gumagamit ng NLP (neuro-linguistic programming) na mga pamamaraan at algorithm na nakabatay sa panuntunan, hybrid, o umaasa sa mga diskarte sa Machine Learning upang matuto ng data mula sa mga dataset.
Ang data na kailangan sa pagsusuri ng damdamin ay dapat na dalubhasa at kinakailangan sa malalaking dami. Ang pinakamahirap na bahagi tungkol sa proseso ng pagsasanay sa pagsusuri ng sentimento ay hindi ang paghahanap ng data sa malalaking halaga; sa halip, ito ay upang mahanap ang mga nauugnay na dataset. Ang mga set ng data na ito ay dapat sumasakop sa isang malawak na bahagi ng mga aplikasyon para sa pagsusuri ng damdamin at mga kaso ng paggamit.
10. Mga Review ng Amazon
Naglalaman ang dataset na ito ng humigit-kumulang 35 milyong review sa Amazon, na sumasaklaw sa 18-taong panahon ng nakolektang impormasyon. Ito ay isang dataset ng nilalaman ng produkto, user, at review.
11. Mga Review ng Yelp
Nag-aalok din ang Yelp ng dataset batay sa impormasyong nakalap mula sa serbisyo nito. Mayroong higit sa 8 milyong review, 1 milyong tip, at halos 1.5 milyong attribute na nauugnay sa mga negosyo, gaya ng mga oras ng pagbubukas at availability.
12. Mga Review ng IMDB
Ang database na ito ay naglalaman ng isang hanay ng higit sa 25 libong mga pagsusuri sa pelikula para sa pagsasanay at isa pang 25 libo para sa mga pagsusulit na impormal na kinuha mula sa pahina ng IMDB, na dalubhasa sa mga rating ng pelikula. Nag-aalok din ito ng walang label na data bilang karagdagang.
Mga dataset para sa mga unang hakbang sa ML
13. Dataset ng Kalidad ng Alak
Nagbibigay ang dataset na ito ng impormasyong nauugnay sa alak, parehong pula at berde, na ginawa sa hilagang Portugal. Ang layunin ay tukuyin ang kalidad ng alak batay sa mga physicochemical test. Kawili-wili para sa mga gustong magsanay sa paglikha ng isang sistema ng hula.
14. Titanic Dataset
Ang dataset na ito ay nagdadala ng data mula sa 887 tunay na mga pasahero mula sa Titanic, kung saan tinutukoy ng bawat column kung nakaligtas sila, ang kanilang edad, klase ng pasahero, kasarian, at ang bayad sa boarding na kanilang binayaran. Ang dataset na ito ay bahagi ng isang hamon na inilunsad ng Kaggle platform, na ang layunin ay lumikha ng isang modelo na maaaring mahulaan kung sinong mga pasahero ang nakaligtas sa paglubog ng Titanic.
Mga Platform para sa Paghahanap ng Iba Pang Mga Dataset
Kung gusto mong pumunta pa at maghanap ng sarili mong dataset, ang pinakamahusay na paraan ay mag-browse sa mga pinakasikat na repository ng Pag-aaral ng Machine sansinukob:
Kaggle
Ang Kaggle, isang subsidiary ng Google LLC, ay isang online na komunidad ng mga data scientist at mga propesyonal sa Machine Learning. Binibigyang-daan ng Kaggle ang mga user na maghanap at mag-publish ng mga dataset, mag-explore at gumawa ng mga modelo sa isang web-based na data science environment; makipagtulungan sa iba pang data scientist at Mga Engineer sa Pag-aaral ng Machine, at lumahok sa mga paligsahan upang malutas ang mga hamon sa agham ng data.
Nagsimula ang Kaggle noong 2010 sa pamamagitan ng pag-aalok ng mga paligsahan sa Machine Learning at ngayon ay nag-aalok din ng publiko platform ng data, isang cloud-based na workbench para sa data science at Artificial Intelligence na edukasyon.
Paghahanap ng Dataset
Ang Dataset Search ay isang search engine mula sa Google na tumutulong sa mga mananaliksik na mahanap ang online na data na malayang magagamit para magamit. Sa buong web, mayroong milyun-milyong dataset tungkol sa halos anumang paksa na interesado ka.
Kung naghahanap ka upang bumili ng isang tuta, maaari kang makahanap ng mga dataset na nag-iipon ng mga reklamo ng mga mamimili ng tuta o pag-aaral sa pag-unawa sa puppy. O kung gusto mo ng skiing, maaari kang makahanap ng data sa kita ng mga ski resort o mga rate ng pinsala at mga numero ng paglahok. Na-index ng Paghahanap ng Dataset ang halos 25 milyon ng mga dataset na ito, na nagbibigay sa iyo ng isang lugar upang maghanap ng mga dataset at maghanap ng mga link kung nasaan ang data.
UCI Machine Learning Repository
Ang UCI Machine Learning Repository ay isang koleksyon ng mga database, domain theories, at data generator na ginagamit ng Machine Learning community para sa empirical analysis ng Machine Learning algorithm. Ang archive ay ginawa bilang isang ftp archive noong 1987 ni David Aha at mga kapwa nagtapos na mag-aaral sa UC Irvine.
Mula noon, malawak na itong ginagamit ng mga mag-aaral, tagapagturo, at mananaliksik sa buong mundo bilang pangunahing pinagmumulan ng mga dataset ng ML. Bilang isang indikasyon ng epekto ng archive, ito ay binanggit ng higit sa 1000 beses, na ginagawa itong isa sa nangungunang 100 pinaka binanggit na "mga papel" sa lahat ng computer science.
Quandl
Ang Quandl ay isang platform na nagbibigay sa mga user nito ng pang-ekonomiya, pananalapi, at mga alternatibong dataset. Maaaring mag-download ang mga user ng libreng data, bumili ng bayad na data o magbenta ng data sa Quandl. Maaari itong maging isang kapaki-pakinabang na tool para sa pagbuo ng mga algorithm ng kalakalan, Halimbawa.
Konklusyon
Sa pamamagitan ng paggalugad sa mga tool na ito, siguradong makakahanap ka ng magagandang input para sa iyong mga proyekto. Tiyaking piliin ang dataset na pinakaangkop para sa iyong mga partikular na pangangailangan at laging tandaan: hindi lang ito tungkol sa dami, kundi pati na rin sa kalidad. Ang dataset ay ang batayan ng alinman Proyekto sa Machine Learning at ito ay mahalaga upang bumuo sa kalidad ng data upang maiwasan ang panganib ng pag-abot ng mga maling konklusyon.
Mag-iwan ng Sagot