14 Datasets pangalusna pikeun Mesin Learning

Daptar eusi[Sumputkeun][Témbongkeun]

Dasar tina Datasets
Datasets pikeun ML+-
Platform pikeun Pananjung Datasets lianna+-
kacindekan

Unggal proyék Machine Learning ngandelkeun set data anu saé. Dataset ageung ieu anu bakal ngamungkinkeun anjeun ngalatih sareng ngesahkeun modél ML anjeun. Janten, sabagéan ageung padamelan dina proyék ML nyaéta milarian set data anu sampurna pikeun kabutuhan anjeun. Sanajan kitu, teu salawasna mungkin pikeun manggihan hiji pilihan nu fits ambisi anjeun, sakumaha loba file nu kasampak metot, tungtungna, henteu.

Éta tiasa pikasieuneun pikeun miceunan waktos ngaunduh set data anu teu kaétang dugi ka dugi ka set anu idéal. Kalayan émut éta, kami parantos ngumpulkeun sababaraha pilihan anu sigana pikaresepeun sareng tiasa ngabantosan anjeun ngembangkeun proyék ML anjeun. Catet yén sababaraha anu dimaksudkeun pikeun pribadi tinimbang pamakéan komérsial, jadi tingali pilihan ieu salaku cara pikeun meunangkeun pangalaman dina ML semesta.

Dasar tina Datasets

Sateuacan urang nyebut datasets, urang kudu nangtukeun sababaraha istilah. Dina proyék Artificial Intelligence, khususna mesin Learning, Jumlah data anu ageung diperyogikeun, anu bakal dianggo pikeun ngalatih algoritma. Jumlah data ieu dikumpulkeun dina pangkalan data, anu mangpaat pisan pikeun ngajarkeun algoritma.

Kalayan data ieu, algoritma dilatih - ogé diuji - sareng janten tiasa mendakan pola, ngadegkeun hubungan sahingga nyandak kaputusan sacara mandiri. Tanpa latihan, mesin Learning Algoritma henteu tiasa ngalakukeun tindakan naon waé. Ku alatan éta, data latihan hadé, model bakal ngalakukeun hadé. Pikeun database janten mangpaat pikeun proyék éta, éta sanés ngeunaan kuantitas: éta ogé ngeunaan klasifikasi.

Ideally, data kudu ogé dilabélan. Pikirkeun kasus chatbots: sisipan basa penting, tapi analisis sintaksis anu ati-ati kedah dilakukeun supados algoritma anu diciptakeun tiasa ngartos nalika interlocutor nganggo slang. Ngan lajeng bakal asisten maya bisa ngajalankeun jawaban nurutkeun naon dipénta ku pamaké.

Datasets tiasa dibangkitkeun tina survey, data pameseran pangguna, evaluasi anu tinggaleun dina jasa, sareng ku sababaraha cara sanés anu ngamungkinkeun ngumpulkeun inpormasi mangpaat anu disusun dina kolom sareng baris dina file CSV.

Sateuacan anjeun milarian set data anu sampurna, penting anjeun terang tujuan proyék anjeun, khususna upami éta ti daérah anu khusus, sapertos cuaca, kauangan, kaséhatan, sareng sajabana. susunan data.

Datasets pikeun ML

Latihan Chatbot

Chatbot anu épéktip ngabutuhkeun jumlah data pelatihan anu ageung pikeun ngabéréskeun patarosan pangguna tanpa campur tangan manusa. Tapi, bottleneck utami dina pamekaran chatbot nyaéta kéngingkeun data dialog anu réalistis, berorientasi tugas pikeun ngalatih sistem berbasis Mesin Pembelajaran ieu.

Dataset conversational ngumpulkeun data dina format tanya jawab. Éta idéal pikeun palatihan chatbots anu bakal masihan jawaban otomatis ka pamiarsa. Tanpa data ieu, chatbot bakal gagal pikeun gancang ngajawab patarosan pamaké atawa ngajawab patarosan pamaké tanpa merlukeun campur manusa.

Ngagunakeun datasets ieu, usaha bisa nyieun alat nu nyadiakeun waleran gancang ka konsumén 24/7 sarta nyata langkung mirah ti gaduh tim jalma ngalakukeun rojongan customer.

1. Patarosan-Jawaban Dataset

Dataset ieu nyayogikeun sakumpulan artikel Wikipedia, patarosan sareng jawaban anu didamel sacara manual masing-masing. Éta mangrupikeun set data anu dikumpulkeun antara 2008 sareng 2010 kanggo dianggo dina panalungtikan akademik.

2. Data Basa

Language Data mangrupikeun database anu dikelola ku Yahoo sareng inpormasi anu dibangkitkeun tina sababaraha jasa perusahaan, sapertos Yahoo! Jawaban, anu dianggo salaku komunitas kabuka pikeun pangguna pikeun masangkeun patarosan sareng jawaban.

Dataset 1

3. WikiQA

Korpus WikiQA ogé diwangun ku sakumpulan patarosan sareng jawaban. Sumber tina patarosan nyaeta Bing, sedengkeun jawaban numbu ka kaca Wikipedia kalawan potensi pikeun ngajawab patarosan awal.

Dataset 2 Jumlahna aya langkung ti 3,000 patarosan sareng sakumpulan 29,258 kalimat dina set data, anu sakitar 1,400 parantos digolongkeun salaku jawaban kana patarosan anu cocog.

data pamaréntah

Datasets dihasilkeun ku pamaréntah mawa data demografi, nu inputs gede pikeun proyék-proyék nu patali jeung pamahaman tren sosial, nyieun kawijakan publik, sarta ngaronjatkeun masarakat. Ieu tiasa mangpaat pikeun kampanye pulitik, iklan sasaran, atawa analisis pasar.

Dataset ieu biasana ngandung data anonim, janten nalika modél tiasa ngaksés data atah, henteu aya palanggaran privasi pribadi.

4. Data.gov

Diluncurkeun dina 2009, Data.gov mangrupikeun sumber data Amérika Kalér. Katalogna pikaresepeun: langkung ti 218,000 set data anu ngamungkinkeun pamisahan dumasar kana format, tag, jinis, sareng topik.

5. EU Buka Portal Data

Portal Data Terbuka EU nyadiakeun aksés ka data kabuka anu dibagikeun ku lembaga Uni Éropa. Ieu mangrupikeun data anu tiasa ditujukeun pikeun panggunaan komersil sareng non-komersial. Di pembuangan pamaké leuwih ti 15.5 rébu datasets, ngawengku jejer kayaning kaséhatan, énergi, lingkungan, budaya, jeung atikan.

Data kasihatan

Saatos krisis kaséhatan anu lumangsung di sakuliah dunya, set data anu dihasilkeun ku organisasi kaséhatan penting pikeun ngembangkeun solusi anu épéktip pikeun nyalametkeun nyawa. Dataset ieu tiasa ngabantosan ngaidentipikasi faktor résiko, ngémutan pola panyebaran panyakit, sareng nyepetkeun diagnosis.

Dataset ieu diwangun ku catetan kaséhatan, demografi pasien, Prévalénsi panyakit, panggunaan ubar, nilai gizi, sareng seueur deui.

6. Observatorium Kaséhatan Global

Set data ieu mangrupikeun inisiatif Organisasi Kaséhatan Dunia (WHO). Éta nyayogikeun data umum anu aya hubunganana sareng daérah kaséhatan anu béda-béda, diatur ku téma sapertos sistem kaséhatan, kontrol panggunaan bako, maternity, HIV / AIDS, jsb. Aya ogé pilihan pikeun konsultasi data ngeunaan COVID-19.

7. KARAT-19

CORD-19 mangrupikeun korpus publikasi akademik ngeunaan COVID-19 sareng tulisan sanés ngeunaan coronavirus anyar. Éta mangrupikeun set data kabuka anu dimaksudkeun pikeun ngahasilkeun wawasan anyar ngeunaan COVID-19.

Dataset7

Data ékonomi

Dataset anu aya hubunganana sareng lingkungan kauangan biasana ngumpulkeun inpormasi anu ageung, sabab umumna aranjeunna dikumpulkeun kanggo lami. Éta idéal pikeun nyieun prediksi ékonomi atawa ngadegkeun tren investasi.

Kalayan set data kauangan anu leres, a Modél Pembelajaran Mesin tiasa ngaduga paripolah aset anu dipasihkeun. Éta sababna séktor kauangan ngalakukeun sagala rupa kakuatanana pikeun nyiptakeun modél ML anu épéktip, sabab naon waé anu tiasa diprediksi sacara lumayan ogé berpotensi ngahasilkeun jutaan dolar. Machine Learning parantos ngaramalkeun paripolah warga, anu mangaruhan kana cara para pembuat kawijakan ngalaksanakeun padamelan na.

8. Monetér internasional

Dataset IMF nyepeng sauntuyan indikator ékonomi jeung kauangan, statistik nagara anggota, jeung data injeuman jeung kurs lianna.

9. Bank Dunya

Repositori Bank Dunia ngandung set data anu béda sareng inpormasi ékonomi ti nagara anu béda. Aya leuwih ti 17,000 datasets dibagi ku buana.

88 set data7

ulasan produk jeung jasa

Analisis sentimen parantos mendakan aplikasina dina sababaraha widang anu ayeuna ngabantosan perusahaan pikeun ngira-ngira sareng diajar tina klien atanapi palangganna kalayan leres. Analisis sentimen beuki dianggo pikeun ngawaskeun média sosial, ngawaskeun merek, sora palanggan (VoC), layanan palanggan, sareng panalungtikan pasar.

Analisis sentimen ngagunakeun NLP (pemrograman neuro-linguistik) metode sareng algoritma anu dumasar kana aturan, hibrida, atanapi ngandelkeun téknik Pembelajaran Mesin pikeun diajar data tina set data.

Data anu diperlukeun dina analisis sentimen kudu husus sarta diperlukeun dina jumlah badag. Bagian anu paling nangtang ngeunaan prosés latihan analisis sentimen nyaéta henteu mendakan data dina jumlah anu ageung; tibatan, nya éta pikeun manggihan datasets relevan. Kumpulan data ieu kedah nutupan lega aplikasi analisis sentimen sareng kasus pamakean.

10. Harita Amazon

Dataset ieu ngandung sakitar 35 juta ulasan Amazon, ngalangkungan inpormasi anu dikumpulkeun salami 18 taun. Éta mangrupikeun set data produk, pangguna, sareng kontén ulasan.

11. Ulasan Yelp

Yelp ogé nawiskeun set data dumasar kana inpormasi anu dikumpulkeun tina jasana. Aya langkung ti 8 juta ulasan, 1 juta tip, sareng ampir 1.5 juta atribut anu aya hubunganana sareng usaha, sapertos jam buka sareng kasadiaan.

12. Ulasan IMDB

Database ieu ngandung sakumpulan langkung ti 25 rébu ulasan pilem pikeun palatihan sareng 25 rébu sanés pikeun tés anu dicandak sacara informal tina halaman IMDB, khusus dina rating pilem. Ogé nawarkeun data unlabelled salaku tambahan.

Datasets pikeun léngkah munggaran dina ML

13. Dataset Kualitas Anggur

Dataset ieu nyayogikeun inpormasi anu aya hubunganana sareng anggur, boh beureum sareng héjo, diproduksi di Portugal kalér. Tujuanana nyaéta pikeun nangtukeun kualitas anggur dumasar kana tés fisikokimia. Narik pikeun anu hoyong latihan nyiptakeun sistem prediksi.

14. Titanic Dataset

Dataset ieu mawa data tina 887 panumpang nyata ti Titanic, kalayan unggal kolom nangtukeun naha aranjeunna salamet, umur, kelas panumpang, gender, sareng biaya kost anu dibayar. Dataset ieu mangrupikeun bagian tina tantangan anu diluncurkeun ku platform Kaggle, anu tujuanana pikeun nyiptakeun modél anu tiasa ngaduga panumpang anu salamet tina tilelepna Titanic.

Platform pikeun Pananjung Datasets lianna

Upami anjeun hoyong langkung jauh sareng milarian set data anjeun nyalira, cara anu pangsaéna nyaéta ngotéktak repositori anu paling kasohor tina mesin Learning jagat raya:

Kaggle

Kaggle, anak perusahaan Google LLC, mangrupikeun komunitas online élmuwan data sareng profésional Mesin Pembelajaran. Kaggle ngamungkinkeun pamaké pikeun manggihan tur nyebarkeun datasets, ngajajah tur nyieun model dina lingkungan elmu data basis web; gawé bareng élmuwan data sejen tur Mesin Diajar Insinyur, sarta ilubiung dina kontes pikeun ngajawab tantangan elmu data.

Kaggle dimimitian taun 2010 ku nawiskeun kontes Mesin Pembelajaran sareng ayeuna ogé nawiskeun umum platform data, workbench dumasar-awan pikeun elmu data jeung atikan kecerdasan jieunan.

Pilarian Dataset

Pilarian Dataset mangrupikeun mesin pencari ti Google anu ngabantosan panaliti milarian data online anu sayogi gratis pikeun dianggo. Di sakuliah wéb, aya jutaan set data ngeunaan ampir sagala subjek anu dipikaresep ku anjeun.

Upami anjeun milarian mésér anak anjing, anjeun tiasa mendakan set data anu nyusun keluhan para pembeli anak anjing atanapi ngulik kognisi anak anjing. Atanapi upami anjeun resep ski, anjeun tiasa mendakan data ngeunaan pendapatan resor ski atanapi tingkat tatu sareng nomer partisipasi. Pilarian Dataset parantos ngindeks ampir 25 juta set data ieu, masihan anjeun tempat tunggal pikeun milarian set data sareng milarian tautan dimana datana.

UCI Mesin Learning Repository

UCI Machine Learning Repository mangrupikeun kumpulan database, téori domain, sareng generator data anu dianggo ku komunitas Machine Learning pikeun analisis émpiris algoritma Machine Learning. Arsip ieu dijieun salaku arsip ftp di 1987 ku David Aha jeung sasama mahasiswa pascasarjana di UC Irvine.

Saprak waktu éta, éta geus loba dipaké ku siswa, pendidik, jeung peneliti di sakuliah dunya salaku sumber primér datasets ML. Salaku indikasi dampak arsip, eta geus dicutat leuwih 1000 kali, sahingga salah sahiji luhureun 100 paling dicutat "makalah" dina sakabéh elmu komputer.

Quandl

Quandl mangrupikeun platform anu nyayogikeun para pangguna data ékonomi, kauangan, sareng alternatif. Pamaké tiasa ngaunduh data gratis, mésér data anu mayar atanapi ngajual data ka Quandl. Bisa jadi alat mangpaat pikeun ngembangkeun algoritma dagang, contona.

kacindekan

Ku ngajalajah alat ieu, anjeun pasti bakal mendakan input anu saé pikeun proyék anjeun. Pastikeun pikeun milih set data anu paling cocog pikeun kabutuhan khusus anjeun sareng tetep émut: sanés ngan ukur kuantitas, tapi ogé kualitas. Dataset mangrupikeun dasar naon waé Proyék Pembelajaran Mesin sareng penting pisan pikeun ngawangun data kualitas pikeun ngahindarkeun résiko ngahontal kacindekan anu salah.

14 Datasets pangalusna pikeun Mesin Learning

Dasar tina Datasets