Bab lan Paragraf[Singidaken][Tampilake]
Saben proyek Machine Learning gumantung ing dataset sing apik. Dataset gedhe iki bakal ngidini sampeyan nglatih lan ngesyahke model ML sampeyan. Dadi, bagean gedhe saka karya ing proyek ML yaiku nemokake set data sing cocog kanggo kabutuhan sampeyan. Nanging, iku ora tansah bisa kanggo golek pilihan sing cocog karo ambisi, minangka akeh file sing katon menarik, ing pungkasan, ora.
Bisa dadi angel mbuwang wektu ndownload set data sing ora kaetung nganti sampeyan entuk set sing cocog. Kanthi atine, kita wis ngumpulake sawetara opsi sing katon menarik lan bisa mbantu sampeyan ngembangake proyek ML. Elinga yen sawetara sing dimaksudake kanggo panggunaan pribadi tinimbang komersial, mula deleng pilihan kasebut minangka cara kanggo entuk pengalaman ing jagad ML.
Dhasaring Dataset
Sadurunge kita sebutno dataset, kita kudu nemtokake sawetara istilah. Ing proyek Intelligence Ponggawa, utamané machine Learning, akeh data sing dibutuhake, sing bakal digunakake kanggo nglatih algoritma kasebut. Jumlah data iki diklumpukake ing basis data, sing migunani banget kanggo mulang algoritma.
Kanthi data iki, algoritma dilatih - uga diuji - lan bisa nemokake pola, nggawe hubungan lan kanthi mangkono nggawe keputusan kanthi mandiri. Tanpa latihan, machine Learning algoritma ora bisa nindakake tumindak sembarang. Mulane, luwih apik data latihan, luwih apik model kasebut bakal ditindakake. Supaya database migunani kanggo proyek kasebut, ora mung babagan kuantitas: nanging uga babagan klasifikasi.
Saenipun, data kasebut kudu diwenehi label kanthi apik. Mikir babagan kasus chatbots: sisipan basa iku penting, nanging analisis sintaksis sing ati-ati kudu ditindakake supaya algoritma sing digawe bisa ngerti nalika interlocutor nggunakake slang. Mung banjur asisten virtual bisa mbukak jawaban miturut apa sing dijaluk pangguna.
Datasets bisa diasilake saka survey, data tuku pangguna, evaluasi sing ditinggalake ing layanan, lan kanthi cara liyane sing ngidini ngumpulake informasi migunani sing diatur ing kolom lan baris ing file CSV.
Sadurunge miwiti nggoleki set data sing sampurna, penting sampeyan ngerti tujuan proyek sampeyan, utamane yen saka wilayah tartamtu, kayata cuaca, keuangan, kesehatan, lan sapiturute. Iki bakal ndhikte sumber sing bakal dadi sumber kumpulan data.
Dataset kanggo ML
Latihan chatbot
Chatbot sing efektif mbutuhake data latihan sing akeh supaya bisa ngatasi pitakon pangguna kanthi cepet tanpa campur tangan manungsa. Nanging, kemacetan utama ing pangembangan chatbot yaiku entuk data dialog sing realistis lan berorientasi tugas kanggo nglatih sistem basis Machine Learning iki.
Dataset percakapan ngumpulake data kanthi format pitakonan lan jawaban. Iku becik kanggo latihan chatbots sing bakal menehi jawaban otomatis kanggo pamirsa. Tanpa data iki, chatbot bakal gagal ngrampungake pitakon pangguna kanthi cepet utawa mangsuli pitakon pangguna tanpa mbutuhake campur tangan manungsa.
Nggunakake set data kasebut, bisnis bisa nggawe alat sing menehi jawaban cepet kanggo pelanggan 24/7 lan luwih murah tinimbang duwe tim sing nindakake dhukungan pelanggan.
1. Pitakon-Jawaban Dataset
Dataset iki nyedhiyakake sakumpulan artikel Wikipedia, pitakonan lan jawaban sing digawe kanthi manual. Iki minangka dataset sing diklumpukake antarane 2008 lan 2010 kanggo digunakake ing riset akademik.
2. Data Basa
Language Data minangka basis data sing dikelola Yahoo kanthi informasi sing diasilake saka sawetara layanan perusahaan, kayata Yahoo! Jawaban, sing dianggo minangka komunitas mbukak kanggo pangguna ngirim pitakonan lan jawaban.
3. WikiQA
Korpus WikiQA uga kalebu sakumpulan pitakonan lan jawaban. Sumber pitakonan yaiku Bing, dene jawaban kasebut nyambung menyang kaca Wikipedia kanthi potensial kanggo ngatasi pitakonan awal.
Secara total, ana luwih saka 3,000 pitakonan lan sakumpulan 29,258 ukara ing dataset, sing kira-kira 1,400 wis dikategorikake minangka jawaban kanggo pitakonan sing cocog.
Data pemerintah
Dataset sing diasilake pemerintah nggawa data demografi, sing dadi input sing apik kanggo proyek sing ana gandhengane karo ngerti tren sosial, nggawe kabijakan umum, lan ningkatake masyarakat. Iki bisa migunani kanggo kampanye politik, iklan sing ditargetake, utawa analisis pasar.
Dataset iki biasane ngemot data anonim, saengga model bisa ngakses data mentah, ora ana pelanggaran privasi pribadhi.
4. Data.gov
Diluncurake ing 2009, Data.gov minangka sumber data ing Amerika Utara. Katalog kasebut nyengsemaken: luwih saka 218,000 set data sing ngidini segmentasi miturut format, tag, jinis, lan topik.
5. Portal Data Terbuka EU
Portal Data Terbuka EU nyedhiyakake akses menyang data mbukak sing dituduhake dening institusi Uni Eropa. Iki minangka data sing bisa ditrapake kanggo panggunaan komersial lan non-komersial. Ing pembuangan pangguna luwih saka 15.5 ewu dataset, kalebu topik kayata kesehatan, energi, lingkungan, budaya, lan pendidikan.
Data kesehatan
Sawise krisis kesehatan sing isih ana ing saindenging jagad, set data sing digawe dening organisasi kesehatan penting kanggo ngembangake solusi sing efektif kanggo nylametake nyawa. Dataset kasebut bisa mbantu ngenali faktor risiko, nemtokake pola transmisi penyakit, lan nyepetake diagnosis.
Dataset kasebut kalebu cathetan kesehatan, demografi pasien, prevalensi penyakit, panggunaan obat, nilai nutrisi, lan liya-liyane.
6. Observatorium Kesehatan Global
Set data iki minangka inisiatif Organisasi Kesehatan Dunia (WHO). Iki nyedhiyakake data umum sing ana gandhengane karo macem-macem wilayah kesehatan, diatur kanthi tema kayata sistem kesehatan, kontrol panggunaan tembakau, ibu hamil, HIV/AIDS, lsp. Ana uga pilihan kanggo takon data babagan COVID-19.
7. KARD-19
CORD-19 minangka korpus publikasi akademik babagan COVID-19 lan artikel liyane babagan coronavirus anyar. Iki minangka dataset mbukak sing dimaksudake kanggo ngasilake wawasan anyar babagan COVID-19.
Data ekonomi
Dataset sing ana gandhengane karo lingkungan finansial biasane ngumpulake informasi sing akeh banget, amarga umume wis suwe dikumpulake. Padha becik kanggo nggawe prediksi ekonomi utawa nggawe tren investasi.
Kanthi set data finansial sing tepat, a Model Pembelajaran Mesin bisa uga bisa prédhiksi prilaku aset tartamtu. Pramila sektor finansial nindakake kabeh kekuwatane kanggo nggawe model ML sing efektif, amarga apa wae sing bisa diprediksi kanthi cukup uga duweni potensi ngasilake mayuta-yuta dolar. Machine Learning wis prédhiksi prilaku warga, sing mengaruhi cara para pembuat kebijakan nindakake pakaryan.
8. Dana Moneter Internasional
Dataset IMF ngemot sawetara indikator ekonomi lan finansial, statistik negara anggota, lan data silihan lan kurs liyane.
9. Bank Dunia
Repositori Bank Dunia ngemot set data sing beda karo informasi ekonomi saka negara liya. Ana luwih saka 17,000 set data sing dipérang miturut bawana.
review produk lan layanan
Analisis sentimen nemokake aplikasi ing macem-macem lapangan sing saiki mbantu perusahaan ngira lan sinau saka klien utawa pelanggan kanthi bener. Analisis sentimen tambah akeh digunakake kanggo ngawasi media sosial, ngawasi merek, swara pelanggan (VoC), layanan pelanggan, lan riset pasar.
Analisis sentimen nggunakake NLP (neuro-linguistic programming) metode lan algoritma sing adhedhasar aturan, hibrida, utawa gumantung ing teknik Machine Learning kanggo sinau data saka set data.
Data sing dibutuhake ing analisis sentimen kudu khusus lan dibutuhake kanthi jumlah akeh. Sisih paling tantangan babagan proses latihan analisis sentimen ora nemokake data kanthi jumlah gedhe; tinimbang, iku kanggo nemokake dataset cocog. Kumpulan data kasebut kudu nyakup area aplikasi analisis sentimen lan kasus panggunaan sing akeh.
10. Ulasan Amazon
Dataset iki ngemot kira-kira 35 yuta review Amazon, sing kalebu informasi sing diklumpukake 18 taun. Iki minangka set data produk, pangguna, lan konten review.
11. Ulasan Yelp
Yelp uga nawakake dataset adhedhasar informasi sing diklumpukake saka layanan kasebut. Ana luwih saka 8 yuta review, 1 yuta tips, ditambah meh 1.5 yuta atribut sing ana gandhengane karo bisnis, kayata jam buka lan kasedhiyan.
12. Ulasan IMDB
Database iki ngemot set luwih saka 25 ewu review film kanggo latihan lan 25 ewu liyane kanggo tes sing dijupuk sacara informal saka kaca IMDB, khusus ing rating film. Iku uga nawakake data unlabelled minangka tambahan.
Datasets kanggo langkah pisanan ing ML
13. Dataset Kualitas Anggur
Dataset iki nyedhiyakake informasi sing ana gandhengane karo anggur, abang lan ijo, diprodhuksi ing Portugal sisih lor. Tujuane kanggo nemtokake kualitas anggur adhedhasar tes fisikokimia. Menarik kanggo sing pengin latihan nggawe sistem prediksi.
14. Titanic Dataset Kab
Dataset iki nggawa data saka 887 penumpang nyata saka Titanic, kanthi saben kolom nemtokake manawa slamet, umur, kelas penumpang, jender, lan biaya asrama sing dibayar. Dataset iki minangka bagean saka tantangan sing diluncurake dening platform Kaggle, sing tujuane nggawe model sing bisa prédhiksi penumpang sing bisa slamet nalika Titanic tenggelam.
Platform kanggo Nemokake Dataset Liyane
Yen sampeyan pengin luwih maju lan golek set data dhewe, cara paling apik yaiku nelusuri repositori sing paling misuwur ing machine Learning universe:
Kaggle
Kaggle, anak perusahaan Google LLC, minangka komunitas online ilmuwan data lan profesional Machine Learning. Kaggle ngidini pangguna nemokake lan nerbitake dataset, njelajah lan nggawe model ing lingkungan ilmu data basis web; bisa karo ilmuwan data liyane lan Machine Learning Engineers, lan melu kontes kanggo ngatasi tantangan ilmu data.
Kaggle diwiwiti ing 2010 kanthi nawakake kontes Pembelajaran Mesin lan saiki uga nawakake umum platform data, workbench basis maya kanggo ilmu data lan pendidikan Intelligence Ponggawa.
Panelusuran Dataset
Panelusuran Dataset minangka mesin telusur saka Google sing mbantu para peneliti nemokake data online sing kasedhiya kanggo digunakake. Ing saindhenging web, ana mayuta-yuta set data babagan meh kabeh subyek sing sampeyan minati.
Yen sampeyan pengin tuku kirik, sampeyan bisa nemokake dataset sing nyusun keluhan para panuku kirik utawa sinau babagan kognisi kirik. Utawa yen sampeyan seneng ski, sampeyan bisa nemokake data ing revenue saka resort ski utawa tarif bundhas lan nomer partisipasi. Panelusuran Dataset wis ngindeks meh 25 yuta dataset kasebut, menehi sampeyan panggonan siji kanggo nggoleki dataset lan nemokake pranala menyang ngendi data kasebut.
UCI Machine Learning Repository
UCI Machine Learning Repository minangka kumpulan database, teori domain, lan generator data sing digunakake dening komunitas Machine Learning kanggo analisis empiris algoritma Machine Learning. Arsip iki digawe minangka arsip ftp ing taun 1987 dening David Aha lan kanca-kanca pascasarjana ing UC Irvine.
Wiwit wektu iku, wis akeh digunakake dening para siswa, pendidik, lan peneliti ing saindenging jagad minangka sumber utama dataset ML. Minangka pratondo saka impact saka arsip, wis dikutip liwat 1000 kaping, nggawe salah siji saka ndhuwur 100 paling dikutip "makalah" ing kabeh ilmu komputer.
Quandl
Quandl minangka platform sing menehi pangguna data ekonomi, finansial, lan alternatif. Pangguna bisa ndownload data gratis, tuku data mbayar utawa ngedol data menyang Quandl. Bisa dadi alat sing migunani kanggo pangembangan algoritma dagang, Kanggo Kayata.
kesimpulan
Kanthi njelajah alat kasebut, sampeyan mesthi bakal nemokake input sing apik kanggo proyek sampeyan. Priksa manawa sampeyan milih set data sing paling cocog kanggo kabutuhan tartamtu lan tansah elinga: ora mung babagan kuantitas, nanging uga kualitas. Dataset minangka basis saka sembarang Proyek Machine Learning lan penting kanggo mbangun data kualitas supaya ora ana risiko nggayuh kesimpulan sing salah.
Ninggalake a Reply