14 Kumpulan Data Terbaik untuk Pembelajaran Mesin

Daftar Isi[Bersembunyi][Menunjukkan]

Dasar-dasar Kumpulan Data
Kumpulan data untuk ML+-
Platform untuk Menemukan Kumpulan Data Lainnya+-
Kesimpulan

Setiap proyek Machine Learning bergantung pada kumpulan data yang baik. Kumpulan data besar inilah yang memungkinkan Anda melatih dan memvalidasi model ML Anda. Jadi, sebagian besar pekerjaan dalam proyek ML adalah menemukan kumpulan data yang sempurna untuk kebutuhan Anda. Namun, tidak selalu mungkin untuk menemukan opsi yang sesuai dengan ambisi Anda, karena banyak file yang terlihat menarik, pada akhirnya, tidak.

Membuang-buang waktu mengunduh kumpulan data yang tak terhitung jumlahnya dapat menjadi hal yang menakutkan sampai Anda tiba di kumpulan yang ideal. Dengan mengingat hal itu, kami telah mengumpulkan beberapa opsi yang tampaknya menarik dan dapat membantu Anda mengembangkan proyek ML Anda. Perhatikan bahwa beberapa ditujukan untuk penggunaan pribadi alih-alih komersial, jadi lihat opsi ini sebagai cara untuk mendapatkan pengalaman di dunia ML.

Dasar-dasar Kumpulan Data

Sebelum kita menyebutkan kumpulan data, kita harus mendefinisikan beberapa istilah. Dalam proyek Kecerdasan Buatan, khususnya Pembelajaran mesin, sejumlah besar data diperlukan, yang akan digunakan untuk melatih algoritme. Jumlah data ini dikumpulkan dalam database, yang sangat berguna untuk mengajarkan suatu algoritma.

Dengan data ini, algoritme dilatih – juga diuji – dan mampu menemukan pola, membangun hubungan, dan dengan demikian membuat keputusan secara mandiri. Tanpa pelatihan, Pembelajaran mesin algoritma tidak dapat melakukan tindakan apa pun. Oleh karena itu, semakin baik data pelatihan, semakin baik model akan tampil. Agar database berguna bagi proyek, ini bukan tentang kuantitas: ini juga tentang klasifikasi.

Idealnya, data harus diberi label dengan baik. Pikirkan tentang kasus chatbots: penyisipan bahasa itu penting, tetapi analisis sintaksis yang cermat harus dilakukan agar algoritma yang dibuat dapat memahami ketika lawan bicara menggunakan bahasa gaul. Baru setelah itu asisten virtual dapat meluncurkan jawaban sesuai dengan apa yang diminta oleh pengguna.

Kumpulan data dapat dihasilkan dari survei, data pembelian pengguna, evaluasi yang tersisa pada layanan, dan dalam banyak cara lain yang memungkinkan pengumpulan informasi berguna yang diatur dalam kolom dan baris dalam file CSV.

Sebelum Anda mulai mencari kumpulan data yang sempurna, penting bagi Anda untuk mengetahui tujuan proyek Anda, terutama jika itu dari area tertentu, seperti cuaca, keuangan, kesehatan, dll. Ini akan menentukan sumber dari mana Anda akan mencari sumber data Anda. Himpunan data.

Kumpulan data untuk ML

Pelatihan chatbot

Chatbot yang efektif membutuhkan sejumlah besar data pelatihan untuk menyelesaikan pertanyaan pengguna dengan cepat tanpa campur tangan manusia. Namun, hambatan utama dalam pengembangan chatbot adalah memperoleh data dialog berorientasi tugas yang realistis untuk melatih sistem berbasis Machine Learning ini.

Kumpulan data percakapan mengumpulkan data dalam format tanya jawab. Ini sangat ideal untuk melatih chatbot yang akan memberikan jawaban otomatis kepada audiens. Tanpa data ini, chatbot akan gagal dengan cepat menyelesaikan pertanyaan pengguna atau menjawab pertanyaan pengguna tanpa perlu campur tangan manusia.

Dengan menggunakan kumpulan data ini, bisnis dapat membuat alat yang memberikan jawaban cepat kepada pelanggan 24/7 dan secara signifikan lebih murah daripada memiliki tim yang terdiri dari orang-orang yang melakukan dukungan pelanggan.

1. Kumpulan Data Pertanyaan-Jawaban

Kumpulan data ini menyediakan sekumpulan artikel Wikipedia, pertanyaan, dan jawaban masing-masing yang dihasilkan secara manual. Ini adalah kumpulan data yang dikumpulkan antara 2008 dan 2010 untuk digunakan di penelitian akademik.

2. Data Bahasa

Language Data adalah database yang dikelola oleh Yahoo dengan informasi yang dihasilkan dari beberapa layanan perusahaan, seperti Yahoo! Answer, yang berfungsi sebagai komunitas terbuka bagi pengguna untuk memposting pertanyaan dan jawaban.

Kumpulan data 1

3. WikiQA

Korpus WikiQA juga terdiri dari serangkaian pertanyaan dan jawaban. Sumber pertanyaannya adalah Bing, sedangkan jawaban tertaut ke halaman Wikipedia dengan potensi untuk memecahkan pertanyaan awal.

Kumpulan data 2 Secara total, ada lebih dari 3,000 pertanyaan dan satu set 29,258 kalimat dalam kumpulan data, di mana sekitar 1,400 telah dikategorikan sebagai jawaban atas pertanyaan terkait.

data pemerintah

Kumpulan data yang dihasilkan oleh pemerintah membawa data demografis, yang merupakan masukan bagus untuk proyek yang terkait dengan pemahaman tren sosial, pembuatan kebijakan publik, dan peningkatan masyarakat. Ini dapat berguna untuk kampanye politik, iklan bertarget, atau analisis pasar.

Kumpulan data ini biasanya berisi data yang dianonimkan, jadi meskipun model dapat mengakses data mentah, tidak ada pelanggaran privasi pribadi.

4. Data.gov

Diluncurkan pada tahun 2009, Data.gov adalah sumber data Amerika Utara. Katalognya sangat mengesankan: lebih dari 218,000 kumpulan data yang memungkinkan segmentasi menurut format, tag, jenis, dan topik.

5. Portal Data Terbuka UE

Portal Data Terbuka UE menyediakan akses ke data terbuka yang dibagikan oleh lembaga-lembaga Uni Eropa. Ini adalah data yang dapat ditujukan untuk penggunaan komersial dan non-komersial. Lebih dari 15.5 ribu kumpulan data tersedia bagi pengguna, yang mencakup topik-topik seperti kesehatan, energi, lingkungan, budaya, dan pendidikan.

Data kesehatan

Setelah krisis kesehatan yang sedang berlangsung di seluruh dunia, kumpulan data yang dihasilkan oleh organisasi kesehatan sangat penting untuk mengembangkan solusi yang efektif untuk menyelamatkan nyawa. Kumpulan data ini dapat membantu mengidentifikasi faktor risiko, menentukan pola penularan penyakit, dan mempercepat diagnosis.

Dataset ini terdiri dari catatan kesehatan, demografi pasien, prevalensi penyakit, penggunaan obat, nilai gizi, dan banyak lagi.

6. Observatorium Kesehatan Global

Kumpulan data ini merupakan inisiatif dari Organisasi Kesehatan Dunia (WHO). Ini menyediakan data publik yang terkait dengan berbagai bidang kesehatan, yang disusun berdasarkan tema seperti sistem kesehatan, pengendalian penggunaan tembakau, kehamilan, HIV/AIDS, dll. Ada juga opsi untuk berkonsultasi dengan data tentang COVID-19.

7. kabel-19

CORD-19 adalah kumpulan publikasi akademik tentang COVID-19 dan artikel lain tentang virus corona baru. Ini adalah kumpulan data terbuka yang dimaksudkan untuk menghasilkan wawasan baru tentang COVID-19.

Kumpulan data7

data ekonomi

Kumpulan data yang terkait dengan lingkungan keuangan biasanya mengumpulkan sejumlah besar informasi, karena biasanya mereka telah dikumpulkan untuk waktu yang lama. Mereka ideal untuk membuat prediksi ekonomi atau membangun tren investasi.

Dengan kumpulan data keuangan yang tepat, a Model Pembelajaran Mesin mungkin dapat memprediksi perilaku aset tertentu. Itulah sebabnya sektor keuangan melakukan segala daya untuk menciptakan model ML yang efektif, karena apa pun yang dapat diprediksi dengan cukup baik berpotensi menghasilkan jutaan dolar. Machine Learning sudah memprediksi perilaku warga, yang memengaruhi cara pembuat kebijakan melakukan pekerjaan mereka.

8. Dana Moneter Internasional

Dataset IMF menyimpan berbagai indikator ekonomi dan keuangan, statistik negara anggota, dan data pinjaman dan nilai tukar lainnya.

9. Bank Dunia

Repositori Bank Dunia berisi kumpulan data yang berbeda dengan informasi ekonomi dari berbagai negara. Ada lebih dari 17,000 kumpulan data yang dibagi berdasarkan benua.

88 kumpulan data7

Ulasan produk dan layanan

Analisis sentimen telah menemukan aplikasinya di berbagai bidang yang sekarang membantu perusahaan untuk memperkirakan dan belajar dari klien atau pelanggan mereka dengan benar. Analisis sentimen semakin banyak digunakan untuk pemantauan media sosial, pemantauan merek, suara pelanggan (VoC), layanan pelanggan, dan riset pasar.

Analisis sentimen menggunakan NLP (pemrograman neuro-linguistik) dan algoritme yang berbasis aturan, hibrida, atau mengandalkan teknik Pembelajaran Mesin untuk mempelajari data dari kumpulan data.

Data yang dibutuhkan dalam analisis sentimen harus terspesialisasi dan dibutuhkan dalam jumlah yang banyak. Bagian yang paling menantang tentang proses pelatihan analisis sentimen bukanlah menemukan data dalam jumlah besar; sebagai gantinya, ini adalah untuk menemukan kumpulan data yang relevan. Kumpulan data ini harus mencakup area yang luas dari aplikasi analisis sentimen dan kasus penggunaan.

10. Ulasan Amazon

Kumpulan data ini berisi sekitar 35 juta ulasan Amazon, yang mencakup periode 18 tahun informasi yang dikumpulkan. Ini adalah kumpulan data produk, pengguna, dan konten ulasan.

11. Ulasan Yelp

Yelp juga menawarkan kumpulan data berdasarkan informasi yang dikumpulkan dari layanannya. Ada lebih dari 8 juta ulasan, 1 juta tip, ditambah hampir 1.5 juta atribut yang terkait dengan bisnis, seperti jam buka dan ketersediaan.

12. Ulasan IMDB

Basis data ini berisi kumpulan lebih dari 25 ribu ulasan film untuk pelatihan dan 25 ribu lainnya untuk tes yang diambil secara informal dari halaman IMDB, khusus untuk peringkat film. Ini juga menawarkan data yang tidak berlabel sebagai tambahan.

Kumpulan data untuk langkah pertama di ML

13. Kumpulan Data Kualitas Anggur

Kumpulan data ini memberikan informasi terkait anggur, baik merah maupun hijau, yang diproduksi di Portugal utara. Tujuannya adalah untuk menentukan kualitas anggur berdasarkan tes fisikokimia. Menarik bagi yang ingin berlatih membuat sistem prediksi.

14. Kumpulan Data Titanic

Kumpulan data ini membawa data dari 887 penumpang nyata dari Titanic, dengan setiap kolom menentukan apakah mereka selamat, usia, kelas penumpang, jenis kelamin, dan biaya naik yang mereka bayarkan. Kumpulan data ini adalah bagian dari tantangan yang diluncurkan oleh platform Kaggle, yang bertujuan untuk menciptakan model yang dapat memprediksi penumpang mana yang selamat dari tenggelamnya Titanic.

Platform untuk Menemukan Kumpulan Data Lainnya

Jika Anda ingin melangkah lebih jauh dan menemukan kumpulan data Anda sendiri, cara terbaik adalah menelusuri repositori paling terkenal dari Pembelajaran mesin alam semesta:

Kaggle

Kaggle, anak perusahaan Google LLC, adalah komunitas online ilmuwan data dan profesional Pembelajaran Mesin. Kaggle memungkinkan pengguna untuk menemukan dan menerbitkan kumpulan data, menjelajahi, dan membuat model dalam lingkungan ilmu data berbasis web; bekerja dengan ilmuwan data lainnya dan Insinyur Pembelajaran Mesin, dan berpartisipasi dalam kontes untuk memecahkan tantangan ilmu data.

Kaggle dimulai pada tahun 2010 dengan menawarkan kontes Machine Learning dan sekarang juga menawarkan kontes publik platform data, meja kerja berbasis cloud untuk ilmu data dan pendidikan Kecerdasan Buatan.

Pencarian Kumpulan Data

Pencarian Dataset adalah mesin pencari dari Google yang membantu peneliti menemukan data online yang tersedia secara bebas untuk digunakan. Di seluruh web, ada jutaan kumpulan data tentang hampir semua subjek yang menarik minat Anda.

Jika Anda ingin membeli anak anjing, Anda dapat menemukan kumpulan data yang mengumpulkan keluhan pembeli anak anjing atau studi tentang kognisi anak anjing. Atau jika Anda suka bermain ski, Anda dapat menemukan data tentang pendapatan resor ski atau tingkat cedera dan jumlah partisipasi. Pencarian Dataset telah mengindeks hampir 25 juta dari kumpulan data ini, memberi Anda satu tempat untuk mencari kumpulan data dan menemukan tautan ke tempat data tersebut berada.

Repositori Pembelajaran Mesin UCI

UCI Machine Learning Repository adalah kumpulan database, teori domain, dan generator data yang digunakan oleh komunitas Machine Learning untuk analisis empiris algoritma Machine Learning. Arsip tersebut dibuat sebagai arsip ftp pada tahun 1987 oleh David Aha dan sesama mahasiswa pascasarjana di UC Irvine.

Sejak saat itu, telah banyak digunakan oleh siswa, pendidik, dan peneliti di seluruh dunia sebagai sumber utama kumpulan data ML. Sebagai indikasi dampak arsip, telah dikutip lebih dari 1000 kali, menjadikannya salah satu dari 100 "makalah" yang paling banyak dikutip di semua ilmu komputer.

masalah

Quandl adalah platform yang menyediakan kumpulan data ekonomi, keuangan, dan alternatif kepada penggunanya. Pengguna dapat mengunduh data gratis, membeli data berbayar, atau menjual data ke Quandl. Ini bisa menjadi alat yang berguna untuk pengembangan algoritma perdagangan, Misalnya.

Kesimpulan

Dengan menjelajahi alat-alat ini, Anda pasti akan menemukan masukan yang bagus untuk proyek Anda. Pastikan untuk memilih kumpulan data yang paling sesuai dengan kebutuhan spesifik Anda dan selalu ingat: ini bukan hanya tentang kuantitas, tetapi juga kualitas. Kumpulan data adalah dasar dari semua Proyek Pembelajaran Mesin dan sangat penting untuk membangun data yang berkualitas untuk menghindari risiko mencapai kesimpulan yang salah.

Kumpulan Data Terbaik untuk pembelajaran mesin

14 Kumpulan Data Terbaik untuk Pembelajaran Mesin

Dasar-dasar Kumpulan Data