14 Set Data Terbaik untuk Pembelajaran Mesin

Jadual Kandungan[Sembunyi][Tunjukkan]

Asas Set Data
Set data untuk ML+-
Platform untuk Mencari Set Data Lain+-
Kesimpulan

Setiap projek Pembelajaran Mesin bergantung pada set data yang baik. Set data besar inilah yang akan membolehkan anda melatih dan mengesahkan model ML anda. Jadi, sebahagian besar kerja dalam projek ML adalah mencari set data yang sesuai untuk keperluan anda. Walau bagaimanapun, tidak selalu mungkin untuk mencari pilihan yang sesuai dengan cita-cita anda, kerana banyak fail yang kelihatan menarik, pada akhirnya, tidak.

Ia boleh menjadi menakutkan untuk membuang masa memuat turun set data yang tidak terkira banyaknya sehingga anda tiba pada set yang ideal. Dengan itu, kami telah mengumpulkan beberapa pilihan yang kelihatan menarik dan boleh membantu anda membangunkan projek ML anda. Ambil perhatian bahawa sesetengahnya bertujuan untuk kegunaan peribadi dan bukannya penggunaan komersial, jadi lihat pilihan ini sebagai cara untuk mendapatkan pengalaman dalam alam ML.

Asas Set Data

Sebelum kita menyebut set data, kita harus menentukan beberapa istilah. Dalam projek Kepintaran Buatan, terutamanya mesin Pembelajaran, sejumlah besar data diperlukan, yang akan digunakan untuk melatih algoritma. Jumlah data ini dikumpulkan dalam pangkalan data, yang sangat berguna untuk mengajar algoritma.

Dengan data ini, algoritma dilatih - juga diuji - dan dapat mencari corak, mewujudkan hubungan dan dengan itu membuat keputusan secara autonomi. Tanpa latihan, mesin Pembelajaran algoritma tidak dapat melakukan sebarang tindakan. Oleh itu, lebih baik data latihan, lebih baik prestasi model. Untuk pangkalan data berguna kepada projek, ia bukan mengenai kuantiti: ia juga mengenai pengelasan.

Sebaik-baiknya, data harus dilabelkan dengan baik. Fikirkan tentang kes chatbots: sisipan bahasa adalah penting, tetapi analisis sintaksis yang teliti mesti dilakukan supaya algoritma yang dibuat dapat memahami apabila lawan bicara menggunakan slanga. Selepas itu, pembantu maya akan dapat melancarkan jawapan mengikut apa yang diminta oleh pengguna.

Set data boleh dijana daripada tinjauan, data pembelian pengguna, penilaian yang ditinggalkan pada perkhidmatan dan dalam banyak cara lain yang membolehkan pengumpulan maklumat berguna yang disusun dalam lajur dan baris dalam fail CSV.

Sebelum anda mencari set data yang sempurna, adalah penting anda mengetahui tujuan projek anda, terutamanya jika ia dari kawasan tertentu, seperti cuaca, kewangan, kesihatan, dll. Ini akan menentukan sumber dari mana anda akan mendapatkan sumber anda. set data.

Set data untuk ML

Latihan chatbot

Chatbot yang berkesan memerlukan sejumlah besar data latihan untuk menyelesaikan pertanyaan pengguna dengan cepat tanpa campur tangan manusia. Walau bagaimanapun, kesesakan utama dalam pembangunan chatbot ialah mendapatkan data dialog berorientasikan tugas yang realistik untuk melatih sistem berasaskan Pembelajaran Mesin ini.

Set data perbualan mengumpulkan data dalam format soalan dan jawapan. Ia sesuai untuk melatih chatbot yang akan memberikan jawapan automatik kepada penonton. Tanpa data ini, chatbot akan gagal menyelesaikan pertanyaan pengguna dengan cepat atau menjawab soalan pengguna tanpa memerlukan campur tangan manusia.

Menggunakan set data ini, perniagaan boleh mencipta alat yang menyediakan jawapan pantas kepada pelanggan 24/7 dan jauh lebih murah daripada mempunyai sekumpulan orang yang melakukan sokongan pelanggan.

1. Set Data Soalan-Jawapan

Set data ini menyediakan satu set artikel Wikipedia, soalan dan jawapan yang dijana secara manual masing-masing. Ia ialah set data yang dikumpul antara 2008 dan 2010 untuk digunakan dalam penyelidikan akademik.

2. Data Bahasa

Language Data ialah pangkalan data yang diuruskan oleh Yahoo dengan maklumat yang dijana daripada beberapa perkhidmatan syarikat, seperti Yahoo! Answer, yang berfungsi sebagai komuniti terbuka untuk pengguna menyiarkan soalan dan jawapan.

Set Data 1

3. WikiQA

Korpus WikiQA juga terdiri daripada satu set soalan dan jawapan. Sumber soalan adalah Bing, manakala jawapan memaut ke halaman Wikipedia yang berpotensi untuk menyelesaikan soalan awal.

Set Data 2 Secara keseluruhan, terdapat lebih daripada 3,000 soalan dan satu set 29,258 ayat dalam set data, yang mana kira-kira 1,400 telah dikategorikan sebagai jawapan kepada soalan yang sepadan.

Data kerajaan

Set data yang dijana oleh kerajaan membawa data demografi, yang merupakan input yang bagus untuk projek yang berkaitan dengan memahami arah aliran sosial, mewujudkan dasar awam dan menambah baik masyarakat. Ini boleh berguna untuk kempen politik, pengiklanan yang disasarkan atau analisis pasaran.

Set data ini biasanya mengandungi data tanpa nama, jadi walaupun model boleh mengakses data mentah, tiada pelanggaran privasi peribadi.

4. Data.gov

Dilancarkan pada 2009, Data.gov ialah sumber data Amerika Utara. Katalognya mengagumkan: lebih daripada 218,000 set data yang membenarkan pembahagian mengikut format, teg, jenis dan topik.

5. Portal Data Terbuka EU

Portal Data Terbuka EU menyediakan akses kepada data terbuka yang dikongsi oleh institusi Kesatuan Eropah. Ini adalah data yang boleh dimaksudkan untuk kegunaan komersil dan bukan komersil. Di pelupusan pengguna adalah lebih daripada 15.5 ribu set data, meliputi topik seperti kesihatan, tenaga, alam sekitar, budaya dan pendidikan.

Data kesihatan

Berikutan krisis kesihatan yang berterusan di seluruh dunia, set data yang dijana oleh organisasi kesihatan adalah penting untuk membangunkan penyelesaian yang berkesan untuk menyelamatkan nyawa. Set data ini boleh membantu mengenal pasti faktor risiko, menentukan corak penghantaran penyakit dan mempercepatkan diagnosis.

Set data ini terdiri daripada rekod kesihatan, demografi pesakit, kelaziman penyakit, penggunaan ubat-ubatan, nilai pemakanan dan banyak lagi.

6. Balai Cerap Kesihatan Global

Set data ini adalah inisiatif Pertubuhan Kesihatan Sedunia (WHO). Ia menyediakan data awam yang berkaitan dengan bidang kesihatan yang berbeza, diatur mengikut tema seperti sistem kesihatan, kawalan penggunaan tembakau, bersalin, HIV/AIDS, dll. Terdapat juga pilihan untuk merujuk data tentang COVID-19.

7. CORD-19

CORD-19 ialah korpus penerbitan akademik tentang COVID-19 dan artikel lain tentang coronavirus baharu. Ia ialah set data terbuka yang bertujuan untuk menjana cerapan baharu tentang COVID-19.

Set Data7

Data ekonomi

Set data yang berkaitan dengan persekitaran kewangan biasanya mengumpulkan sejumlah besar maklumat, kerana ia adalah perkara biasa bahawa mereka telah dikumpulkan untuk masa yang lama. Mereka sesuai untuk mencipta ramalan ekonomi atau mewujudkan trend pelaburan.

Dengan set data kewangan yang betul, a Model Pembelajaran Mesin mungkin dapat meramalkan tingkah laku aset tertentu. Itulah sebabnya sektor kewangan melakukan segala yang terdaya untuk mencipta model ML yang berkesan, kerana apa-apa yang boleh meramal dengan munasabah juga berpotensi menjana berjuta-juta dolar. Pembelajaran Mesin sudah pun meramalkan tingkah laku rakyat, yang memberi kesan kepada cara penggubal dasar menjalankan tugas mereka.

8. Tabung Kewangan Antarabangsa

Dataset IMF menyimpan pelbagai penunjuk ekonomi dan kewangan, statistik negara anggota dan data pinjaman dan kadar pertukaran lain.

9. Bank Dunia

Repositori Bank Dunia mengandungi set data yang berbeza dengan maklumat ekonomi dari negara yang berbeza. Terdapat lebih daripada 17,000 set data dibahagikan mengikut benua.

88set data7

Ulasan produk dan perkhidmatan

Analisis sentimen telah menemui aplikasinya dalam pelbagai bidang yang kini membantu perusahaan untuk menganggar dan belajar daripada pelanggan atau pelanggan mereka dengan betul. Analisis sentimen semakin digunakan untuk pemantauan media sosial, pemantauan jenama, suara pelanggan (VoC), perkhidmatan pelanggan dan penyelidikan pasaran.

Analisis sentimen menggunakan NLP kaedah dan algoritma (pengaturcaraan neuro-linguistik) yang sama ada berasaskan peraturan, hibrid atau bergantung pada teknik Pembelajaran Mesin untuk mempelajari data daripada set data.

Data yang diperlukan dalam analisis sentimen haruslah khusus dan diperlukan dalam kuantiti yang banyak. Bahagian yang paling mencabar tentang proses latihan analisis sentimen ialah tidak mencari data dalam jumlah yang besar; sebaliknya, ia adalah untuk mencari set data yang berkaitan. Set data ini mesti meliputi aplikasi analisis sentimen dan kes penggunaan yang luas.

10. Ulasan Amazon

Set data ini mengandungi kira-kira 35 juta ulasan Amazon, yang merangkumi tempoh 18 tahun maklumat yang dikumpul. Ia ialah set data kandungan produk, pengguna dan ulasan.

11. Ulasan Yelp

Yelp juga menawarkan set data berdasarkan maklumat yang dikumpul daripada perkhidmatannya. Terdapat lebih 8 juta ulasan, 1 juta petua, serta hampir 1.5 juta atribut yang berkaitan dengan perniagaan, seperti waktu buka dan ketersediaan.

12. Ulasan IMDB

Pangkalan data ini mengandungi satu set lebih daripada 25 ribu ulasan filem untuk latihan dan 25 ribu lagi untuk ujian yang diambil secara tidak rasmi dari halaman IMDB, khusus dalam penilaian filem. Ia juga menawarkan data tidak berlabel sebagai tambahan.

Set data untuk langkah pertama dalam ML

13. Set Data Kualiti Wain

Set data ini menyediakan maklumat yang berkaitan dengan wain, merah dan hijau, yang dihasilkan di utara Portugal. Matlamatnya adalah untuk menentukan kualiti wain berdasarkan ujian fizikokimia. Menarik bagi mereka yang ingin berlatih mencipta sistem ramalan.

14. Set Data Titanic

Set data ini membawa data daripada 887 penumpang sebenar dari Titanic, dengan setiap lajur menentukan sama ada mereka terselamat, umur, kelas penumpang, jantina dan yuran menaiki pesawat yang mereka bayar. Dataset ini adalah sebahagian daripada cabaran yang dilancarkan oleh platform Kaggle, yang bertujuan untuk mencipta model yang boleh meramalkan penumpang yang terselamat daripada tenggelam Titanic.

Platform untuk Mencari Set Data Lain

Jika anda ingin pergi lebih jauh dan mencari set data anda sendiri, cara terbaik ialah menyemak imbas repositori yang paling terkenal bagi mesin Pembelajaran Alam semesta:

Kaggle

Kaggle, anak syarikat Google LLC, ialah komuniti dalam talian saintis data dan profesional Pembelajaran Mesin. Kaggle membolehkan pengguna mencari dan menerbitkan set data, meneroka dan mencipta model dalam persekitaran sains data berasaskan web; bekerjasama dengan saintis data lain dan Jurutera Pembelajaran Mesin, dan menyertai peraduan untuk menyelesaikan cabaran sains data.

Kaggle bermula pada 2010 dengan menawarkan peraduan Pembelajaran Mesin dan kini turut menawarkan kepada orang ramai platform data, meja kerja berasaskan awan untuk sains data dan pendidikan Kecerdasan Buatan.

Carian Set Data

Carian Set Data ialah enjin carian daripada Google yang membantu penyelidik mencari data dalam talian yang tersedia secara percuma untuk digunakan. Di seluruh web, terdapat berjuta-juta set data tentang hampir mana-mana subjek yang menarik minat anda.

Jika anda ingin membeli anak anjing, anda boleh menemui set data yang menyusun aduan pembeli anak anjing atau kajian tentang kognisi anak anjing. Atau jika anda suka bermain ski, anda boleh mencari data tentang hasil pusat peranginan ski atau kadar kecederaan dan nombor penyertaan. Carian Set Data telah mengindeks hampir 25 juta set data ini, memberikan anda satu tempat untuk mencari set data dan mencari pautan ke lokasi data itu.

Repositori Pembelajaran Mesin UCI

Repositori Pembelajaran Mesin UCI ialah koleksi pangkalan data, teori domain dan penjana data yang digunakan oleh komuniti Pembelajaran Mesin untuk analisis empirikal algoritma Pembelajaran Mesin. Arkib itu dicipta sebagai arkib ftp pada tahun 1987 oleh David Aha dan rakan pelajar siswazah di UC Irvine.

Sejak masa itu, ia telah digunakan secara meluas oleh pelajar, pendidik dan penyelidik di seluruh dunia sebagai sumber utama set data ML. Sebagai petunjuk kesan arkib, ia telah disebut lebih 1000 kali, menjadikannya salah satu daripada 100 "makalah" yang paling banyak disebut dalam semua sains komputer.

Quandl

Quandl ialah platform yang menyediakan set data ekonomi, kewangan dan alternatif kepada penggunanya. Pengguna boleh memuat turun data percuma, membeli data berbayar atau menjual data kepada Quandl. Ia boleh menjadi alat yang berguna untuk pembangunan algoritma perdagangan, Misalnya.

Kesimpulan

Dengan meneroka alatan ini, anda pasti akan menemui input yang hebat untuk projek anda. Pastikan anda memilih set data yang paling sesuai untuk keperluan khusus anda dan sentiasa ingat: ia bukan sahaja mengenai kuantiti, tetapi juga kualiti. Set data adalah asas kepada mana-mana Projek Pembelajaran Mesin dan adalah penting untuk membina data berkualiti untuk mengelakkan risiko mencapai kesimpulan yang salah.

Penyusunan Data Terbaik untuk pembelajaran mesin

14 Set Data Terbaik untuk Pembelajaran Mesin

Asas Set Data