Makine Öğrenimi İçin En İyi 14 Veri Kümesi

İçindekiler[Saklamak][Göstermek]

Veri Kümelerinin Temelleri
Makine öğrenimi için veri kümeleri+-
Diğer Veri Kümelerini Bulma Platformları+-
Sonuç

Her Makine Öğrenimi projesi iyi bir veri kümesine dayanır. Makine öğrenimi modelinizi eğitmenize ve doğrulamanıza izin verecek olan bu büyük veri kümesidir. Dolayısıyla, bir makine öğrenimi projesinde işin büyük bir kısmı ihtiyaçlarınız için mükemmel veri setini bulmaktır. Bununla birlikte, sonunda ilginç görünen birçok dosya olmadığı için, hedefinize uyan bir seçenek bulmak her zaman mümkün değildir.

İdeal bir kümeye ulaşana kadar sayısız veri kümesini indirerek zaman kaybetmek göz korkutucu olabilir. Bunu akılda tutarak, ilginç görünen ve makine öğrenimi projenizi geliştirmenize yardımcı olabilecek bazı seçenekleri bir araya getirdik. Bazılarının ticari kullanım yerine kişisel kullanım için tasarlandığını unutmayın, bu nedenle ML evreninde deneyim kazanmanın bir yolu olarak bu seçeneklere bakın.

Veri Kümelerinin Temelleri

Veri kümelerinden bahsetmeden önce bazı terimleri tanımlamalıyız. Özellikle Yapay Zeka projelerinde Makine öğrenme, algoritmayı eğitmek için kullanılacak büyük miktarda veri gereklidir. Bu miktarda veri, bir algoritmayı öğretmek için son derece yararlı olan bir veritabanında toplanır.

Bu verilerle, algoritma eğitilir - ayrıca test edilir - ve kalıpları bulabilir, ilişkiler kurabilir ve böylece bağımsız olarak kararlar alabilir. Eğitimsiz, Makine öğrenme algoritmalar herhangi bir işlem gerçekleştiremez. Bu nedenle, eğitim verileri ne kadar iyi olursa, model o kadar iyi performans gösterecektir. Bir veri tabanının projeye faydalı olması nicelik ile ilgili değildir: aynı zamanda sınıflandırma ile de ilgilidir.

İdeal olarak, veriler iyi etiketlenmelidir. Sohbet robotlarını düşünün: dil ekleme önemlidir, ancak oluşturulan algoritmanın muhatap argo kullandığını anlayabilmesi için dikkatli sözdizimsel analiz yapılmalıdır. Ancak o zaman sanal asistan, kullanıcı tarafından talep edilene göre cevabı başlatabilecektir.

Veri kümeleri, anketlerden, kullanıcı satın alma verilerinden, hizmetlere bırakılan değerlendirmelerden ve bir CSV dosyasında sütunlar ve satırlar halinde düzenlenmiş yararlı bilgilerin toplanmasına olanak tanıyan diğer birçok yolla oluşturulabilir.

Mükemmel veri kümesini aramaya başlamadan önce, özellikle hava durumu, finans, sağlık vb. gibi belirli bir alandan geliyorsa, projenizin amacını bilmeniz önemlidir. Bu, kaynak alacağınız kaynağı belirleyecektir. veri kümesi.

Makine öğrenimi için veri kümeleri

Chatbot eğitimi

Etkili bir sohbet robotu, kullanıcı sorgularını insan müdahalesi olmadan hızlı bir şekilde çözmek için büyük miktarda eğitim verisine ihtiyaç duyar. Bununla birlikte, sohbet robotu geliştirmedeki birincil darboğaz, bu Makine Öğrenimi tabanlı sistemleri eğitmek için gerçekçi, görev odaklı diyalog verileri elde etmektir.

Bir konuşma veri kümesi, verileri bir soru-cevap biçiminde toplar. Kitleye otomatik cevaplar verecek sohbet robotlarını eğitmek için idealdir. Bu veriler olmadan, sohbet robotu, insan müdahalesine gerek kalmadan kullanıcı sorularını hızlı bir şekilde çözemez veya kullanıcı sorularını yanıtlayamaz.

İşletmeler bu veri kümelerini kullanarak, müşterilere 24/7 hızlı yanıtlar sağlayan ve müşteri desteği sağlayan bir ekipten önemli ölçüde daha ucuz olan bir araç oluşturabilir.

1. Soru-Cevap Veri Kümesi

Bu veri kümesi, bir dizi Wikipedia makalesi, soru ve bunların manuel olarak oluşturulmuş yanıtlarını sağlar. 2008-2010 yılları arasında kullanılmak üzere derlenmiş bir veri setidir. akademik araştırma.

2. Dil Verileri

Language Data, Yahoo tarafından yönetilen ve şirketin Yahoo! Cevap, kullanıcıların soru ve cevap göndermesi için açık bir topluluk olarak çalışır.

Veri kümeleri 1

3. VikiQA

WikiQA külliyatı da bir dizi soru ve cevaptan oluşur. Soruların kaynağı Bing'dir, cevaplar ise ilk soruyu çözme potansiyeli olan bir Wikipedia sayfasına bağlanır.

Veri kümeleri 2 Toplamda, veri setinde 3,000'den fazla soru ve bir dizi 29,258 cümle vardır ve bunların yaklaşık 1,400'ü ilgili soruya yanıt olarak kategorize edilmiştir.

Hükümet verileri

Hükümetler tarafından oluşturulan veri kümeleri, sosyal eğilimleri anlama, kamu politikaları oluşturma ve toplumu iyileştirme ile ilgili projeler için büyük girdiler olan demografik verileri getirir. Bu, siyasi kampanyalar, hedefli reklamcılık veya pazar analizi için faydalı olabilir.

Bu veri kümeleri tipik olarak anonimleştirilmiş veriler içerir, bu nedenle modeller ham verilere erişebilirken, kişisel gizlilik ihlali yoktur.

4. Data.gov

2009'da başlatılan Data.gov, veriler için Kuzey Amerika kaynağıdır. Kataloğu etkileyici: formata, etiketlere, türlere ve konulara göre segmentasyona izin veren 218,000'den fazla veri kümesi.

5. AB Açık Veri Portalı

AB Açık Veri Portalı, Avrupa Birliği kurumları tarafından paylaşılan açık verilere erişim sağlar. Bunlar ticari ve ticari olmayan kullanıma yönelik olabilecek verilerdir. Kullanıcının emrinde sağlık, enerji, çevre, kültür ve eğitim gibi konuları kapsayan 15.5 binden fazla veri seti bulunmaktadır.

Sağlık verileri

Dünya çapında devam eden sağlık krizinin ardından, sağlık kuruluşları tarafından oluşturulan veri kümeleri, hayat kurtarmak için etkili çözümler geliştirmek için çok önemlidir. Bu veri kümeleri, risk faktörlerini belirlemeye, hastalık bulaşma modellerini belirlemeye ve tanıyı hızlandırmaya yardımcı olabilir.

Bu veri kümeleri sağlık kayıtları, hastaların demografisi, hastalık prevalansı, tıbbi kullanım, besin değerleri ve çok daha fazlasını içerir.

6. Küresel Sağlık Gözlemevi

Bu veri seti Dünya Sağlık Örgütü'nün (WHO) bir girişimidir. Sağlık sistemleri, tütün kullanımı kontrolü, annelik, HIV/AIDS vb. gibi temalara göre düzenlenmiş, farklı sağlık alanlarıyla ilgili kamuya açık veriler sağlar. Ayrıca COVID-19 ile ilgili verilere bakma seçeneği de vardır.

7. KORD-19

CORD-19, COVID-19 hakkında akademik yayınlar ve yeni koronavirüs hakkında diğer makalelerden oluşan bir derlemedir. COVID-19 hakkında yeni içgörüler üretmeyi amaçlayan açık bir veri kümesidir.

Veri kümeleri7

ekonomi verileri

Finansal ortamla ilgili veri kümeleri, genellikle uzun süredir toplanmaları yaygın olduğu için büyük miktarda bilgi toplar. Ekonomik tahminler oluşturmak veya yatırım eğilimleri oluşturmak için idealdirler.

Doğru finansal veri kümeleriyle, Makine Öğrenimi modeli belirli bir varlığın davranışını tahmin edebilir. Bu nedenle finans sektörü etkili bir ML modeli oluşturmak için elinden gelen her şeyi yapıyor, çünkü makul derecede iyi tahmin edebilen her şey milyonlarca dolar kazanma potansiyeline sahip. Makine Öğrenimi, politika yapıcıların işlerini yapma şeklini etkileyen vatandaşların davranışlarını zaten tahmin ediyor.

8. Uluslararası Para Fonu

IMF veri seti, bir dizi ekonomik ve finansal göstergeyi, üye ülke istatistiklerini ve diğer kredi ve döviz kuru verilerini içerir.

9. Dünya Bankası

Dünya Bankası'nın deposu, farklı ülkelerden ekonomik bilgiler içeren farklı veri kümeleri içerir. Kıtalara bölünmüş 17,000'den fazla veri seti var.

88veri kümesi7

Ürün ve hizmet incelemeleri

Duyarlılık analizi, çeşitli alanlarda uygulamalarını bulmuştur ve şu anda işletmelerin müşterilerinden veya müşterilerinden doğru bir şekilde tahmin etmelerine ve onlardan öğrenmelerine yardımcı olmaktadır. Duygu analizi, sosyal medya takibi, marka takibi, müşterinin sesi (VoC), müşteri hizmetleri ve pazar araştırması için giderek daha fazla kullanılmaktadır.

Duygu analizi NLP kullanır (nöro-dilbilimsel programlama) veri kümelerinden veri öğrenmek için kural tabanlı, hibrit veya Makine Öğrenimi tekniklerine dayanan yöntemler ve algoritmalar.

Duyarlılık analizinde ihtiyaç duyulan veriler uzmanlaşmalı ve büyük miktarlarda gerekli olmalıdır. Duyarlılık analizi eğitim sürecinin en zorlu kısmı, büyük miktarlarda veri bulmak değildir; bunun yerine ilgili veri kümelerini bulmaktır. Bu veri kümeleri, geniş bir duygu analizi uygulamalarını ve kullanım durumlarını kapsamalıdır.

10 Amazon Değerlendirmeleri

Bu veri seti, 35 yıllık bir toplanan bilgi dönemini kapsayan yaklaşık 18 milyon Amazon incelemesi içerir. Ürün, kullanıcı ve inceleme içeriğinden oluşan bir veri kümesidir.

11 Yelp Yorumları

Yelp ayrıca, hizmetinden toplanan bilgilere dayalı bir veri kümesi sunar. 8 milyondan fazla inceleme, 1 milyon ipucu ve ayrıca işletmelerle ilgili çalışma saatleri ve müsaitlik durumu gibi yaklaşık 1.5 milyon özellik var.

12 IMDB İncelemeleri

Bu veritabanı, eğitim için 25 binden fazla film incelemesi ve film derecelendirmelerinde uzmanlaşmış IMDB sayfasından gayri resmi olarak alınan testler için 25 binden fazla film incelemesi içerir. Ayrıca ek olarak etiketlenmemiş verileri de sunar.

Makine öğreniminde ilk adımlar için veri kümeleri

13 Şarap Kalitesi Veri Kümesi

Bu veri seti, kuzey Portekiz'de üretilen hem kırmızı hem de yeşil şarapla ilgili bilgiler sağlar. Amaç, şarap kalitesini fizikokimyasal testlere dayalı olarak tanımlamaktır. Bir tahmin sistemi oluşturma alıştırması yapmak isteyenler için ilginç.

14 Titanik Veri Kümesi

Bu veri seti, Titanik'ten 887 gerçek yolcunun verilerini getiriyor ve her sütunda hayatta kalıp kalmadıklarını, yaşlarını, yolcu sınıflarını, cinsiyetlerini ve ödedikleri biniş ücretini tanımlıyor. Bu veri seti, Titanik'in batmasından hangi yolcuların kurtulduğunu tahmin edebilecek bir model oluşturmayı amaçlayan Kaggle platformu tarafından başlatılan bir mücadelenin parçasıydı.

Diğer Veri Kümelerini Bulma Platformları

Daha ileri gitmek ve kendi veri kümenizi bulmak istiyorsanız, en iyi yol, dünyanın en ünlü havuzlarına göz atmaktır. Makine öğrenme Evren:

Kaggle

Google LLC'nin bir yan kuruluşu olan Kaggle, çevrimiçi bir veri bilimcileri ve Makine Öğrenimi uzmanları topluluğudur. Kaggle, kullanıcıların web tabanlı bir veri bilimi ortamında veri kümelerini bulmasına ve yayınlamasına, modelleri keşfetmesine ve oluşturmasına olanak tanır; diğer veri bilimcilerle birlikte çalışın ve Makine Öğrenim Mühendislerive veri bilimi zorluklarını çözmek için yarışmalara katılın.

Kaggle, 2010 yılında Makine Öğrenimi yarışmaları sunarak başladı ve şimdi aynı zamanda halka açık bir veri platformu, veri bilimi ve Yapay Zeka eğitimi için bulut tabanlı bir çalışma tezgahı.

Veri Kümesi Arama

Veri Kümesi Arama, araştırmacıların ücretsiz olarak kullanılabilen çevrimiçi verileri bulmalarına yardımcı olan bir Google arama motorudur. İnternette, sizi ilgilendiren hemen hemen her konu hakkında milyonlarca veri seti var.

Bir köpek yavrusu satın almak istiyorsanız, köpek yavrusu satın alanların şikayetlerini derleyen veri kümelerini veya köpek yavrusu bilişi üzerine araştırmaları bulabilirsiniz. Ya da kayak yapmayı seviyorsanız, kayak merkezlerinin gelirleri veya yaralanma oranları ve katılım sayıları ile ilgili verileri bulabilirsiniz. Veri Kümesi Araması, bu veri kümelerinin neredeyse 25 milyonunu dizine ekleyerek, veri kümelerini aramak ve verilerin nerede olduğuna ilişkin bağlantıları bulmak için tek bir yer sağlar.

UCI Makine Öğrenimi Havuzu

UCI Machine Learning Repository, Machine Learning topluluğu tarafından Machine Learning algoritmalarının deneysel analizi için kullanılan veritabanları, etki alanı teorileri ve veri oluşturuculardan oluşan bir koleksiyondur. Arşiv 1987 yılında David Aha ve UC Irvine'deki diğer lisansüstü öğrenciler tarafından bir ftp arşivi olarak oluşturuldu.

O zamandan beri, tüm dünyada öğrenciler, eğitimciler ve araştırmacılar tarafından ML veri kümelerinin birincil kaynağı olarak yaygın olarak kullanılmaktadır. Arşivin etkisinin bir göstergesi olarak, 1000'den fazla atıf almış, bu da onu tüm bilgisayar bilimlerinde en çok atıf alan 100 "makaleden" biri haline getirmiştir.

Quandl

Quandl, kullanıcılarına ekonomik, finansal ve alternatif veri kümeleri sağlayan bir platformdur. Kullanıcılar ücretsiz veri indirebilir, ücretli veri satın alabilir veya Quandl'a veri satabilir. geliştirilmesi için yararlı bir araç olabilir. ticaret algoritmaları, Örneğin.

Sonuç

Bu araçları keşfederek, projeleriniz için harika girdiler bulacağınızdan emin olabilirsiniz. Spesifik ihtiyaçlarınız için en uygun veri setini seçtiğinizden emin olun ve her zaman aklınızda bulundurun: bu sadece nicelik değil, aynı zamanda kalite ile de ilgilidir. Veri kümesi, herhangi bir Makine Öğrenimi projesi ve hatalı sonuçlara varma riskinden kaçınmak için kaliteli veriler üzerine inşa etmek esastır.

Makine Öğrenimi İçin En İyi 14 Veri Kümesi

Veri Kümelerinin Temelleri