14 najboljih skupova podataka za strojno učenje

Pregled sadržaja[Sakriti][Pokazati]

Osnove skupova podataka
Skupovi podataka za ML+-
Platforme za pronalaženje drugih skupova podataka+-
Zaključak

Svaki projekt strojnog učenja oslanja se na dobar skup podataka. Upravo će vam ovaj veliki skup podataka omogućiti da trenirate i potvrdite svoj ML model. Dakle, veliki dio posla u projektu ML-a je pronalaženje savršenog skupa podataka za vaše potrebe. Međutim, nije uvijek moguće pronaći opciju koja odgovara vašim ambicijama, jer mnoge datoteke koje izgledaju zanimljivo na kraju nisu.

Može biti zastrašujuće gubiti vrijeme na preuzimanje bezbrojnih skupova podataka dok ne dođete do idealnog skupa. Imajući to na umu, prikupili smo neke opcije koje se čine zanimljivima i koje vam mogu pomoći da razvijete svoj ML projekt. Imajte na umu da su neke namijenjene osobnoj umjesto komercijalnoj upotrebi, stoga gledajte na ove opcije kao na način da steknete iskustvo u svemiru ML-a.

Osnove skupova podataka

Prije nego što spomenemo skupove podataka, trebali bismo definirati neke pojmove. Posebno u projektima umjetne inteligencije Strojno učenje, potrebna je velika količina podataka koji će se koristiti za treniranje algoritma. Ova količina podataka skuplja se u bazi podataka, što je iznimno korisno za podučavanje algoritma.

S tim podacima algoritam se trenira – također se testira – i postaje sposoban pronaći obrasce, uspostaviti odnose i na taj način samostalno donositi odluke. bez treninga, Strojno učenje algoritmi ne mogu izvesti nikakvu radnju. Stoga, što su bolji podaci o treningu, to će model biti bolji. Da bi baza podataka bila korisna za projekt, ne radi se o količini, već o klasifikaciji.

U idealnom slučaju, podaci bi trebali biti dobro označeni. Razmislite o slučaju chatbota: umetanje jezika je važno, ali se mora napraviti pažljiva sintaktička analiza kako bi stvoreni algoritam mogao razumjeti kada sugovornik koristi sleng. Tek tada će virtualni asistent moći pokrenuti odgovor prema zahtjevu korisnika.

Skupovi podataka mogu se generirati iz anketa, podataka o kupnji korisnika, procjena ostavljenih na uslugama i na mnoge druge načine koji omogućuju prikupljanje korisnih informacija organiziranih u stupce i retke u CSV datoteci.

Prije nego što krenete u potragu za savršenim skupom podataka, važno je da znate svrhu svog projekta, pogotovo ako je iz određenog područja, kao što su vrijeme, financije, zdravlje, itd. To će diktirati izvor iz kojeg ćete dobiti svoje skup podataka.

Skupovi podataka za ML

Trening za chatbot

Učinkovit chatbot zahtijeva ogromnu količinu podataka o obuci kako bi brzo riješio upite korisnika bez ljudske intervencije. Međutim, primarno usko grlo u razvoju chatbota je dobivanje realističnih, zadataka orijentiranih dijaloških podataka za obuku ovih sustava temeljenih na strojnom učenju.

Konverzacijski skup podataka prikuplja podatke u obliku pitanja i odgovora. Idealan je za obuku chatbotova koji će publici dati automatizirane odgovore. Bez ovih podataka, chatbot neće uspjeti brzo riješiti upite korisnika ili odgovoriti na pitanja korisnika bez potrebe za ljudskom intervencijom.

Koristeći ove skupove podataka, tvrtke mogu izraditi alat koji korisnicima pruža brze odgovore 24 sata dnevno i 7 dana u nedelji i znatno je jeftiniji od tima ljudi koji radi korisničku podršku.

1. Skup podataka pitanja-odgovora

Ovaj skup podataka pruža skup Wikipedijinih članaka, pitanja i njihovih odgovarajućih ručno generiranih odgovora. To je skup podataka prikupljen između 2008. i 2010. za korištenje u akademska istraživanja.

2. Podaci o jeziku

Jezični podaci su baza podataka kojom upravlja Yahoo s informacijama generiranim iz nekih usluga tvrtke, kao što je Yahoo! Odgovor, koji funkcionira kao otvorena zajednica za korisnike za postavljanje pitanja i odgovora.

Skupovi podataka 1

3. WikiQA

WikiQA korpus također se sastoji od niza pitanja i odgovora. Izvor pitanja je Bing, dok se odgovori povezuju na stranicu Wikipedije s potencijalom za rješavanje početnog pitanja.

Skupovi podataka 2 Ukupno ima više od 3,000 pitanja i skup od 29,258 rečenica u skupu podataka, od kojih je oko 1,400 kategorizirano kao odgovori na odgovarajuće pitanje.

Vladini podaci

Skupovi podataka koje generiraju vlade donose demografske podatke, koji su sjajni inputi za projekte koji se odnose na razumijevanje društvenih trendova, kreiranje javnih politika i poboljšanje društva. To može biti korisno za političke kampanje, ciljano oglašavanje ili analizu tržišta.

Ti skupovi podataka obično sadrže anonimizirane podatke, pa iako modeli mogu pristupiti sirovim podacima, nema kršenja osobne privatnosti.

4. Data.gov

Pokrenut 2009., Data.gov je sjevernoamerički izvor podataka. Njegov je katalog impresivan: više od 218,000 XNUMX skupova podataka koji omogućuju segmentaciju prema formatu, oznakama, vrstama i temama.

5. Portal otvorenih podataka EU

Portal otvorenih podataka EU omogućuje pristup otvorenim podacima koje dijele institucije Europske unije. To su podaci koji mogu biti namijenjeni za komercijalnu i nekomercijalnu upotrebu. Korisniku je na raspolaganju više od 15.5 tisuća skupova podataka koji pokrivaju teme kao što su zdravlje, energija, okoliš, kultura i obrazovanje.

Podaci o zdravlju

U svjetlu tekuće zdravstvene krize u cijelom svijetu, skupovi podataka koje generiraju zdravstvene organizacije ključni su za razvoj učinkovitih rješenja za spašavanje života. Ovi skupovi podataka mogu pomoći identificirati čimbenike rizika, razraditi obrasce prijenosa bolesti i ubrzati dijagnozu.

Ovi skupovi podataka sastoje se od zdravstvenih zapisa, demografije pacijenata, prevalencije bolesti, medicinske upotrebe, nutritivnih vrijednosti i još mnogo toga.

6. Globalna zvjezdarnica za zdravlje

Ovaj skup podataka inicijativa je Svjetske zdravstvene organizacije (WHO). Pruža javne podatke koji se odnose na različita područja zdravlja, organizirane po temama kao što su zdravstveni sustavi, kontrola uporabe duhana, majčinstvo, HIV/AIDS, itd. Također postoji mogućnost pregledavanja podataka o COVID-19.

7. CORD-19

CORD-19 je korpus akademskih publikacija o COVID-19 i drugih članaka o novom koronavirusu. To je otvoreni skup podataka namijenjen generiranju novih uvida o COVID-19.

Skupovi podataka7

Ekonomski podaci

Skupovi podataka vezani uz financijsko okruženje obično prikupljaju ogromnu količinu informacija, budući da je uobičajeno da se skupljaju dugo vremena. Idealni su za stvaranje ekonomskih predviđanja ili utvrđivanje trendova ulaganja.

S pravim skupovima financijskih podataka, a Model strojnog učenja mogli predvidjeti ponašanje određene imovine. Zato financijski sektor čini sve što je u njegovoj moći kako bi stvorio učinkovit ML model, jer sve što može predvidjeti čak i razumno dobro ima potencijal generirati milijune dolara. Strojno učenje već predviđa ponašanje građana, što utječe na način na koji kreatori politika rade svoj posao.

8. Međunarodni monetarni fond

Skup podataka MMF-a sadrži niz ekonomskih i financijskih pokazatelja, statistike zemalja članica i druge podatke o zajmovima i tečajevima.

9. Svjetska banka

Repozitorij Svjetske banke sadrži različite skupove podataka s ekonomskim informacijama iz različitih zemalja. Postoji više od 17,000 skupova podataka podijeljenih po kontinentima.

88skupovi podataka7

Recenzije proizvoda i usluga

Analiza osjećaja našla je svoju primjenu u različitim područjima koja sada pomažu poduzećima da ispravno procjenjuju i uče od svojih klijenata ili kupaca. Analiza osjećaja sve se više koristi za praćenje društvenih medija, praćenje brenda, glas kupaca (VoC), korisničku službu i istraživanje tržišta.

Analiza osjećaja koristi NLP (neuro-lingvističko programiranje) metode i algoritmi koji su ili temeljeni na pravilima, hibridni ili se oslanjaju na tehnike strojnog učenja za učenje podataka iz skupova podataka.

Podaci potrebni u analizi osjećaja trebali bi biti specijalizirani i potrebni u velikim količinama. Najzahtjevniji dio procesa obuke analize osjećaja nije pronalaženje podataka u velikim količinama; umjesto toga, to je pronaći relevantne skupove podataka. Ovi skupovi podataka moraju pokrivati široko područje primjena i slučajeva analize osjećaja.

10. Amazonske recenzije

Ovaj skup podataka sadrži oko 35 milijuna recenzija Amazona, koji obuhvaćaju 18-godišnje razdoblje prikupljenih informacija. To je skup podataka proizvoda, korisnika i sadržaja recenzije.

11. Yelp recenzije

Yelp također nudi skup podataka na temelju informacija prikupljenih iz njegove usluge. Postoji više od 8 milijuna recenzija, 1 milijun savjeta, plus gotovo 1.5 milijuna atributa povezanih s tvrtkama, kao što su radno vrijeme i dostupnost.

12. IMDB recenzije

Ova baza podataka sadrži skup od više od 25 tisuća filmskih recenzija za obuku i još 25 tisuća za testove preuzete neformalno sa IMDB stranice, specijalizirane za ocjenjivanje filmova. Također nudi neoznačene podatke kao dodatnu.

Skupovi podataka za prve korake u ML-u

13. Skup podataka o kvaliteti vina

Ovaj skup podataka pruža informacije vezane za vino, i crveno i zeleno, proizvedeno u sjevernom Portugalu. Cilj je definirati kakvoću vina na temelju fizikalno-kemijskih ispitivanja. Zanimljivo za one koji žele vježbati stvaranje sustava predviđanja.

14. Titanic skup podataka

Ovaj skup podataka donosi podatke od 887 stvarnih putnika s Titanica, a svaki stupac definira jesu li preživjeli, njihovu dob, klasu putnika, spol i naknadu za ukrcaj koju su platili. Ovaj skup podataka bio je dio izazova koji je pokrenula platforma Kaggle, čiji je cilj bio stvoriti model koji bi mogao predvidjeti koji su putnici preživjeli potonuće Titanica.

Platforme za pronalaženje drugih skupova podataka

Ako želite ići dalje i pronaći vlastiti skup podataka, najbolji način je pregledavanje najpoznatijih repozitorija Strojno učenje svemir:

Kaggle

Kaggle, podružnica tvrtke Google LLC, online je zajednica znanstvenika podataka i stručnjaka za strojno učenje. Kaggle omogućuje korisnicima da pronađu i objavljuju skupove podataka, istražuju i stvaraju modele u podatkovnom okruženju temeljenom na webu; rad s drugim znanstvenicima podataka i Inženjeri strojnog učenja, te sudjelovati u natjecanjima za rješavanje izazova znanosti o podacima.

Kaggle je započeo 2010. godine nudeći natjecanja u strojnom učenju, a sada također nudi i javnost podatkovna platforma, radni stol u oblaku za znanost o podacima i obrazovanje o umjetnoj inteligenciji.

Pretraga skupa podataka

Dataset Search je Googleova tražilica koja pomaže istraživačima locirati online podatke koji su besplatno dostupni za upotrebu. Na webu postoje milijuni skupova podataka o gotovo svakoj temi koja vas zanima.

Ako želite kupiti štene, možete pronaći skupove podataka koji prikupljaju pritužbe kupaca šteneta ili studije o spoznaji šteneta. Ili ako volite skijanje, možete pronaći podatke o prihodima skijališta ili stopi ozljeda i broju sudionika. Pretraživanje skupova podataka indeksiralo je gotovo 25 milijuna ovih skupova podataka, dajući vam jedno mjesto za pretraživanje skupova podataka i pronalaženje veza do mjesta gdje se podaci nalaze.

UCI repozitorijum za strojno učenje

UCI repozitorij strojnog učenja je zbirka baza podataka, teorija domena i generatora podataka koje zajednica strojnog učenja koristi za empirijsku analizu algoritama strojnog učenja. Arhiv je stvoren kao ftp arhiv 1987. od strane Davida Aha i kolega diplomiranih studenata na UC Irvineu.

Od tada ga naširoko koriste studenti, nastavnici i istraživači diljem svijeta kao primarni izvor skupova podataka ML-a. Kao pokazatelj utjecaja arhive, citiran je više od 1000 puta, što ga čini jednim od 100 najcitiranijih "radova" u cijeloj informatičkoj znanosti.

Quandl

Quandl je platforma koja svojim korisnicima pruža ekonomske, financijske i alternativne skupove podataka. Korisnici mogu preuzeti besplatne podatke, kupiti plaćene podatke ili prodati podatke Quandlu. Može biti koristan alat za razvoj algoritmi trgovanja, Na primjer.

Zaključak

Istražujući ove alate, sigurno ćete pronaći sjajne ulazne podatke za svoje projekte. Svakako odaberite skup podataka koji je najprikladniji za vaše specifične potrebe i uvijek imajte na umu: ne radi se samo o količini, već i o kvaliteti. Skup podataka je osnova bilo kojeg Projekt strojnog učenja i bitno je graditi na kvalitetnim podacima kako bi se izbjegao rizik od donošenja pogrešnih zaključaka.

Najbolji skupovi podataka za strojno učenje

14 najboljih skupova podataka za strojno učenje

Osnove skupova podataka