14 cele mai bune seturi de date pentru învățarea automată

Cuprins[Ascunde][Spectacol]

Bazele setului de date
Seturi de date pentru ML+-
Platforme pentru găsirea altor seturi de date+-
Concluzie

Fiecare proiect de învățare automată se bazează pe un set de date bun. Acest set mare de date vă va permite să vă instruiți și să vă validați modelul ML. Deci, o mare parte a muncii într-un proiect ML este găsirea setului de date perfect pentru nevoile dvs. Cu toate acestea, nu este întotdeauna posibil să găsești o opțiune care să se potrivească ambiției tale, așa cum multe fișiere care par interesante, în cele din urmă, nu sunt.

Poate fi descurajan să pierzi timpul descarcând nenumărate seturi de date până când ajungi la un set ideal. Având în vedere acest lucru, am adunat câteva opțiuni care par interesante și vă pot ajuta să vă dezvoltați proiectul ML. Rețineți că unele sunt destinate utilizării personale, nu comerciale, așa că uitați-vă la aceste opțiuni ca pe o modalitate de a câștiga experiență în universul ML.

Bazele setului de date

Înainte de a menționa seturile de date, ar trebui să definim câțiva termeni. În proiectele de inteligență artificială, mai ales Invatare mecanica, este necesară o cantitate mare de date, care vor fi folosite pentru antrenamentul algoritmului. Această cantitate de date este adunată într-o bază de date, ceea ce este extrem de util pentru a preda un algoritm.

Cu aceste date, algoritmul este antrenat – de asemenea testat – și devine capabil să găsească tipare, să stabilească relații și astfel să ia decizii în mod autonom. Fără antrenament, Invatare mecanica algoritmii nu pot efectua nicio acțiune. Prin urmare, cu cât datele de antrenament sunt mai bune, cu atât modelul va funcționa mai bine. Pentru ca o bază de date să fie utilă proiectului, nu este vorba de cantitate: este și de clasificare.

În mod ideal, datele ar trebui să fie bine etichetate. Gândiți-vă la cazul chatbot-urilor: inserarea limbajului este importantă, dar trebuie făcută o analiză sintactică atentă, astfel încât algoritmul creat să înțeleagă când interlocutorul folosește argoul. Abia atunci asistentul virtual va putea lansa răspunsul conform a ceea ce a fost solicitat de utilizator.

Seturile de date pot fi generate din sondaje, date de achiziții ale utilizatorilor, evaluări lăsate pe servicii și în multe alte moduri care permit colectarea de informații utile organizate în coloane și rânduri într-un fișier CSV.

Înainte de a porni în căutarea setului de date perfect, este important să cunoașteți scopul proiectului dvs., mai ales dacă este dintr-o anumită zonă, cum ar fi vremea, finanțele, sănătatea etc. Acest lucru va dicta sursa din care vă veți procura. set de date.

Seturi de date pentru ML

Antrenament chatbot

Un chatbot eficient necesită o cantitate masivă de date de instruire pentru a rezolva rapid întrebările utilizatorilor fără intervenția umană. Cu toate acestea, obstacolul principal în dezvoltarea chatbot este obținerea de date de dialog realiste, orientate spre sarcini pentru a antrena aceste sisteme bazate pe Machine Learning.

Un set de date conversaționale adună date într-un format de întrebare și răspuns. Este ideal pentru antrenarea chatbot-urilor care vor oferi răspunsuri automate audienței. Fără aceste date, chatbot-ul nu va reuși să rezolve rapid întrebările utilizatorilor sau să răspundă la întrebările utilizatorilor fără a fi nevoie de intervenția umană.

Folosind aceste seturi de date, companiile pot crea un instrument care oferă răspunsuri rapide clienților 24/7 și este semnificativ mai ieftin decât a avea o echipă de oameni care oferă asistență pentru clienți.

1. Set de date Întrebare-Răspuns

Acest set de date oferă un set de articole Wikipedia, întrebări și răspunsurile lor generate manual. Este un set de date colectat între 2008 și 2010 pentru utilizare în cercetare academica.

2. Date de limbă

Language Data este o bază de date gestionată de Yahoo cu informații generate de la unele dintre serviciile companiei, cum ar fi Yahoo! Answer, care funcționează ca o comunitate deschisă pentru ca utilizatorii să posteze întrebări și răspunsuri.

Seturi de date 1

3. WikiQA

Corpusul WikiQA constă și într-un set de întrebări și răspunsuri. Sursa întrebărilor este Bing, în timp ce răspunsurile leagă la o pagină Wikipedia cu potențialul de a rezolva întrebarea inițială.

Seturi de date 2 În total, există peste 3,000 de întrebări și un set de 29,258 de propoziții în setul de date, dintre care aproximativ 1,400 au fost clasificate ca răspunsuri la o întrebare corespunzătoare.

Date guvernamentale

Seturile de date generate de guverne aduc date demografice, care sunt intrări excelente pentru proiecte legate de înțelegerea tendințelor sociale, crearea de politici publice și îmbunătățirea societății. Acest lucru poate fi util pentru campanii politice, publicitate direcționată sau analize de piață.

Aceste seturi de date conțin de obicei date anonime, așa că, deși modelele pot accesa datele brute, nu există încălcări ale confidențialității personale.

4. Data.gov

Lansat în 2009, Data.gov este sursa de date din America de Nord. Catalogul său este impresionant: peste 218,000 de seturi de date care permit segmentarea după format, etichete, tipuri și subiecte.

5. Portalul de date deschise al UE

Portalul de date deschise al UE oferă acces la datele deschise partajate de instituțiile Uniunii Europene. Acestea sunt date care pot fi destinate utilizării comerciale și necomerciale. La dispoziția utilizatorului sunt peste 15.5 mii de seturi de date, care acoperă subiecte precum sănătatea, energia, mediul, cultura și educația.

Date de sănătate

În urma crizei de sănătate în curs de desfășurare la nivel mondial, seturile de date generate de organizațiile din domeniul sănătății sunt esențiale pentru dezvoltarea de soluții eficiente pentru a salva vieți. Aceste seturi de date pot ajuta la identificarea factorilor de risc, la stabilirea tiparelor de transmitere a bolii și la accelerarea diagnosticării.

Aceste seturi de date constau din dosarele de sănătate, datele demografice ale pacienților, prevalența bolilor, utilizarea medicamentelor, valorile nutriționale și multe altele.

6. Observatorul Global al Sănătății

Acest set de date este o inițiativă a Organizației Mondiale a Sănătății (OMS). Oferă date publice legate de diferite domenii ale sănătății, organizate pe teme precum sistemele de sănătate, controlul consumului de tutun, maternitatea, HIV/SIDA etc. Există și opțiunea de consultare a datelor despre COVID-19.

7. CORD-19

CORD-19 este un corpus de publicații academice despre COVID-19 și alte articole despre noul coronavirus. Este un set de date deschis menit să genereze noi perspective despre COVID-19.

Seturi de date7

Date economice

Seturile de date legate de mediul financiar adună de obicei o cantitate imensă de informații, deoarece este obișnuit ca acestea să fie adunate de mult timp. Sunt ideale pentru a crea previziuni economice sau pentru a stabili tendințe de investiții.

Cu seturile de date financiare adecvate, a Model de învățare automată ar putea fi capabil să prezică comportamentul unui anumit activ. De aceea, sectorul financiar face tot ce îi stă în putere pentru a crea un model ML eficient, deoarece orice poate prezice chiar și în mod rezonabil de bine are potențialul de a genera milioane de dolari. Învățarea automată prezice deja comportamentul cetățenilor, ceea ce are un impact asupra modului în care factorii de decizie își fac treaba.

8. Fondul Monetar Internațional

Setul de date FMI conține o serie de indicatori economici și financiari, statistici ale țărilor membre și alte date despre împrumuturi și cursuri de schimb.

9. Banca Mondială

Registrul Băncii Mondiale conține diferite seturi de date cu informații economice din diferite țări. Există peste 17,000 de seturi de date împărțite pe continente.

88seturi de date7

Recenzii de produse și servicii

Analiza sentimentelor și-a găsit aplicații în diverse domenii care ajută acum întreprinderile să estimeze și să învețe de la clienții sau clienții lor corect. Analiza sentimentelor este din ce în ce mai utilizată pentru monitorizarea rețelelor sociale, monitorizarea mărcii, vocea clientului (VoC), serviciul pentru clienți și cercetarea de piață.

Analiza sentimentelor folosește NLP (programare neuro-lingvistică) metode și algoritmi care sunt fie bazați pe reguli, fie hibride, fie se bazează pe tehnici de învățare automată pentru a învăța date din seturi de date.

Datele necesare în analiza sentimentelor ar trebui să fie specializate și sunt necesare în cantități mari. Cea mai dificilă parte a procesului de instruire pentru analiza sentimentelor este să nu găsești date în cantități mari; în schimb, este de a găsi seturile de date relevante. Aceste seturi de date trebuie să acopere o arie largă de aplicații de analiză a sentimentelor și cazuri de utilizare.

10. Recenzii Amazon

Acest set de date conține aproximativ 35 de milioane de recenzii Amazon, pe o perioadă de 18 ani de informații colectate. Este un set de date de conținut de produs, utilizator și recenzie.

11. Recenzii Yelp

Yelp oferă, de asemenea, un set de date bazat pe informațiile colectate din serviciul său. Există peste 8 milioane de recenzii, 1 milion de sfaturi, plus aproape 1.5 milioane de atribute legate de afaceri, cum ar fi orele de deschidere și disponibilitatea.

12. Recenzii IMDB

Această bază de date conține un set de peste 25 de mii de recenzii de filme pentru instruire și alte 25 de mii pentru teste luate informal de pe pagina IMDB, specializată în ratinguri de filme. De asemenea, oferă date neetichetate ca suplimentar.

Seturi de date pentru primii pași în ML

13. Set de date privind calitatea vinului

Acest set de date oferă informații legate de vinul, atât roșu, cât și verde, produs în nordul Portugaliei. Scopul este de a defini calitatea vinului pe baza unor teste fizico-chimice. Interesant pentru cei care doresc să exerseze crearea unui sistem de predicție.

14. Setul de date Titanic

Acest set de date aduce date de la 887 de pasageri reali de pe Titanic, fiecare coloană definind dacă au supraviețuit, vârsta, clasa pasagerilor, sexul și taxa de îmbarcare pe care au plătit-o. Acest set de date a făcut parte dintr-o provocare lansată de platforma Kaggle, al cărei scop a fost să creeze un model care ar putea prezice ce pasageri au supraviețuit scufundării Titanicului.

Platforme pentru găsirea altor seturi de date

Dacă doriți să mergeți mai departe și să găsiți propriul set de date, cel mai bun mod este să răsfoiți cele mai cunoscute depozite ale Invatare mecanica univers:

Kaggle

Kaggle, o subsidiară a Google LLC, este o comunitate online de oameni de știință ai datelor și profesioniști în învățarea automată. Kaggle permite utilizatorilor să găsească și să publice seturi de date, să exploreze și să creeze modele într-un mediu de știință a datelor bazat pe web; colaborează cu alți cercetători de date și Ingineri de învățare automatăși participați la concursuri pentru a rezolva provocările științei datelor.

Kaggle a început în 2010 prin a oferi concursuri de Machine Learning și acum oferă și un public platforma de date, un banc de lucru bazat pe cloud pentru educația în știința datelor și a inteligenței artificiale.

Căutare set de date

Dataset Search este un motor de căutare de la Google care îi ajută pe cercetători să găsească date online care sunt disponibile gratuit pentru utilizare. Pe web, există milioane de seturi de date despre aproape orice subiect care vă interesează.

Dacă doriți să cumpărați un cățeluș, puteți găsi seturi de date care compilează plângeri ale cumpărătorilor de cățel sau studii despre cunoașterea cățelului. Sau, dacă vă place să schiați, puteți găsi date despre veniturile stațiunilor de schi sau ratele accidentărilor și numărul de participare. Dataset Search a indexat aproape 25 de milioane dintre aceste seturi de date, oferindu-vă un singur loc pentru a căuta seturi de date și a găsi linkuri către unde se află datele.

Depozitul UCI Machine Learning

Depozitul UCI Machine Learning este o colecție de baze de date, teorii de domeniu și generatoare de date care sunt utilizate de comunitatea Machine Learning pentru analiza empirică a algoritmilor Machine Learning. Arhiva a fost creată ca arhivă ftp în 1987 de David Aha și colegii absolvenți de la UC Irvine.

Din acel moment, a fost utilizat pe scară largă de studenți, educatori și cercetători din întreaga lume ca sursă principală de seturi de date ML. Ca o indicație a impactului arhivei, a fost citată de peste 1000 de ori, făcând-o una dintre primele 100 de „articole” cele mai citate din întreaga informatică.

Cândl

Quandl este o platformă care oferă utilizatorilor săi seturi de date economice, financiare și alternative. Utilizatorii pot descărca date gratuite, pot cumpăra date plătite sau pot vinde date către Quandl. Poate fi un instrument util pentru dezvoltarea algoritmi de tranzacționare, de exemplu.

Concluzie

Explorând aceste instrumente, sunteți sigur că veți găsi intrări grozave pentru proiectele dvs. Asigurați-vă că alegeți setul de date care este cel mai potrivit pentru nevoile dvs. specifice și rețineți întotdeauna: nu este vorba doar de cantitate, ci și de calitate. Setul de date este baza oricărui Proiect de învățare automată și este esențial să se bazeze pe date de calitate pentru a evita riscul de a ajunge la concluzii greșite.

Cele mai bune setări de date pentru învățarea automată

14 cele mai bune seturi de date pentru învățarea automată

Bazele setului de date