14 Best Datasets per Machine Learning

Table di cuntinutu[Piattà][Mostra]

Fundamenti di Datasets
Datasets per ML+-
Piattaforme per truvà altre datasets+-
cunchiusioni

Ogni prughjettu di Machine Learning si basa in un bonu set di dati. Hè stu grande dataset chì vi permetterà di furmà è cunvalidà u vostru mudellu ML. Dunque, una grande parte di u travagliu in un prughjettu ML hè di truvà u dataset perfettu per i vostri bisogni. Tuttavia, ùn hè micca sempre pussibule di truvà una opzione chì si adatta à a vostra ambizione, cum'è parechji schedari chì pareanu interessanti, à a fine, ùn sò micca.

Pò esse scoraggiante per perdi tempu à scaricà innumerevoli datasets finu à ghjunghje à un set ideale. Cù questu in mente, avemu riunitu alcune opzioni chì parenu interessanti è ponu aiutà à sviluppà u vostru prughjettu ML. Nota chì alcuni sò destinati à l'usu persunale invece di l'usu cummerciale, cusì fighjate queste opzioni cum'è un modu per acquistà sperienza in l'universu ML.

Fundamenti di Datasets

Prima di mintuvà i datasets, duvemu definisce qualchi termini. In i prughjetti di Intelligenza Artificiale, in particulare Locu Machine, una grande quantità di dati hè necessariu, chì serà utilizatu per furmà l'algoritmu. Questa quantità di dati hè riunita in una basa di dati, chì hè assai utile per insignà un algoritmu.

Cù questi dati, l'algoritmu hè furmatu - ancu pruvatu - è diventa capace di truvà mudelli, stabilisce relazioni è cusì piglià decisioni in autonomia. Senza furmazione, Locu Machine l'algoritmi ùn ponu micca fà alcuna azione. Per quessa, u megliu i dati di furmazione, u megliu u mudellu farà. Per una basa di dati per esse utile à u prugettu, ùn si tratta micca di quantità: hè ancu di classificazione.

Ideale, i dati duveranu esse ben etichettati. Pensate à u casu di i chatbots: l'inserimentu di a lingua hè impurtante, ma l'analisi sintattica attenta deve esse fatta per chì l'algoritmu creatu pò capisce quandu l'interlocutore usa slang. Solu allora l'assistente virtuale puderà lancià a risposta secondu ciò chì era dumandatu da l'utilizatore.

I datasets ponu esse generati da sondaggi, dati di compra di l'utilizatori, valutazioni lasciate nantu à i servizii, è in parechje altre manere chì permettenu di cullà infurmazioni utili urganizati in colonne è fila in un schedariu CSV.

Prima di vultà in cerca di u dataset perfettu, hè impurtante chì sapete u scopu di u vostru prughjettu, soprattuttu s'ellu hè da un spaziu specificu, cum'è u tempu, finanzii, salute, etc. Questu averebbe dettate a fonte da quale vi fonti u vostru. set di dati.

Datasets per ML

Formazione di Chatbot

Un chatbot efficace richiede una quantità massiva di dati di furmazione per risolve rapidamente e dumande di l'utilizatori senza intervenzione umana. Tuttavia, u collu di bottiglia primariu in u sviluppu di chatbot hè di ottene dati di dialogu realistichi, orientati à u travagliu per furmà questi sistemi basati in Machine Learning.

Un dataset di cunversazione raccoglie dati in un furmatu di dumande è risposte. Hè ideale per a furmazione di chatbots chì daranu risposte automatizate à l'audienza. Senza questi dati, u chatbot ùn hà micca risolve rapidamente e dumande di l'utilizatori o risponde à e dumande di l'utilizatori senza a necessità di intervenzione umana.

Utilizendu questi datasets, l'imprese ponu creà un strumentu chì furnisce risposte veloci à i clienti 24/7 è hè significativamente più prezzu di avè una squadra di persone chì facenu supportu à i clienti.

1. Dataset di quistione-risposta

Stu dataset furnisce un inseme di articuli Wikipedia, dumande è e so risposti rispettivi generati manualmente. Hè un inseme di dati raccolti trà 2008 è 2010 per l'usu in una ricerca universitaria.

2. Dati di lingua

Language Data hè una basa di dati gestita da Yahoo cù infurmazione generata da alcuni di i servizii di a cumpagnia, cum'è Yahoo! Risposta, chì travaglia cum'è una cumunità aperta per l'utilizatori per postà e dumande è risposte.

Datasets 1

3. WikiQA

U corpus WikiQA hè ancu custituitu da una serie di dumande è risposte. A fonte di e dumande hè Bing, mentre chì e risposte liganu à una pagina di Wikipedia cù u putenziale di risolve a quistione iniziale.

Datasets 2 In totale, ci sò più di 3,000 29,258 dumande è un inseme di 1,400 XNUMX sentenzi in u dataset, di quale circa XNUMX XNUMX sò stati categurizzati cum'è risposte à una quistione currispundenti.

Dati di u guvernu

I datasets generati da i guverni portanu dati demografichi, chì sò grandi inputs per prughjetti ligati à capiscenu i tendenzi suciali, creanu pulitiche publiche è migliurà a sucità. Questu pò esse utile per campagni pulitichi, publicità mirata, o analisi di u mercatu.

Questi datasets cuntenenu tipicamente dati anonimati, cusì mentre i mudelli ponu accede à e dati crudi, ùn ci sò micca violazioni di a privacy persunale.

4. Data.gov

Lanciatu in u 2009, Data.gov hè a fonte nordamericana di dati. U so catalogu hè impressiunanti: più di 218,000 datasets chì permettenu a segmentazione per formatu, tag, tippi è temi.

5. Portale Open Data di l'UE

U Portale Open Data di l'UE furnisce l'accessu à e dati aperti spartuti da istituzioni di l'Unione Europea. Quessi sò dati chì ponu esse destinati à un usu cummerciale è micca cummerciale. À a dispusizione di l'utilizatori sò più di 15.5 mila datasets, chì copre temi cum'è salute, energia, ambiente, cultura è educazione.

Dati sanitarii

In seguitu à a crisa sanitaria in corso in u mondu sanu, i set di dati generati da l'urganisazioni sanitarie sò essenziali per sviluppà suluzioni efficaci per salvà vite. Questi datasets ponu aiutà à identificà i fatturi di risichi, scopre mudelli di trasmissione di e malatie, è accelerà u diagnosticu.

Questi datasets sò custituiti da registri di salute, demugrafia di i pazienti, prevalenza di malatie, usu medicinali, valori nutrizionali, è assai di più.

6. Osservatoriu di a Salute Globale

Stu settore di dati hè una iniziativa di l'Organizazione Mondiale di a Salute (OMS). Fornisce dati publichi in relazione à e diverse aree di salute, urganizata per temi cum'è sistemi di salute, cuntrollu di l'usu di u tabacco, maternità, HIV/AIDS, etc. Ci hè ancu l'opzione di cunsultà dati nantu à COVID-19.

7. CORD-19

CORD-19 hè un corpus di publicazioni accademiche nantu à COVID-19 è altri articuli nantu à u novu coronavirus. Hè un set di dati aperto destinatu à generà novi insights nantu à COVID-19.

set di dati 7

Dati ecunumia

I datasets ligati à l'ambienti finanziarii di solitu riuniscenu una quantità enorme di informazioni, postu chì hè cumunu chì sò stati riuniti per un bellu pezzu. Sò ideali per creà previsioni economiche o stabilisce tendenzi d'investimentu.

Cù i datasets finanziarii ghjusti, a Modellu di Machine Learning puderia esse capaci di predichendu u cumpurtamentu di un attivu datu. Hè per quessa chì u settore finanziariu face tuttu ciò chì hè in u so putere per creà un mudellu ML efficace, cum'è tuttu ciò chì pò predichendu ancu raghjone bè hà u putenziale di generà milioni di dollari. Machine Learning hè digià predichendu u cumpurtamentu di i citadini, chì hà un impattu nantu à a manera chì i pulitici facenu u so travagliu.

8. Fondo Monetariu Internaziunali

L'insieme di dati di l'IMF cuntene una varietà di indicatori ecunomichi è finanziarii, statistiche di i paesi membri, è altri dati di prestitu è di scambiu.

9. U Bancu Mundiali

U repository di u Bancu Munniali cuntene diverse datasets cù infurmazioni ecunomiche da diversi paesi. Ci hè più di 17,000 XNUMX datasets divisi per cuntinenti.

88 set di dati 7

Critiche di prudutti è servizii

L'analisi di sentimentu hà truvatu e so applicazioni in diversi campi chì aiutanu avà l'imprese à stimà è amparà da i so clienti o clienti currettamente. L'analisi di sentimentu hè sempre più utilizata per u monitoraghju di e social media, u monitoraghju di a marca, a voce di u cliente (VoC), u serviziu di u cliente è a ricerca di u mercatu.

L'analisi di sentimenti usa NLP (programmazione neuro-linguistica) i metudi è l'algoritmi chì sò o basati in regula, ibridi, o s'appoghjanu à e tecniche di Machine Learning per amparà dati da datasets.

I dati necessarii in l'analisi di u sentimentu duveranu esse specializati è sò dumandati in grande quantità. A parte più sfida di u prucessu di furmazione di l'analisi di sentimentu ùn hè micca truvà dati in quantità grande; invece, hè di truvà i datasets pertinenti. Questi setti di dati devenu copre una vasta area di applicazioni di analisi di sentimenti è casi d'usu.

10. Recensioni Amazon

Stu dataset cuntene circa 35 milioni di recensioni Amazon, chì copre un periudu di 18 anni di informazioni raccolte. Hè un inseme di dati di u pruduttu, l'utilizatori è u cuntenutu di rivista.

11. Recensioni Yelp

Yelp offre ancu un set di dati basatu annantu à l'infurmazioni raccolte da u so serviziu. Ci hè più di 8 milioni di recensioni, 1 milione di cunsiglii, più quasi 1.5 milioni di attributi ligati à l'imprese, cum'è l'ore di apertura è a dispunibilità.

12. Recensioni IMDB

Questa basa di dati cuntene un inseme di più di 25 mila recensioni di filmi per a furmazione è altri 25 mila per i testi pigliati informalmente da a pagina IMDB, specializata in classificazioni di filmi. Offre ancu dati senza etichetta cum'è un supplementu.

Datasets per i primi passi in ML

13. Dataset di qualità di vinu

Stu dataset furnisce infurmazioni relative à u vinu, rossu è verde, pruduciutu in u nordu di u Portugallu. L'obiettivu hè di definisce a qualità di u vinu basatu nantu à e teste fisicuchimiche. Interessante per quelli chì volenu praticà a creazione di un sistema di prediczione.

14. Dataset Titanic

Stu dataset porta dati da 887 passageri reali da u Titanic, cù ogni colonna chì definisce s'ellu sopravvive, a so età, a classe di passageru, u sessu è a tarifa d'imbarcu chì anu pagatu. Stu dataset facia parte di una sfida lanciata da a piattaforma Kaggle, chì u so scopu era di creà un mudellu chì puderia prediche chì i passageri anu sopravvissutu à l'affondamentu di u Titanic.

Piattaforme per truvà altre datasets

Se vulete andà più luntanu è truvà u vostru propiu dataset, u megliu modu hè di navigà à traversu i repositori più famosi di u Locu Machine universu:

Kaggle

Kaggle, una subsidiaria di Google LLC, hè una cumunità in linea di scientisti di dati è prufessiunali di Machine Learning. Kaggle permette à l'utilizatori di truvà è publicà datasets, scopre è creà mudelli in un ambiente di scienza di dati basatu in u web; travaglià cù altri scientisti di dati è Ingegneri di Machine Learning, è participà à cuncorsi per risolve e sfide di scienza di dati.

Kaggle hà iniziatu in 2010 offrendu cuncorsi di Machine Learning è avà offre ancu un publicu piattaforma di dati, un bancu di travagliu basatu in nuvola per a scienza di i dati è l'educazione di l'Intelligenza Artificiale.

Ricerca di dataset

Dataset Search hè un mutore di ricerca di Google chì aiuta i circadori à localizà e dati in linea chì sò liberamente dispunibili per l'usu. In u web, ci sò milioni di datasets nantu à quasi ogni sughjettu chì vi interessa.

Sè vo circate di cumprà un cucciolo, pudete truvà datasets chì compilanu lagnanza di i cumpratori di cuccioli o studii nantu à a cugnizione di cuccioli. O se ti piace l'esqui, pudete truvà dati nantu à i rivenuti di stazioni di sci o tassi di ferite è numeri di participazione. Dataset Search hà indexatu quasi 25 milioni di sti datasets, dendu un locu unicu per circà i datasets è truvà ligami per induve e dati sò.

Repository UCI Machine Learning

U Repository di Machine Learning UCI hè una cullizzioni di basa di dati, teorii di duminiu è generatori di dati chì sò utilizati da a cumunità di Machine Learning per l'analisi empirica di l'algoritmi di Machine Learning. L'archiviu hè statu creatu cum'è un archiviu ftp in u 1987 da David Aha è altri studienti graduate in UC Irvine.

Da quellu tempu, hè statu largamente utilizatu da i studienti, educatori è circadori in u mondu sanu cum'è una fonte primaria di datasets ML. Comu indicazione di l'impattu di l'archiviu, hè statu citatu più di 1000 volte, facendu unu di i 100 "papers" più citati in tutta l'informatica.

Quandl

Quandl hè una piattaforma chì furnisce i so utilizatori cù datasets ecunomichi, finanziarii è alternativi. L'utilizatori ponu scaricà dati gratuiti, cumprà dati pagati o vende dati à Quandl. Pò esse un strumentu utile per u sviluppu di algoritmi di cummerciu, per esempiu.

cunchiusioni

Esplorendu questi strumenti, site sicuru di truvà grandi inputs per i vostri prughjetti. Assicuratevi di sceglie u dataset chì hè più adattatu per i vostri bisogni specifichi è tenite sempre in mente: ùn si tratta micca solu di quantità, ma ancu di qualità. U dataset hè a basa di qualsiasi Prughjettu di Machine Learning è hè essenziale per custruì nantu à e dati di qualità per evità u risicu di ghjunghje à cunclusioni difettu.

Best Datasests per l'apprendimentu automaticu

14 Best Datasets per Machine Learning

Fundamenti di Datasets