Sommario[Nascondere][Spettacolo]
Ogni progetto di Machine Learning si basa su un buon set di dati. È questo grande set di dati che ti consentirà di addestrare e convalidare il tuo modello ML. Quindi, gran parte del lavoro in un progetto ML consiste nel trovare il set di dati perfetto per le tue esigenze. Tuttavia, non è sempre possibile trovare un'opzione adatta alle tue ambizioni, poiché molti file che sembrano interessanti, alla fine, non lo sono.
Può essere scoraggiante perdere tempo a scaricare innumerevoli set di dati fino ad arrivare a un set ideale. Con questo in mente, abbiamo raccolto alcune opzioni che sembrano interessanti e possono aiutarti a sviluppare il tuo progetto ML. Tieni presente che alcuni sono destinati all'uso personale anziché commerciale, quindi considera queste opzioni come un modo per acquisire esperienza nell'universo ML.
Nozioni di base sui set di dati
Prima di menzionare i set di dati, dovremmo definire alcuni termini. Nei progetti di Intelligenza Artificiale, in particolare machine Learning, è necessaria una grande quantità di dati, che verranno utilizzati per addestrare l'algoritmo. Questa quantità di dati viene raccolta in un database, estremamente utile per insegnare un algoritmo.
Con questi dati, l'algoritmo viene addestrato - anche testato - e diventa in grado di trovare schemi, stabilire relazioni e quindi prendere decisioni in modo autonomo. Senza formazione, machine Learning gli algoritmi non sono in grado di eseguire alcuna azione. Pertanto, migliori sono i dati di addestramento, migliori saranno le prestazioni del modello. Perché un database sia utile al progetto, non si tratta di quantità: si tratta anche di classificazione.
Idealmente, i dati dovrebbero essere ben etichettati. Pensa al caso dei chatbot: l'inserimento del linguaggio è importante, ma è necessario fare un'attenta analisi sintattica affinché l'algoritmo creato possa capire quando l'interlocutore sta usando lo slang. Solo allora l'assistente virtuale potrà lanciare la risposta secondo quanto richiesto dall'utente.
I dataset possono essere generati da sondaggi, dati di acquisto degli utenti, valutazioni lasciate sui servizi e in molti altri modi che consentono di raccogliere informazioni utili organizzate in colonne e righe in un file CSV.
Prima di partire alla ricerca del set di dati perfetto, è importante che tu conosca lo scopo del tuo progetto, soprattutto se proviene da un'area specifica, come meteo, finanza, salute, ecc. Questo determinerà la fonte da cui reperire il tuo set di dati.
Set di dati per ML
Formazione su chatbot
Un chatbot efficace richiede un'enorme quantità di dati di addestramento per risolvere rapidamente le richieste degli utenti senza l'intervento umano. Tuttavia, il principale collo di bottiglia nello sviluppo di chatbot è l'ottenimento di dati di dialogo realistici e orientati alle attività per addestrare questi sistemi basati su Machine Learning.
Un set di dati conversazionale raccoglie i dati in un formato di domanda e risposta. È l'ideale per addestrare chatbot che forniranno risposte automatiche al pubblico. Senza questi dati, il chatbot non riuscirà a risolvere rapidamente le richieste degli utenti o a rispondere alle domande degli utenti senza la necessità dell'intervento umano.
Utilizzando questi set di dati, le aziende possono creare uno strumento che fornisce risposte rapide ai clienti 24 ore su 7, XNUMX giorni su XNUMX ed è notevolmente più economico rispetto a un team di persone che si occupa dell'assistenza clienti.
1. Set di dati domanda-risposta
Questo set di dati fornisce una serie di articoli di Wikipedia, domande e le rispettive risposte generate manualmente. Si tratta di un set di dati raccolti tra il 2008 e il 2010 per l'uso in ricerca accademica.
2. Dati sulla lingua
Language Data è un database gestito da Yahoo con le informazioni generate da alcuni dei servizi dell'azienda, come Yahoo! Answer, che funziona come una community aperta per consentire agli utenti di pubblicare domande e risposte.
3. WikiQA
Il corpus WikiQA comprende anche una serie di domande e risposte. La fonte delle domande è Bing, mentre le risposte si collegano a una pagina di Wikipedia con il potenziale per risolvere la domanda iniziale.
In totale, ci sono più di 3,000 domande e un insieme di 29,258 frasi nel set di dati, di cui circa 1,400 sono state classificate come risposte a una domanda corrispondente.
Dati del governo
I set di dati generati dai governi portano dati demografici, che sono ottimi input per progetti relativi alla comprensione delle tendenze sociali, alla creazione di politiche pubbliche e al miglioramento della società. Questo può essere utile per campagne politiche, pubblicità mirata o analisi di mercato.
Questi set di dati in genere contengono dati anonimi, quindi mentre i modelli possono accedere ai dati grezzi, non ci sono violazioni della privacy personale.
4. Data.gov
Lanciato nel 2009, Data.gov è la fonte di dati nordamericana. Il suo catalogo è impressionante: oltre 218,000 set di dati che consentono la segmentazione per formato, tag, tipi e argomenti.

5. Portale Open Data dell'UE
Il portale Open Data dell'UE fornisce l'accesso ai dati aperti condivisi dalle istituzioni dell'Unione europea. Questi sono dati che possono essere destinati ad uso commerciale e non commerciale. A disposizione dell'utente sono più di 15.5 mila set di dati, che coprono argomenti come salute, energia, ambiente, cultura e istruzione.
Dati sulla salute
Sulla scia della crisi sanitaria in corso in tutto il mondo, i set di dati generati dalle organizzazioni sanitarie sono essenziali per lo sviluppo di soluzioni efficaci per salvare vite umane. Questi set di dati possono aiutare a identificare i fattori di rischio, elaborare i modelli di trasmissione della malattia e accelerare la diagnosi.
Questi set di dati consistono in cartelle cliniche, dati demografici dei pazienti, prevalenza della malattia, uso di medicinali, valori nutrizionali e molto altro.
6. Osservatorio sulla salute globale
Questo set di dati è un'iniziativa dell'Organizzazione Mondiale della Sanità (OMS). Fornisce dati pubblici relativi a diverse aree della salute, organizzati per temi come sistemi sanitari, controllo del consumo di tabacco, maternità, HIV/AIDS, ecc. C'è anche la possibilità di consultare i dati su COVID-19.

7. CAVO-19
CORD-19 è un corpus di pubblicazioni accademiche su COVID-19 e altri articoli sul nuovo coronavirus. Si tratta di un set di dati aperto destinato a generare nuove informazioni su COVID-19.
Dati economici
I set di dati relativi all'ambiente finanziario di solito raccolgono un'enorme quantità di informazioni, poiché è comune che siano stati raccolti per molto tempo. Sono ideali per creare previsioni economiche o stabilire tendenze di investimento.
Con i giusti set di dati finanziari, a Modello di apprendimento automatico potrebbe essere in grado di prevedere il comportamento di una determinata risorsa. Ecco perché il settore finanziario sta facendo tutto ciò che è in suo potere per creare un modello ML efficace, poiché tutto ciò che può prevedere anche ragionevolmente bene ha il potenziale per generare milioni di dollari. L'apprendimento automatico prevede già il comportamento dei cittadini, il che ha un impatto sul modo in cui i responsabili politici svolgono il proprio lavoro.
8. Fondo monetario internazionale
Il set di dati del FMI contiene una serie di indicatori economici e finanziari, statistiche sui paesi membri e altri dati sui prestiti e sui tassi di cambio.

9. Banca Mondiale
Il repository della Banca Mondiale contiene diversi dataset con informazioni economiche provenienti da diversi paesi. Ci sono più di 17,000 set di dati divisi per continenti.
Recensioni di prodotti e servizi
L'analisi del sentimento ha trovato le sue applicazioni in vari campi che ora stanno aiutando le aziende a stimare e imparare correttamente dai propri clienti o clienti. L'analisi del sentiment viene sempre più utilizzata per il monitoraggio dei social media, il monitoraggio del marchio, la voce del cliente (VoC), il servizio clienti e le ricerche di mercato.
L'analisi del sentimento utilizza la PNL (programmazione neurolinguistica) metodi e algoritmi basati su regole, ibridi o basati su tecniche di Machine Learning per apprendere i dati dai set di dati.
I dati necessari nell'analisi del sentimento dovrebbero essere specializzati e sono richiesti in grandi quantità. La parte più difficile del processo di formazione sull'analisi del sentimento non è trovare dati in grandi quantità; invece, è trovare i set di dati rilevanti. Questi set di dati devono coprire un'ampia area di applicazioni di analisi del sentimento e casi d'uso.
10 Amazon recensioni
Questo set di dati contiene circa 35 milioni di recensioni Amazon, che coprono un periodo di 18 anni di informazioni raccolte. È un set di dati di prodotti, utenti e contenuti di recensioni.

11 Recensioni di Yelp
Yelp offre anche un set di dati basato sulle informazioni raccolte dal suo servizio. Ci sono oltre 8 milioni di recensioni, 1 milione di suggerimenti, oltre a quasi 1.5 milioni di attributi relativi alle attività, come orari di apertura e disponibilità.

12 Recensioni IMDB
Questo database contiene un set di oltre 25mila recensioni di film per la formazione e altri 25mila per i test presi in modo informale dalla pagina IMDB, specializzata in ascolti cinematografici. Offre anche dati senza etichetta come ulteriore.
Set di dati per i primi passi in ML
13 Set di dati sulla qualità del vino
Questo set di dati fornisce informazioni relative al vino, sia rosso che verde, prodotto nel nord del Portogallo. L'obiettivo è definire la qualità del vino sulla base di test fisico-chimici. Interessante per chi vuole esercitarsi nella creazione di un sistema di previsione.
14 Dataset Titanic
Questo set di dati porta i dati di 887 passeggeri reali del Titanic, con ogni colonna che definisce se sono sopravvissuti, la loro età, classe di passeggeri, sesso e la tassa d'imbarco che hanno pagato. Questo set di dati faceva parte di una sfida lanciata dalla piattaforma Kaggle, il cui scopo era creare un modello in grado di prevedere quali passeggeri sono sopravvissuti all'affondamento del Titanic.
Piattaforme per la ricerca di altri set di dati
Se vuoi andare oltre e trovare il tuo set di dati, il modo migliore è sfogliare i repository più famosi del machine Learning universo:
Kaggle
Kaggle, una sussidiaria di Google LLC, è una comunità online di data scientist e professionisti dell'apprendimento automatico. Kaggle consente agli utenti di trovare e pubblicare set di dati, esplorare e creare modelli in un ambiente di scienza dei dati basato sul Web; lavorare con altri data scientist e Ingegneri dell'apprendimento automaticoe partecipa a concorsi per risolvere le sfide della scienza dei dati.
Kaggle ha iniziato nel 2010 offrendo concorsi di Machine Learning e ora offre anche un pubblico piattaforma dati, un ambiente di lavoro basato su cloud per la scienza dei dati e la formazione sull'intelligenza artificiale.
Ricerca set di dati
Dataset Search è un motore di ricerca di Google che aiuta i ricercatori a individuare i dati online liberamente disponibili per l'uso. In tutto il Web, ci sono milioni di set di dati su quasi tutti gli argomenti che ti interessano.
Se stai cercando di acquistare un cucciolo, potresti trovare set di dati che raccolgono i reclami degli acquirenti di cuccioli o studi sulla cognizione del cucciolo. Oppure, se ti piace sciare, potresti trovare dati sui ricavi delle stazioni sciistiche o sui tassi di infortunio e sui numeri di partecipazione. Ricerca set di dati ha indicizzato quasi 25 milioni di questi set di dati, offrendoti un unico posto per cercare i set di dati e trovare collegamenti a dove si trovano i dati.
Deposito UCI di Machine Learning
L'UCI Machine Learning Repository è una raccolta di database, teorie di dominio e generatori di dati utilizzati dalla comunità di Machine Learning per l'analisi empirica di algoritmi di Machine Learning. L'archivio è stato creato come archivio ftp nel 1987 da David Aha e da altri studenti laureati presso la UC Irvine.
Da allora, è stato ampiamente utilizzato da studenti, educatori e ricercatori di tutto il mondo come fonte primaria di set di dati ML. Come indicazione dell'impatto dell'archivio, è stato citato oltre 1000 volte, rendendolo uno dei primi 100 "documenti" più citati in tutta l'informatica.
quandl
Quandl è una piattaforma che fornisce ai suoi utenti set di dati economici, finanziari e alternativi. Gli utenti possono scaricare dati gratuiti, acquistare dati a pagamento o vendere dati a Quandl. Può essere uno strumento utile per lo sviluppo di algoritmi di trading, Per esempio.
Conclusione
Esplorando questi strumenti, sei sicuro di trovare ottimi input per i tuoi progetti. Assicurati di scegliere il set di dati più adatto alle tue esigenze specifiche e tieni sempre presente: non si tratta solo di quantità, ma anche di qualità. Il set di dati è la base di qualsiasi Progetto di apprendimento automatico ed è essenziale basarsi su dati di qualità per evitare il rischio di giungere a conclusioni errate.
Lascia un Commento