Inhaltsverzeechnes[Verstoppen][Show]
All Machine Learning Projet hänkt vun engem gudden Dataset of. Et ass dës grouss Dataset déi Iech erlaabt Ären ML Modell ze trainéieren an ze validéieren. Also, e groussen Deel vun der Aarbecht an engem ML Projet ass de perfekte Dataset fir Är Bedierfnesser ze fannen. Wéi och ëmmer, et ass net ëmmer méiglech eng Optioun ze fannen déi Är Ambitioun passt, well vill Dateien déi interessant ausgesinn am Endeffekt net sinn.
Et kann beängschtegend sinn Zäit ze verschwenden fir eng Onmass Datesätz erofzelueden bis Dir bei engem ideale Set ukommt. Mat deem vergiessen hu mir e puer Optiounen gesammelt déi interessant schéngen an Iech hëllefe kënnen Äre ML Projet z'entwéckelen. Bedenkt datt e puer fir perséinlech anstatt kommerziell Notzung geduecht sinn, also kuckt dës Optiounen als e Wee fir Erfahrung am ML Universum ze kréien.
Basics vun Datesets
Ier mir d'Datesätz ernimmen, sollte mir e puer Begrëffer definéieren. A Kënschtlech Intelligenz Projeten, besonnesch Machine Learning, eng grouss Quantitéit un Daten ass erfuerderlech, déi benotzt gi fir den Algorithmus ze trainéieren. Dës Quantitéit un Daten gëtt an enger Datebank gesammelt, wat extrem nëtzlech ass fir en Algorithmus ze léieren.
Mat dësen Donnéeën gëtt den Algorithmus trainéiert - och getest - a gëtt fäeg Musteren ze fannen, Bezéiungen opzebauen an domat autonom Entscheedungen ze treffen. Ouni Training, Machine Learning Algorithmen kënnen keng Handlung ausféieren. Dofir, wat besser d'Trainingsdaten sinn, wat besser de Modell wäert Leeschtunge. Fir datt eng Datebank fir de Projet nëtzlech ass, geet et net ëm d'Quantitéit: et geet och ëm d'Klassifikatioun.
Idealerweis sollten d'Donnéeë gutt markéiert sinn. Denkt un de Fall vun Chatbots: Sproochenaféierung ass wichteg, awer virsiichteg syntaktesch Analyse muss gemaach ginn fir datt den erstallte Algorithmus kann verstoen wann de Gespréichspartner Schlaang benotzt. Nëmmen da kann de virtuelle Assistent d'Äntwert lancéieren no deem wat vum Benotzer gefrot gouf.
Datesets kënne generéiert ginn aus Ëmfroen, Benotzerkaafdaten, Evaluatioune lénks op Servicer, a vill aner Weeër, déi et erlaben nëtzlech Informatioun ze sammelen, organiséiert a Kolonnen a Reihen an enger CSV Datei.
Ier Dir op d'Sich no der perfekter Datesaz setzt, ass et wichteg datt Dir den Zweck vun Ärem Projet wësst, besonnesch wann et aus engem spezifesche Beräich ass, wéi Wieder, Finanzen, Gesondheet, asw. Dëst wäert d'Quell diktéieren, aus där Dir Är Quell kritt dataset.
Datensets fir ML
Chatbot Training
En effektive Chatbot erfuerdert eng massiv Quantitéit un Trainingsdaten fir séier Benotzerfroen ouni mënschlech Interventioun ze léisen. Wéi och ëmmer, de primäre Flaschenhals an der Chatbot-Entwécklung ass realistesch, Aufgab-orientéiert Dialogdaten ze kréien fir dës Machine Learning-baséiert Systemer ze trainéieren.
E Gespréichsdates sammelt Daten an engem Fro an Äntwert Format. Et ass ideal fir Chatbots ze trainéieren déi automatiséiert Äntwerten dem Publikum ginn. Ouni dës Donnéeën wäert de Chatbot net séier Benotzerfroen léisen oder Benotzerfroen beäntweren ouni de Besoin fir mënschlech Interventioun.
Mat dësen Datesätz kënnen d'Geschäfter en Tool erstellen dat séier Äntwerten u Clienten 24/7 liwwert an wesentlech méi bëlleg ass wéi eng Team vu Leit déi Clientssupport maachen.
1. Fro-Äntwert Dataset
Dësen Dataset bitt eng Rei vu Wikipedia Artikelen, Froen an hir jeeweileg manuell generéiert Äntwerten. Et ass en Dataset gesammelt tëscht 2008 an 2010 fir ze benotzen an akademesch Fuerschung.
2. Sprooch Daten
Language Data ass eng Datebank geréiert vun Yahoo mat Informatioun generéiert aus e puer vun de Servicer vun der Firma, wéi Yahoo! Äntwert, déi funktionnéiert als eng oppe Gemeinschaft fir Benotzer fir Froen an Äntwerten ze posten.
3. WikiQA
De WikiQA Corpus besteet och aus enger Rei vu Froen an Äntwerten. D'Quell vun de Froen ass Bing, während d'Äntwerten op eng Wikipedia Säit verlinke mat dem Potenzial fir déi initial Fro ze léisen.
Am Ganzen sinn et méi wéi 3,000 Froen an eng Rei vun 29,258 Sätz am Dataset, vun deenen ongeféier 1,400 als Äntwerten op eng entspriechend Fro kategoriséiert goufen.
Regierung Donnéeën
Datesets generéiert vu Regierunge bréngen demographesch Donnéeën, déi super Input fir Projete sinn am Zesummenhang mat der Verständnis vu sozialen Trends, Schafung vun ëffentleche Politiken a Verbesserung vun der Gesellschaft. Dëst kann nëtzlech sinn fir politesch Campagnen, gezielte Reklammen oder Maartanalyse.
Dës Datesätz enthalen typesch anonymiséiert Donnéeën, sou datt d'Modeller Zougang zu de Matière Daten kréien, et gi keng Violatioune vu perséinlecher Privatsphär.
4. Donnéeën.gov
Gestart am Joer 2009, Data.gov ass déi nordamerikanesch Quell fir Daten. Säi Katalog ass beandrockend: méi wéi 218,000 Datesätz déi Segmentatioun no Format, Tags, Typen an Themen erlaben.
5. EU Open Data Portal
Den EU Open Data Portal bitt Zougang zu oppene Donnéeën, déi vun Institutiounen vun der Europäescher Unioun gedeelt ginn. Dëst sinn Donnéeën déi fir kommerziell an net-kommerziell Notzung geduecht kënne ginn. Zu der Verfügung vum Benotzer sinn méi wéi 15.5 Tausend Datesätz, déi Theme wéi Gesondheet, Energie, Ëmwelt, Kultur an Ausbildung iwwerdecken.
Gesondheetsdaten
Am Laf vun der lafender Gesondheets Kris weltwäit, Datesätz generéiert vu Gesondheetsorganisatiounen si wesentlech fir effektiv Léisungen z'entwéckelen fir Liewen ze retten. Dës Datesätz kënnen hëllefen d'Risikofaktoren z'identifizéieren, Krankheetsiwwerdroungsmuster auszeschaffen an d'Diagnos ze beschleunegen.
Dës Datesätz besteet aus Gesondheetsrecords, Demographie vu Patienten, Krankheet Prävalenz, medizinesch Notzung, Ernärungswäerter a vill méi.
6. Global Health Observatory
Dësen Dateset ass eng Initiativ vun der Weltgesondheetsorganisatioun (WHO). Et liwwert ëffentlech Donnéeën am Zesummenhang mat verschiddene Gesondheetsberäicher, organiséiert no Themen wéi Gesondheetssystemer, Tubaksverbrauchskontroll, Maternité, HIV/AIDS, asw. Et gëtt och d'Méiglechkeet fir Daten iwwer COVID-19 ze konsultéieren.
7. CORD-19
CORD-19 ass e Corpus vun akademesche Publikatiounen iwwer COVID-19 an aner Artikelen iwwer den neie Coronavirus. Et ass en oppenen Dataset geduecht fir nei Abléck iwwer COVID-19 ze generéieren.
Wirtschaftsdaten
Datesets am Zesummenhang mat dem finanziellen Ëmfeld sammelen normalerweis eng enorm Quantitéit un Informatioun, well et ass heefeg datt se scho laang gesammelt goufen. Si sinn ideal fir wirtschaftlech Prognosen ze kreéieren oder Investitiounstrends z'etabléieren.
Mat de richtege finanziellen Datesätz, a Machine Learning Modell kéint fäeg sinn d'Behuele vun engem bestëmmte Verméigen virauszesoen. Dofir mécht de Finanzsecteur alles a senger Muecht fir en effektiven ML Modell ze kreéieren, well alles wat souguer raisonnabel viraussoe kann, huet d'Potenzial fir Millioune Dollar ze generéieren. Machine Learning virauszesoen schonn d'Behuele vun de Bierger, wat beaflosst d'Art a Weis wéi Politiker hir Aarbecht maachen.
8. Internationalen Währungsfonds
D'IMF Dataset hält eng Rei vu wirtschaftlechen a finanzielle Indikatoren, Memberstaatstatistiken, an aner Prêt- an Austauschdaten.
9. Weltbank
De Repository vun der Weltbank enthält verschidden Datesätz mat wirtschaftlechen Informatioune vu verschiddene Länner. Et gi méi wéi 17,000 Datesätz opgedeelt duerch Kontinenter.
Produit a Servicer Kritik
D'Sentimentanalyse huet seng Uwendungen a verschiddene Felder fonnt, déi elo Entreprisen hëllefen hir Clienten oder Clienten korrekt ze schätzen an ze léieren. D'Sentimentanalyse gëtt ëmmer méi fir Social Media Iwwerwachung, Marken Iwwerwaachung, d'Stëmm vum Client (VoC), Clientsservice a Maartfuerschung benotzt.
Sentimentanalyse benotzt NLP (neuro-linguistesch Programméierung) Methoden an Algorithmen déi entweder Regelbaséiert, Hybrid sinn oder op Machine Learning Technike vertrauen fir Daten aus Datesets ze léieren.
D'Donnéeën, déi an der Sentimentanalyse gebraucht ginn, solle spezialiséiert sinn a si a grousse Quantitéite erfuerderlech. Deen Erausfuerderung Deel iwwer de Gefillsanalyse Trainingsprozess ass keng Daten a grousse Quantitéiten ze fannen; amplaz, et ass déi relevant Datesätz ze fannen. Dës Datesets musse e breet Gebitt vu Sentimentanalyseapplikatiounen a Gebrauchsfäll ofdecken.
10. Amazon Rezensiounen
Dësen Dataset enthält ongeféier 35 Milliounen Amazon Rezensiounen, iwwer eng 18-Joer Period vu gesammelten Informatioun. Et ass en Dataset vu Produkt, Benotzer, a Bewäertungsinhalt.
11. Yelp Rezensiounen
Yelp bitt och en Dataset baséiert op Informatioun gesammelt vu sengem Service. Et ginn iwwer 8 Millioune Rezensiounen, 1 Millioun Tipps, plus bal 1.5 Milliounen Attributer am Zesummenhang mat Geschäfter, wéi Ëffnungszäiten an Disponibilitéit.
12. IMDB Rezensiounen
Dës Datebank enthält eng Rei vu méi wéi 25 Tausend Filmrezensiounen fir Training an aner 25 Tausend fir Tester informell vun der IMDB Säit geholl, spezialiséiert op Film Bewäertungen. Et bitt och net markéiert Daten als zousätzlech.
Datesets fir déi éischt Schrëtt am ML
13. Wäin Qualitéit Dataset
Dësen Dataset gëtt Informatiounen am Zesummenhang mat Wäin, souwuel rout a gréng, produzéiert am Norde vu Portugal. D'Zil ass d'Wäinqualitéit ze definéieren op Basis vu physikaleschchemeschen Tester. Interessant fir déi, déi wëllen üben e Prognosesystem ze kreéieren.
14. Titanic Dateset
Dës Dataset bréngt Daten vun 887 richtege Passagéier vun der Titanic, mat all Kolonn definéiert ob se iwwerlieft hunn, hiren Alter, Passagéierklass, Geschlecht, an d'Internatgebühr déi se bezuelt hunn. Dësen Dataset war Deel vun enger Erausfuerderung, déi vun der Kaggle Plattform lancéiert gouf, deem säin Zil war e Modell ze kreéieren deen viraussoe kann, wéi eng Passagéier den Ënnergang vun der Titanic iwwerlieft hunn.
Plattforme fir aner Datesets ze fannen
Wann Dir méi wäit wëllt goen an Ären eegene Datesaz fannen, ass de beschte Wee duerch déi bekanntste Repositories vun der Machine Learning Universum:
Kaggle
Kaggle, eng Duechtergesellschaft vu Google LLC, ass eng Online Gemeinschaft vun Datewëssenschaftler a Machine Learning Fachleit. Kaggle erlaabt d'Benotzer Datensätz ze fannen an ze publizéieren, Modeller ze entdecken an ze kreéieren an engem webbaséierten Datewëssenschaftsëmfeld; Aarbecht mat anere Daten Wëssenschaftler an Machine Learning Engineers, a matmaachen u Concoursen fir Datenwëssenschaftsfuerderungen ze léisen.
Kaggle huet am Joer 2010 ugefaang andeems hien Machine Learning Concoursen ubitt a bitt elo och e Public daten Plattform, eng Cloud-baséiert Workbench fir Datewëssenschaft a Kënschtlech Intelligenz Ausbildung.
Dateset Sich
Dataset Search ass eng Sichmotor vu Google déi Fuerscher hëlleft online Daten ze fannen déi fräi verfügbar sinn fir ze benotzen. Iwwer de Web ginn et Millioune Datesätz iwwer bal all Thema dat Iech interesséiert.
Wann Dir sicht e Welpen ze kafen, kënnt Dir Datensätz fannen, déi Reklamatioune vu Welpenkäufer kompiléieren oder Studien iwwer Welpenerkennung. Oder wann Dir Ski gär hutt, kënnt Dir Daten iwwer d'Recetten vun de Ski Resorts oder d'Verletzungsraten an d'Participatiounszuelen fannen. Dataset Search huet bal 25 Millioune vun dësen Datesätz indexéiert, wat Iech eng eenzeg Plaz gëtt fir no Datesets ze sichen a Linken ze fannen wou d'Daten sinn.
UCI Machine Learning Repository
Den UCI Machine Learning Repository ass eng Sammlung vun Datenbanken, Domain Theorien, an Dategeneratoren, déi vun der Machine Learning Gemeinschaft fir d'empiresch Analyse vu Machine Learning Algorithmen benotzt ginn. D'Archiv gouf als ftp Archiv am Joer 1987 vum David Aha a Matbierger Graduéierter Studenten op UC Irvine erstallt.
Zënter där Zäit ass et vill vun Studenten, Educateuren a Fuerscher op der ganzer Welt benotzt ginn als primär Quell vun ML Datesätz. Als Indikatioun fir den Impakt vum Archiv ass et iwwer 1000 Mol zitéiert ginn, wat et zu den Top 100 meescht zitéiert "Pabeieren" an der ganzer Informatik mécht.
Quandl
Quandl ass eng Plattform déi senge Benotzer wirtschaftlech, finanziell an alternativ Datesätz ubitt. D'Benotzer kënnen gratis Daten eroflueden, bezuelte Daten kafen oder Daten op Quandl verkafen. Et kann e nëtzlecht Instrument fir d'Entwécklung vun Handelsalgorithmen, zum Beispill.
Konklusioun
Andeems Dir dës Tools exploréiert, sidd Dir sécher super Inpute fir Är Projeten ze fannen. Vergewëssert Iech de Dataset deen am meeschte gëeegent ass fir Är spezifesch Besoinen an haalt ëmmer am Kapp: et geet net nëmmen ëm Quantitéit, mee och Qualitéit. Den Dataset ass d'Basis vun all Machine Learning Projet an et ass essentiell op Qualitéitsdaten ze bauen fir de Risiko ze vermeiden fir falsch Conclusiounen z'erreechen.
Hannerlooss eng Äntwert