Die 14 besten Datensätze für maschinelles Lernen

Inhaltsverzeichnis[Ausblenden][Zeigen]

Grundlagen von Datensätzen
Datensätze für ML+-
Plattformen zum Auffinden anderer Datensätze+-
Zusammenfassung

Jedes Machine-Learning-Projekt ist auf einen guten Datensatz angewiesen. Mit diesem großen Datensatz können Sie Ihr ML-Modell trainieren und validieren. Ein großer Teil der Arbeit in einem ML-Projekt besteht also darin, den perfekten Datensatz für Ihre Anforderungen zu finden. Es ist jedoch nicht immer möglich, eine Option zu finden, die Ihren Ambitionen entspricht, da viele Dateien, die interessant aussehen, es letztendlich nicht sind.

Es kann entmutigend sein, Zeit mit dem Herunterladen unzähliger Datensätze zu verschwenden, bis Sie zu einem idealen Satz gelangen. Vor diesem Hintergrund haben wir einige Optionen zusammengestellt, die interessant erscheinen und Ihnen bei der Entwicklung Ihres ML-Projekts helfen können. Beachten Sie, dass einige für den persönlichen und nicht für den kommerziellen Gebrauch bestimmt sind, also sehen Sie sich diese Optionen an, um Erfahrungen im ML-Universum zu sammeln.

Grundlagen von Datensätzen

Bevor wir die Datensätze erwähnen, sollten wir einige Begriffe definieren. Vor allem in Projekten der Künstlichen Intelligenz Maschinelles lernen, ist eine große Datenmenge erforderlich, die zum Trainieren des Algorithmus verwendet wird. Diese Datenmenge wird in einer Datenbank gesammelt, was äußerst nützlich ist, um einen Algorithmus zu lehren.

Mit diesen Daten wird der Algorithmus trainiert – auch getestet – und in die Lage versetzt, Muster zu finden, Zusammenhänge herzustellen und so selbstständig Entscheidungen zu treffen. Ohne Ausbildung, Maschinelles lernen Algorithmen können keine Aktion ausführen. Je besser die Trainingsdaten sind, desto besser ist die Leistung des Modells. Damit eine Datenbank für das Projekt nützlich ist, geht es nicht um Quantität, sondern auch um Klassifizierung.

Idealerweise sollten die Daten gut beschriftet sein. Denken Sie an den Fall von Chatbots: Das Einfügen von Sprachen ist wichtig, aber es muss eine sorgfältige syntaktische Analyse durchgeführt werden, damit der erstellte Algorithmus verstehen kann, wann der Gesprächspartner Slang verwendet. Nur dann kann der virtuelle Assistent die Antwort gemäß der Anfrage des Benutzers starten.

Datensätze können aus Umfragen, Benutzerkaufdaten, Bewertungen von Diensten und auf viele andere Arten generiert werden, die es ermöglichen, nützliche Informationen zu sammeln, die in Spalten und Zeilen in einer CSV-Datei organisiert sind.

Bevor Sie sich auf die Suche nach dem perfekten Datensatz machen, ist es wichtig, dass Sie den Zweck Ihres Projekts kennen, insbesondere wenn es aus einem bestimmten Bereich wie Wetter, Finanzen, Gesundheit usw. stammt. Dies bestimmt die Quelle, aus der Sie Ihren beziehen Datensatz.

Datensätze für ML

Chatbot-Schulung

Ein effektiver Chatbot benötigt eine riesige Menge an Trainingsdaten, um Benutzeranfragen ohne menschliches Eingreifen schnell zu lösen. Der Hauptengpass bei der Entwicklung von Chatbots besteht jedoch darin, realistische, aufgabenorientierte Dialogdaten zu erhalten, um diese auf maschinellem Lernen basierenden Systeme zu trainieren.

Ein Conversational Dataset sammelt Daten in einem Frage-Antwort-Format. Es ist ideal für das Training von Chatbots, die dem Publikum automatisierte Antworten geben. Ohne diese Daten wird der Chatbot Benutzeranfragen nicht schnell lösen oder Benutzerfragen beantworten können, ohne dass ein menschliches Eingreifen erforderlich ist.

Mit diesen Datensätzen können Unternehmen ein Tool erstellen, das Kunden rund um die Uhr schnelle Antworten bietet und erheblich billiger ist, als ein Team von Mitarbeitern für den Kundensupport einzusetzen.

1. Frage-Antwort-Datensatz

Dieser Datensatz enthält eine Reihe von Wikipedia-Artikeln, Fragen und ihre jeweiligen manuell generierten Antworten. Es handelt sich um einen Datensatz, der zwischen 2008 und 2010 zur Verwendung in gesammelt wurde akademische Forschung.

2. Sprachdaten

Language Data ist eine von Yahoo verwaltete Datenbank mit Informationen, die von einigen Diensten des Unternehmens wie Yahoo! Answer, das als offene Community fungiert, in der Benutzer Fragen und Antworten posten können.

Datensätze 1

3. WikiQA

Das WikiQA-Korpus besteht auch aus einer Reihe von Fragen und Antworten. Die Quelle der Fragen ist Bing, während die Antworten auf eine Wikipedia-Seite verlinken, die das Potenzial hat, die Ausgangsfrage zu lösen.

Datensätze 2 Insgesamt enthält der Datensatz mehr als 3,000 Fragen und einen Satz von 29,258 Sätzen, von denen etwa 1,400 als Antworten auf eine entsprechende Frage kategorisiert wurden.

Regierungsdaten

Von Regierungen generierte Datensätze liefern demografische Daten, die großartige Inputs für Projekte sind, die sich mit dem Verständnis sozialer Trends, der Gestaltung öffentlicher Richtlinien und der Verbesserung der Gesellschaft befassen. Dies kann für politische Kampagnen, gezielte Werbung oder Marktanalysen nützlich sein.

Diese Datensätze enthalten in der Regel anonymisierte Daten, sodass die Modelle zwar auf die Rohdaten zugreifen können, die Privatsphäre jedoch nicht verletzt wird.

4. Data.gov

Data.gov wurde 2009 gegründet und ist die nordamerikanische Quelle für Daten. Sein Katalog ist beeindruckend: mehr als 218,000 Datensätze, die eine Segmentierung nach Format, Tags, Typen und Themen ermöglichen.

5. EU-Portal für offene Daten

Das EU Open Data Portal bietet Zugang zu offenen Daten, die von Institutionen der Europäischen Union geteilt werden. Dies sind Daten, die für eine kommerzielle und nichtkommerzielle Nutzung bestimmt sein können. Dem Nutzer stehen mehr als 15.5 Tausend Datensätze zu Themen wie Gesundheit, Energie, Umwelt, Kultur und Bildung zur Verfügung.

Gesundheitsdaten

Im Zuge der anhaltenden Gesundheitskrise weltweit sind von Gesundheitsorganisationen generierte Datensätze unerlässlich, um wirksame Lösungen zur Rettung von Leben zu entwickeln. Diese Datensätze können helfen, Risikofaktoren zu identifizieren, Krankheitsübertragungsmuster zu ermitteln und die Diagnose zu beschleunigen.

Diese Datensätze bestehen aus Krankenakten, Patientendemografien, Krankheitsprävalenz, medizinischer Verwendung, Nährwerten und vielem mehr.

6. Globales Gesundheitsobservatorium

Dieser Datensatz ist eine Initiative der Weltgesundheitsorganisation (WHO). Es bietet öffentliche Daten zu verschiedenen Gesundheitsbereichen, geordnet nach Themen wie Gesundheitssysteme, Eindämmung des Tabakkonsums, Mutterschaft, HIV/AIDS usw. Es besteht auch die Möglichkeit, Daten zu COVID-19 einzusehen.

7. KABEL-19

CORD-19 ist ein Korpus wissenschaftlicher Veröffentlichungen zu COVID-19 und anderer Artikel über das neue Coronavirus. Es handelt sich um einen offenen Datensatz, der neue Erkenntnisse zu COVID-19 generieren soll.

Datensätze7

Wirtschaftsdaten

Datensätze im Zusammenhang mit dem Finanzumfeld enthalten normalerweise eine große Menge an Informationen, da sie in der Regel über einen langen Zeitraum gesammelt wurden. Sie sind ideal, um Wirtschaftsprognosen zu erstellen oder Anlagetrends zu ermitteln.

Mit den richtigen Finanzdatensätzen a Modell des maschinellen Lernens möglicherweise in der Lage sein, das Verhalten eines bestimmten Vermögenswerts vorherzusagen. Aus diesem Grund tut der Finanzsektor alles in seiner Macht Stehende, um ein effektives ML-Modell zu erstellen, da alles, was auch nur halbwegs gut vorhersagen kann, das Potenzial hat, Millionen von Dollar zu generieren. Maschinelles Lernen sagt bereits das Verhalten von Bürgern voraus, was sich auf die Art und Weise auswirkt, wie politische Entscheidungsträger ihre Arbeit erledigen.

8. Internationaler Währungsfonds

Der IWF-Datensatz enthält eine Reihe von Wirtschafts- und Finanzindikatoren, Statistiken der Mitgliedsländer und andere Kredit- und Wechselkursdaten.

9. Weltbank

Das Repository der Weltbank enthält verschiedene Datensätze mit Wirtschaftsinformationen aus verschiedenen Ländern. Es gibt mehr als 17,000 Datensätze, die nach Kontinenten unterteilt sind.

88 Datensätze7

Bewertungen von Produkten und Dienstleistungen

Die Stimmungsanalyse hat ihre Anwendungen in verschiedenen Bereichen gefunden, die Unternehmen dabei helfen, ihre Kunden oder Kunden richtig einzuschätzen und von ihnen zu lernen. Die Stimmungsanalyse wird zunehmend für Social Media Monitoring, Markenbeobachtung, die Stimme des Kunden (VoC), Kundenservice und Marktforschung eingesetzt.

Die Stimmungsanalyse verwendet NLP (neurolinguistische Programmierung) Methoden und Algorithmen, die entweder regelbasiert oder hybrid sind oder sich auf Techniken des maschinellen Lernens stützen, um Daten aus Datensätzen zu lernen.

Die für die Stimmungsanalyse benötigten Daten sollten spezialisiert sein und werden in großen Mengen benötigt. Der schwierigste Teil des Sentimentanalyse-Trainingsprozesses besteht nicht darin, Daten in großen Mengen zu finden; Stattdessen sollen die relevanten Datensätze gefunden werden. Diese Datensätze müssen einen weiten Bereich von Anwendungen und Anwendungsfällen der Stimmungsanalyse abdecken.

10 Amazon Bewertungen

Dieser Datensatz enthält etwa 35 Millionen Amazon-Rezensionen aus einem Zeitraum von 18 Jahren gesammelter Informationen. Es ist ein Datensatz mit Produkt-, Benutzer- und Bewertungsinhalten.

11 Yelp Bewertungen

Yelp bietet auch einen Datensatz an, der auf Informationen basiert, die von seinem Dienst gesammelt wurden. Es gibt über 8 Millionen Bewertungen, 1 Million Tipps und fast 1.5 Millionen Attribute zu Unternehmen wie Öffnungszeiten und Verfügbarkeit.

12 IMDB Bewertungen

Diese Datenbank enthält eine Reihe von mehr als 25 Filmkritiken für Schulungen und weitere 25 für Tests, die informell von der IMDB-Seite entnommen wurden, die auf Filmbewertungen spezialisiert ist. Es bietet auch unbeschriftete Daten als Zusatz an.

Datensätze für die ersten Schritte in ML

13 Datensatz zur Weinqualität

Dieser Datensatz enthält Informationen zu Weinen, sowohl roten als auch grünen, die in Nordportugal hergestellt werden. Ziel ist es, die Weinqualität anhand physikalisch-chemischer Untersuchungen zu definieren. Interessant für diejenigen, die das Erstellen eines Vorhersagesystems üben möchten.

14 Titanic-Datensatz

Dieser Datensatz enthält Daten von 887 echten Passagieren der Titanic, wobei jede Spalte definiert, ob sie überlebt haben, ihr Alter, ihre Passagierklasse, ihr Geschlecht und die bezahlte Einstiegsgebühr. Dieser Datensatz war Teil einer von der Kaggle-Plattform gestarteten Herausforderung, deren Ziel es war, ein Modell zu erstellen, das vorhersagen konnte, welche Passagiere den Untergang der Titanic überlebten.

Plattformen zum Auffinden anderer Datensätze

Wenn Sie weiter gehen und Ihren eigenen Datensatz finden möchten, stöbern Sie am besten in den berühmtesten Repositories der Maschinelles lernen Universum:

Kaggle

Kaggle, eine Tochtergesellschaft von Google LLC, ist eine Online-Community von Datenwissenschaftlern und Fachleuten für maschinelles Lernen. Kaggle ermöglicht Benutzern das Suchen und Veröffentlichen von Datensätzen sowie das Erkunden und Erstellen von Modellen in einer webbasierten Data-Science-Umgebung. mit anderen Data Scientists zusammenarbeiten und Ingenieure für maschinelles Lernen, und nehmen Sie an Wettbewerben teil, um datenwissenschaftliche Herausforderungen zu lösen.

Kaggle begann 2010 mit dem Anbieten von Machine-Learning-Wettbewerben und bietet nun auch ein Publikum an Datenplattform, eine Cloud-basierte Workbench für Data Science und KI-Bildung.

Datensatzsuche

Dataset Search ist eine Suchmaschine von Google, die Forschern dabei hilft, frei verfügbare Online-Daten zu finden. Überall im Internet gibt es Millionen von Datensätzen zu fast jedem Thema, das Sie interessiert.

Wenn Sie einen Welpen kaufen möchten, finden Sie Datensätze mit Beschwerden von Welpenkäufern oder Studien zur Welpenkognition. Oder wenn Sie gerne Ski fahren, finden Sie Daten zu den Einnahmen von Skigebieten oder zu Verletzungs- und Teilnehmerzahlen. Die Datensatzsuche hat fast 25 Millionen dieser Datensätze indiziert, sodass Sie an einem einzigen Ort nach Datensätzen suchen und Links zu den Daten finden können.

UCI-Repository für maschinelles Lernen

Das UCI Machine Learning Repository ist eine Sammlung von Datenbanken, Domänentheorien und Datengeneratoren, die von der Machine Learning Community für die empirische Analyse von Machine Learning-Algorithmen verwendet werden. Das Archiv wurde 1987 von David Aha und anderen Doktoranden der UC Irvine als FTP-Archiv erstellt.

Seit dieser Zeit wird es von Studenten, Pädagogen und Forschern auf der ganzen Welt als primäre Quelle für ML-Datensätze verwendet. Als Hinweis auf die Wirkung des Archivs wurde es über 1000 Mal zitiert, was es zu einem der 100 meistzitierten „Papiere“ in der gesamten Informatik macht.

Quandli

Quandl ist eine Plattform, die ihren Nutzern Wirtschafts-, Finanz- und alternative Datensätze zur Verfügung stellt. Nutzer können kostenlose Daten herunterladen, kostenpflichtige Daten kaufen oder Daten an Quandl verkaufen. Es kann ein nützliches Werkzeug für die Entwicklung von sein HandelsalgorithmenZum Beispiel.

Zusammenfassung

Wenn Sie diese Tools erkunden, finden Sie mit Sicherheit großartige Eingaben für Ihre Projekte. Achten Sie darauf, den für Ihre spezifischen Bedürfnisse am besten geeigneten Datensatz zu wählen und denken Sie immer daran: Es geht nicht nur um Quantität, sondern auch um Qualität. Der Datensatz ist die Basis jeglicher Projekt zum maschinellen Lernen und es ist wichtig, auf qualitativ hochwertigen Daten aufzubauen, um das Risiko zu vermeiden, zu falschen Schlussfolgerungen zu gelangen.

Die 14 besten Datensätze für maschinelles Lernen

Grundlagen von Datensätzen