Inhaltsverzeichnis[Ausblenden][Zeigen]
Jedes Machine-Learning-Projekt ist auf einen guten Datensatz angewiesen. Mit diesem großen Datensatz können Sie Ihr ML-Modell trainieren und validieren. Ein großer Teil der Arbeit in einem ML-Projekt besteht also darin, den perfekten Datensatz für Ihre Anforderungen zu finden. Es ist jedoch nicht immer möglich, eine Option zu finden, die Ihren Ambitionen entspricht, da viele Dateien, die interessant aussehen, es letztendlich nicht sind.
Es kann entmutigend sein, Zeit mit dem Herunterladen unzähliger Datensätze zu verschwenden, bis Sie zu einem idealen Satz gelangen. Vor diesem Hintergrund haben wir einige Optionen zusammengestellt, die interessant erscheinen und Ihnen bei der Entwicklung Ihres ML-Projekts helfen können. Beachten Sie, dass einige für den persönlichen und nicht für den kommerziellen Gebrauch bestimmt sind, also sehen Sie sich diese Optionen an, um Erfahrungen im ML-Universum zu sammeln.
Grundlagen von Datensätzen
Bevor wir die Datensätze erwähnen, sollten wir einige Begriffe definieren. Vor allem in Projekten der Künstlichen Intelligenz Maschinelles lernen, ist eine große Datenmenge erforderlich, die zum Trainieren des Algorithmus verwendet wird. Diese Datenmenge wird in einer Datenbank gesammelt, was äußerst nützlich ist, um einen Algorithmus zu lehren.
Mit diesen Daten wird der Algorithmus trainiert – auch getestet – und in die Lage versetzt, Muster zu finden, Zusammenhänge herzustellen und so selbstständig Entscheidungen zu treffen. Ohne Ausbildung, Maschinelles lernen Algorithmen können keine Aktion ausführen. Je besser die Trainingsdaten sind, desto besser ist die Leistung des Modells. Damit eine Datenbank für das Projekt nützlich ist, geht es nicht um Quantität, sondern auch um Klassifizierung.
Idealerweise sollten die Daten gut beschriftet sein. Denken Sie an den Fall von Chatbots: Das Einfügen von Sprachen ist wichtig, aber es muss eine sorgfältige syntaktische Analyse durchgeführt werden, damit der erstellte Algorithmus verstehen kann, wann der Gesprächspartner Slang verwendet. Nur dann kann der virtuelle Assistent die Antwort gemäß der Anfrage des Benutzers starten.
Datensätze können aus Umfragen, Benutzerkaufdaten, Bewertungen von Diensten und auf viele andere Arten generiert werden, die es ermöglichen, nützliche Informationen zu sammeln, die in Spalten und Zeilen in einer CSV-Datei organisiert sind.
Bevor Sie sich auf die Suche nach dem perfekten Datensatz machen, ist es wichtig, dass Sie den Zweck Ihres Projekts kennen, insbesondere wenn es aus einem bestimmten Bereich wie Wetter, Finanzen, Gesundheit usw. stammt. Dies bestimmt die Quelle, aus der Sie Ihren beziehen Datensatz.
Datensätze für ML
Chatbot-Schulung
Ein effektiver Chatbot benötigt eine riesige Menge an Trainingsdaten, um Benutzeranfragen ohne menschliches Eingreifen schnell zu lösen. Der Hauptengpass bei der Entwicklung von Chatbots besteht jedoch darin, realistische, aufgabenorientierte Dialogdaten zu erhalten, um diese auf maschinellem Lernen basierenden Systeme zu trainieren.
Ein Conversational Dataset sammelt Daten in einem Frage-Antwort-Format. Es ist ideal für das Training von Chatbots, die dem Publikum automatisierte Antworten geben. Ohne diese Daten wird der Chatbot Benutzeranfragen nicht schnell lösen oder Benutzerfragen beantworten können, ohne dass ein menschliches Eingreifen erforderlich ist.
Mit diesen Datensätzen können Unternehmen ein Tool erstellen, das Kunden rund um die Uhr schnelle Antworten bietet und erheblich billiger ist, als ein Team von Mitarbeitern für den Kundensupport einzusetzen.
1. Frage-Antwort-Datensatz
Dieser Datensatz enthält eine Reihe von Wikipedia-Artikeln, Fragen und ihre jeweiligen manuell generierten Antworten. Es handelt sich um einen Datensatz, der zwischen 2008 und 2010 zur Verwendung in gesammelt wurde akademische Forschung.
2. Sprachdaten
Language Data ist eine von Yahoo verwaltete Datenbank mit Informationen, die von einigen Diensten des Unternehmens wie Yahoo! Answer, das als offene Community fungiert, in der Benutzer Fragen und Antworten posten können.
3. WikiQA
Das WikiQA-Korpus besteht auch aus einer Reihe von Fragen und Antworten. Die Quelle der Fragen ist Bing, während die Antworten auf eine Wikipedia-Seite verlinken, die das Potenzial hat, die Ausgangsfrage zu lösen.
Insgesamt enthält der Datensatz mehr als 3,000 Fragen und einen Satz von 29,258 Sätzen, von denen etwa 1,400 als Antworten auf eine entsprechende Frage kategorisiert wurden.
Regierungsdaten
Von Regierungen generierte Datensätze liefern demografische Daten, die großartige Inputs für Projekte sind, die sich mit dem Verständnis sozialer Trends, der Gestaltung öffentlicher Richtlinien und der Verbesserung der Gesellschaft befassen. Dies kann für politische Kampagnen, gezielte Werbung oder Marktanalysen nützlich sein.
Diese Datensätze enthalten in der Regel anonymisierte Daten, sodass die Modelle zwar auf die Rohdaten zugreifen können, die Privatsphäre jedoch nicht verletzt wird.
4. Data.gov
Data.gov wurde 2009 gegründet und ist die nordamerikanische Quelle für Daten. Sein Katalog ist beeindruckend: mehr als 218,000 Datensätze, die eine Segmentierung nach Format, Tags, Typen und Themen ermöglichen.
5. EU-Portal für offene Daten
Das EU Open Data Portal bietet Zugang zu offenen Daten, die von Institutionen der Europäischen Union geteilt werden. Dies sind Daten, die für eine kommerzielle und nichtkommerzielle Nutzung bestimmt sein können. Dem Nutzer stehen mehr als 15.5 Tausend Datensätze zu Themen wie Gesundheit, Energie, Umwelt, Kultur und Bildung zur Verfügung.
Gesundheitsdaten
Im Zuge der anhaltenden Gesundheitskrise weltweit sind von Gesundheitsorganisationen generierte Datensätze unerlässlich, um wirksame Lösungen zur Rettung von Leben zu entwickeln. Diese Datensätze können helfen, Risikofaktoren zu identifizieren, Krankheitsübertragungsmuster zu ermitteln und die Diagnose zu beschleunigen.
Diese Datensätze bestehen aus Krankenakten, Patientendemografien, Krankheitsprävalenz, medizinischer Verwendung, Nährwerten und vielem mehr.
6. Globales Gesundheitsobservatorium
Dieser Datensatz ist eine Initiative der Weltgesundheitsorganisation (WHO). Es bietet öffentliche Daten zu verschiedenen Gesundheitsbereichen, geordnet nach Themen wie Gesundheitssysteme, Eindämmung des Tabakkonsums, Mutterschaft, HIV/AIDS usw. Es besteht auch die Möglichkeit, Daten zu COVID-19 einzusehen.
7. KABEL-19
CORD-19 ist ein Korpus wissenschaftlicher Veröffentlichungen zu COVID-19 und anderer Artikel über das neue Coronavirus. Es handelt sich um einen offenen Datensatz, der neue Erkenntnisse zu COVID-19 generieren soll.
Wirtschaftsdaten
Datensätze im Zusammenhang mit dem Finanzumfeld enthalten normalerweise eine große Menge an Informationen, da sie in der Regel über einen langen Zeitraum gesammelt wurden. Sie sind ideal, um Wirtschaftsprognosen zu erstellen oder Anlagetrends zu ermitteln.
Mit den richtigen Finanzdatensätzen a Modell des maschinellen Lernens möglicherweise in der Lage sein, das Verhalten eines bestimmten Vermögenswerts vorherzusagen. Aus diesem Grund tut der Finanzsektor alles in seiner Macht Stehende, um ein effektives ML-Modell zu erstellen, da alles, was auch nur halbwegs gut vorhersagen kann, das Potenzial hat, Millionen von Dollar zu generieren. Maschinelles Lernen sagt bereits das Verhalten von Bürgern voraus, was sich auf die Art und Weise auswirkt, wie politische Entscheidungsträger ihre Arbeit erledigen.
8. Internationaler Währungsfonds
Der IWF-Datensatz enthält eine Reihe von Wirtschafts- und Finanzindikatoren, Statistiken der Mitgliedsländer und andere Kredit- und Wechselkursdaten.
9. Weltbank
Das Repository der Weltbank enthält verschiedene Datensätze mit Wirtschaftsinformationen aus verschiedenen Ländern. Es gibt mehr als 17,000 Datensätze, die nach Kontinenten unterteilt sind.
Bewertungen von Produkten und Dienstleistungen
Die Stimmungsanalyse hat ihre Anwendungen in verschiedenen Bereichen gefunden, die Unternehmen dabei helfen, ihre Kunden oder Kunden richtig einzuschätzen und von ihnen zu lernen. Die Stimmungsanalyse wird zunehmend für Social Media Monitoring, Markenbeobachtung, die Stimme des Kunden (VoC), Kundenservice und Marktforschung eingesetzt.
Die Stimmungsanalyse verwendet NLP (neurolinguistische Programmierung) Methoden und Algorithmen, die entweder regelbasiert oder hybrid sind oder sich auf Techniken des maschinellen Lernens stützen, um Daten aus Datensätzen zu lernen.
Die für die Stimmungsanalyse benötigten Daten sollten spezialisiert sein und werden in großen Mengen benötigt. Der schwierigste Teil des Sentimentanalyse-Trainingsprozesses besteht nicht darin, Daten in großen Mengen zu finden; Stattdessen sollen die relevanten Datensätze gefunden werden. Diese Datensätze müssen einen weiten Bereich von Anwendungen und Anwendungsfällen der Stimmungsanalyse abdecken.
10 Amazon Bewertungen
Dieser Datensatz enthält etwa 35 Millionen Amazon-Rezensionen aus einem Zeitraum von 18 Jahren gesammelter Informationen. Es ist ein Datensatz mit Produkt-, Benutzer- und Bewertungsinhalten.
11 Yelp Bewertungen
Yelp bietet auch einen Datensatz an, der auf Informationen basiert, die von seinem Dienst gesammelt wurden. Es gibt über 8 Millionen Bewertungen, 1 Million Tipps und fast 1.5 Millionen Attribute zu Unternehmen wie Öffnungszeiten und Verfügbarkeit.
12 IMDB Bewertungen
Diese Datenbank enthält eine Reihe von mehr als 25 Filmkritiken für Schulungen und weitere 25 für Tests, die informell von der IMDB-Seite entnommen wurden, die auf Filmbewertungen spezialisiert ist. Es bietet auch unbeschriftete Daten als Zusatz an.
Datensätze für die ersten Schritte in ML
13 Datensatz zur Weinqualität
Dieser Datensatz enthält Informationen zu Weinen, sowohl roten als auch grünen, die in Nordportugal hergestellt werden. Ziel ist es, die Weinqualität anhand physikalisch-chemischer Untersuchungen zu definieren. Interessant für diejenigen, die das Erstellen eines Vorhersagesystems üben möchten.
14 Titanic-Datensatz
Dieser Datensatz enthält Daten von 887 echten Passagieren der Titanic, wobei jede Spalte definiert, ob sie überlebt haben, ihr Alter, ihre Passagierklasse, ihr Geschlecht und die bezahlte Einstiegsgebühr. Dieser Datensatz war Teil einer von der Kaggle-Plattform gestarteten Herausforderung, deren Ziel es war, ein Modell zu erstellen, das vorhersagen konnte, welche Passagiere den Untergang der Titanic überlebten.
Plattformen zum Auffinden anderer Datensätze
Wenn Sie weiter gehen und Ihren eigenen Datensatz finden möchten, stöbern Sie am besten in den berühmtesten Repositories der Maschinelles lernen Universum:
Kaggle
Kaggle, eine Tochtergesellschaft von Google LLC, ist eine Online-Community von Datenwissenschaftlern und Fachleuten für maschinelles Lernen. Kaggle ermöglicht Benutzern das Suchen und Veröffentlichen von Datensätzen sowie das Erkunden und Erstellen von Modellen in einer webbasierten Data-Science-Umgebung. mit anderen Data Scientists zusammenarbeiten und Ingenieure für maschinelles Lernen, und nehmen Sie an Wettbewerben teil, um datenwissenschaftliche Herausforderungen zu lösen.
Kaggle begann 2010 mit dem Anbieten von Machine-Learning-Wettbewerben und bietet nun auch ein Publikum an Datenplattform, eine Cloud-basierte Workbench für Data Science und KI-Bildung.
Datensatzsuche
Dataset Search ist eine Suchmaschine von Google, die Forschern dabei hilft, frei verfügbare Online-Daten zu finden. Überall im Internet gibt es Millionen von Datensätzen zu fast jedem Thema, das Sie interessiert.
Wenn Sie einen Welpen kaufen möchten, finden Sie Datensätze mit Beschwerden von Welpenkäufern oder Studien zur Welpenkognition. Oder wenn Sie gerne Ski fahren, finden Sie Daten zu den Einnahmen von Skigebieten oder zu Verletzungs- und Teilnehmerzahlen. Die Datensatzsuche hat fast 25 Millionen dieser Datensätze indiziert, sodass Sie an einem einzigen Ort nach Datensätzen suchen und Links zu den Daten finden können.
UCI-Repository für maschinelles Lernen
Das UCI Machine Learning Repository ist eine Sammlung von Datenbanken, Domänentheorien und Datengeneratoren, die von der Machine Learning Community für die empirische Analyse von Machine Learning-Algorithmen verwendet werden. Das Archiv wurde 1987 von David Aha und anderen Doktoranden der UC Irvine als FTP-Archiv erstellt.
Seit dieser Zeit wird es von Studenten, Pädagogen und Forschern auf der ganzen Welt als primäre Quelle für ML-Datensätze verwendet. Als Hinweis auf die Wirkung des Archivs wurde es über 1000 Mal zitiert, was es zu einem der 100 meistzitierten „Papiere“ in der gesamten Informatik macht.
Quandli
Quandl ist eine Plattform, die ihren Nutzern Wirtschafts-, Finanz- und alternative Datensätze zur Verfügung stellt. Nutzer können kostenlose Daten herunterladen, kostenpflichtige Daten kaufen oder Daten an Quandl verkaufen. Es kann ein nützliches Werkzeug für die Entwicklung von sein HandelsalgorithmenZum Beispiel.
Zusammenfassung
Wenn Sie diese Tools erkunden, finden Sie mit Sicherheit großartige Eingaben für Ihre Projekte. Achten Sie darauf, den für Ihre spezifischen Bedürfnisse am besten geeigneten Datensatz zu wählen und denken Sie immer daran: Es geht nicht nur um Quantität, sondern auch um Qualität. Der Datensatz ist die Basis jeglicher Projekt zum maschinellen Lernen und es ist wichtig, auf qualitativ hochwertigen Daten aufzubauen, um das Risiko zu vermeiden, zu falschen Schlussfolgerungen zu gelangen.
Hinterlassen Sie uns einen Kommentar