14 najlepszych zestawów danych do uczenia maszynowego

Spis treści[Ukryć][Pokazać]

Podstawy zbiorów danych
Zbiory danych dla ML+-
Platformy do wyszukiwania innych zbiorów danych+-
Wnioski

Każdy projekt uczenia maszynowego opiera się na dobrym zestawie danych. To właśnie ten duży zbiór danych pozwoli Ci trenować i weryfikować Twój model ML. Tak więc dużą częścią pracy w projekcie ML jest znalezienie idealnego zestawu danych dla Twoich potrzeb. Jednak nie zawsze można znaleźć opcję pasującą do twoich ambicji, ponieważ wiele plików, które wyglądają interesująco, ostatecznie nie jest.

Marnowanie czasu na pobieranie niezliczonych zestawów danych, dopóki nie znajdziesz idealnego zestawu, może być zniechęcające. Mając to na uwadze, zebraliśmy kilka opcji, które wydają się interesujące i mogą pomóc w rozwoju projektu ML. Pamiętaj, że niektóre są przeznaczone do użytku osobistego, a nie komercyjnego, więc spójrz na te opcje jako sposób na zdobycie doświadczenia w świecie ML.

Podstawy zbiorów danych

Zanim wspomnimy o zbiorach danych, powinniśmy zdefiniować kilka terminów. W szczególności w projektach związanych ze sztuczną inteligencją Nauczanie maszynowe, wymagana jest duża ilość danych, które zostaną wykorzystane do uczenia algorytmu. Ta ilość danych jest gromadzona w bazie danych, co jest niezwykle przydatne do uczenia algorytmu.

Dzięki tym danym algorytm jest szkolony – również testowany – i staje się w stanie znajdować wzorce, nawiązywać relacje, a tym samym samodzielnie podejmować decyzje. Bez szkolenia, Nauczanie maszynowe algorytmy nie są w stanie wykonać żadnej akcji. Dlatego im lepsze dane uczące, tym lepsze będzie działanie modelu. Aby baza danych była użyteczna dla projektu, nie chodzi o ilość: chodzi również o klasyfikację.

Najlepiej byłoby, gdyby dane były dobrze oznakowane. Pomyśl o przypadku chatbotów: wstawianie języka jest ważne, ale należy przeprowadzić uważną analizę składniową, aby stworzony algorytm mógł zrozumieć, kiedy rozmówca używa slangu. Dopiero wtedy wirtualny asystent będzie mógł uruchomić odpowiedź zgodnie z żądaniem użytkownika.

Zestawy danych można generować na podstawie ankiet, danych o zakupach użytkowników, ocen pozostawionych w usługach oraz na wiele innych sposobów, które pozwalają zbierać przydatne informacje zorganizowane w kolumny i wiersze w pliku CSV.

Zanim wyruszysz w poszukiwaniu idealnego zbioru danych, ważne jest, abyś znał cel swojego projektu, zwłaszcza jeśli dotyczy on określonego obszaru, takiego jak pogoda, finanse, zdrowie itp. To będzie dyktować źródło, z którego będziesz czerpać swoje zbiór danych.

Zbiory danych dla ML

Szkolenie chatbota

Skuteczny chatbot wymaga ogromnej ilości danych szkoleniowych, aby szybko rozwiązywać zapytania użytkowników bez interwencji człowieka. Jednak głównym wąskim gardłem w rozwoju chatbota jest uzyskiwanie realistycznych, zorientowanych na zadania danych dialogowych w celu trenowania systemów opartych na uczeniu maszynowym.

Zbiór danych konwersacyjnych gromadzi dane w formacie pytań i odpowiedzi. Idealnie nadaje się do szkolenia chatbotów, które będą udzielać automatycznych odpowiedzi odbiorcom. Bez tych danych chatbot nie będzie w stanie szybko rozwiązywać zapytań użytkowników ani odpowiadać na pytania użytkowników bez konieczności interwencji człowieka.

Korzystając z tych zestawów danych, firmy mogą stworzyć narzędzie, które zapewnia szybkie odpowiedzi klientom 24 godziny na dobę, 7 dni w tygodniu i jest znacznie tańsze niż posiadanie zespołu ludzi zajmujących się obsługą klienta.

1. Zestaw danych pytań i odpowiedzi

Ten zestaw danych zawiera zestaw artykułów Wikipedii, pytań i odpowiednich ręcznie generowanych odpowiedzi. Jest to zestaw danych zebranych w latach 2008-2010 do wykorzystania w badania naukowe.

2. Dane językowe

Language Data to baza danych zarządzana przez Yahoo, zawierająca informacje generowane z niektórych usług firmy, takich jak Yahoo! Odpowiedź, która działa jako otwarta społeczność, w której użytkownicy mogą publikować pytania i odpowiedzi.

Zbiory danych 1

3. WikiQA

Korpus WikiQA składa się również z zestawu pytań i odpowiedzi. Źródłem pytań jest Bing, a odpowiedzi prowadzą do strony Wikipedii, która może rozwiązać początkowe pytanie.

Zbiory danych 2 W sumie w zbiorze danych znajduje się ponad 3,000 pytań i zestaw 29,258 1,400 zdań, z których około XNUMX zostało sklasyfikowanych jako odpowiedzi na odpowiednie pytanie.

Dane rządowe

Zbiory danych generowane przez rządy dostarczają danych demograficznych, które są świetnym wkładem do projektów związanych ze zrozumieniem trendów społecznych, tworzeniem polityk publicznych i poprawą społeczeństwa. Może to być przydatne w kampaniach politycznych, reklamach ukierunkowanych lub analizie rynku.

Te zbiory danych zazwyczaj zawierają dane anonimowe, więc chociaż modele mają dostęp do surowych danych, nie dochodzi do naruszenia prywatności.

4. Data.gov

Uruchomiony w 2009 r. Data.gov jest północnoamerykańskim źródłem danych. Jego katalog jest imponujący: ponad 218,000 XNUMX zestawów danych, które umożliwiają segmentację według formatu, tagów, typów i tematów.

5. Portal Otwartych Danych UE

Portal Otwartych Danych UE zapewnia dostęp do otwartych danych udostępnianych przez instytucje Unii Europejskiej. Są to dane, które mogą być przeznaczone do użytku komercyjnego i niekomercyjnego. Do dyspozycji użytkownika jest ponad 15.5 tys. zbiorów danych obejmujących takie tematy jak zdrowie, energia, środowisko, kultura, edukacja.

Dane dotyczące zdrowia

W obliczu trwającego kryzysu zdrowotnego na całym świecie zbiory danych generowane przez organizacje ochrony zdrowia są niezbędne do opracowywania skutecznych rozwiązań ratujących życie. Te zestawy danych mogą pomóc w identyfikacji czynników ryzyka, opracowaniu wzorców przenoszenia chorób i przyspieszeniu diagnozy.

Te zbiory danych składają się z dokumentacji medycznej, danych demograficznych pacjentów, częstości występowania chorób, stosowania leków, wartości odżywczych i wielu innych.

6. Globalne Obserwatorium Zdrowia

Ten zestaw danych powstał z inicjatywy Światowej Organizacji Zdrowia (WHO). Udostępnia dane publiczne związane z różnymi obszarami zdrowia, uporządkowane według tematów, takich jak systemy opieki zdrowotnej, kontrola używania tytoniu, macierzyństwo, HIV/AIDS itp. Istnieje również możliwość przeglądania danych dotyczących COVID-19.

7. PRZEWÓD-19

CORD-19 to zbiór publikacji naukowych na temat COVID-19 i innych artykułów na temat nowego koronawirusa. Jest to otwarty zbiór danych, którego celem jest generowanie nowych informacji na temat COVID-19.

Zbiory danych7

Dane ekonomiczne

Zbiory danych związane ze środowiskiem finansowym zwykle gromadzą ogromną ilość informacji, ponieważ często są one gromadzone przez długi czas. Idealnie nadają się do tworzenia prognoz ekonomicznych lub wyznaczania trendów inwestycyjnych.

Dzięki odpowiednim zbiorom danych finansowych, a Model uczenia maszynowego może być w stanie przewidzieć zachowanie danego zasobu. Dlatego sektor finansowy robi wszystko, co w jego mocy, aby stworzyć skuteczny model ML, ponieważ wszystko, co można nawet dość dobrze przewidzieć, może generować miliony dolarów. Uczenie maszynowe już przewiduje zachowanie obywateli, co wpływa na sposób, w jaki decydenci wykonują swoją pracę.

8. Międzynarodowy Fundusz Walutowy

Zbiór danych MFW zawiera szereg wskaźników ekonomicznych i finansowych, statystyki krajów członkowskich oraz inne dane dotyczące kredytów i kursów wymiany.

9. Bank Światowy

Repozytorium Banku Światowego zawiera różne zbiory danych z informacjami gospodarczymi z różnych krajów. Istnieje ponad 17,000 XNUMX zbiorów danych podzielonych na kontynenty.

88zestawów danych7

Recenzje produktów i usług

Analiza nastrojów znalazła zastosowanie w różnych dziedzinach, które obecnie pomagają przedsiębiorstwom prawidłowo szacować i uczyć się od swoich klientów lub klientów. Analiza nastrojów jest coraz częściej wykorzystywana do monitorowania mediów społecznościowych, monitorowania marki, głosu klienta (VoC), obsługi klienta i badań rynku.

Analiza nastrojów wykorzystuje NLP (programowanie neurolingwistyczne) metody i algorytmy, które są oparte na regułach, hybrydowe lub opierają się na technikach uczenia maszynowego w celu uczenia się danych z zestawów danych.

Dane potrzebne do analizy sentymentu powinny być wyspecjalizowane i wymagane w dużych ilościach. Najtrudniejszą częścią procesu uczenia analizy nastrojów nie jest znajdowanie dużych ilości danych; zamiast tego jest to znalezienie odpowiednich zbiorów danych. Te zestawy danych muszą obejmować szeroki obszar aplikacji do analizy nastrojów i przypadków użycia.

10. Amazon Recenzje

Ten zbiór danych zawiera około 35 milionów recenzji Amazon obejmujących 18-letni okres zbierania informacji. Jest to zbiór danych dotyczących zawartości produktu, użytkownika i recenzji.

11. Recenzje Yelp

Yelp oferuje również zbiór danych oparty na informacjach zebranych z jego serwisu. Istnieje ponad 8 milionów recenzji, 1 milion wskazówek oraz prawie 1.5 miliona atrybutów związanych z firmami, takich jak godziny otwarcia i dostępność.

12. Recenzje IMDB

Baza ta zawiera zestaw ponad 25 tys. recenzji filmowych do szkoleń i kolejne 25 tys. do testów pobranych nieformalnie ze strony IMDB, specjalizującej się w ocenianiu filmów. Oferuje również dane nieoznakowane jako dodatkowe.

Zestawy danych dla pierwszych kroków w ML

13. Zestaw danych dotyczących jakości wina

Ten zestaw danych dostarcza informacji związanych z winem, zarówno czerwonym, jak i zielonym, produkowanym w północnej Portugalii. Celem jest określenie jakości wina na podstawie testów fizykochemicznych. Ciekawe dla tych, którzy chcą poćwiczyć tworzenie systemu przewidywania.

14. Zbiór danych Titanica

Ten zestaw danych zawiera dane od 887 prawdziwych pasażerów Titanica, przy czym każda kolumna określa, czy przeżyli, ich wiek, klasę pasażerów, płeć i opłatę za wejście na pokład. Ten zbiór danych był częścią wyzwania uruchomionego przez platformę Kaggle, której celem było stworzenie modelu, który mógłby przewidzieć, którzy pasażerowie przeżyli zatonięcie Titanica.

Platformy do wyszukiwania innych zbiorów danych

Jeśli chcesz pójść dalej i znaleźć własny zbiór danych, najlepszym sposobem jest przejrzenie najsłynniejszych repozytoriów Nauczanie maszynowe wszechświat:

Kaggle

Kaggle, spółka zależna Google LLC, to internetowa społeczność naukowców zajmujących się danymi i specjalistów w dziedzinie uczenia maszynowego. Kaggle pozwala użytkownikom znajdować i publikować zestawy danych, eksplorować i tworzyć modele w internetowym środowisku nauki o danych; współpracować z innymi analitykami danych i Inżynierowie uczenia maszynowegoi brać udział w konkursach, aby rozwiązywać wyzwania związane z nauką o danych.

Firma Kaggle rozpoczęła działalność w 2010 roku, oferując konkursy na uczenie maszynowe, a teraz oferuje również publiczność platforma danych, oparte na chmurze środowisko pracy do nauki o danych i edukacji w zakresie sztucznej inteligencji.

Wyszukiwanie zbioru danych

Dataset Search to wyszukiwarka Google, która pomaga badaczom znaleźć dane online, które są swobodnie dostępne do użytku. W sieci istnieją miliony zbiorów danych dotyczących prawie każdego interesującego Cię tematu.

Jeśli chcesz kupić szczeniaka, możesz znaleźć zestawy danych zawierające skargi kupujących szczeniaki lub badania nad poznaniem szczeniaka. A jeśli lubisz jeździć na nartach, możesz znaleźć dane o przychodach ośrodków narciarskich lub wskaźnikach kontuzji i liczbie uczestników. Wyszukiwanie zestawów danych zindeksowało prawie 25 milionów takich zestawów danych, zapewniając jedno miejsce do wyszukiwania zestawów danych i znajdowania linków do miejsc, w których znajdują się dane.

Repozytorium uczenia maszynowego UCI

Repozytorium uczenia maszynowego UCI to zbiór baz danych, teorii domen i generatorów danych, które są używane przez społeczność uczenia maszynowego do empirycznej analizy algorytmów uczenia maszynowego. Archiwum zostało utworzone jako archiwum ftp w 1987 roku przez Davida Aha i kolegów z UC Irvine.

Od tego czasu jest szeroko stosowany przez studentów, nauczycieli i badaczy na całym świecie jako główne źródło zbiorów danych ML. Jako wskazanie wpływu archiwum, zostało ono cytowane ponad 1000 razy, co czyni je jednym ze 100 najczęściej cytowanych „artykułów” w całej informatyce.

Quandl

Quandl to platforma, która zapewnia swoim użytkownikom ekonomiczne, finansowe i alternatywne zbiory danych. Użytkownicy mogą pobierać bezpłatne dane, kupować płatne dane lub sprzedawać dane firmie Quandl. Może być użytecznym narzędziem rozwoju algorytmy handlowe, na przykład.

Wnioski

Eksplorując te narzędzia, z pewnością znajdziesz świetne dane wejściowe do swoich projektów. Pamiętaj, aby wybrać zestaw danych, który najlepiej odpowiada Twoim konkretnym potrzebom, i zawsze pamiętaj: nie chodzi tylko o ilość, ale także o jakość. Zbiór danych jest podstawą każdego Projekt uczenia maszynowego i konieczne jest opieranie się na danych wysokiej jakości, aby uniknąć ryzyka wyciągania błędnych wniosków.

Najlepsze testy danych do uczenia maszynowego

14 najlepszych zestawów danych do uczenia maszynowego

Podstawy zbiorów danych