14 legjobb adatkészlet a gépi tanuláshoz

Tartalomjegyzék[Elrejt][Előadás]

Az adatkészletek alapjai
Adatkészletek ML-hez+-
Platformok más adatkészletek kereséséhez+-
Következtetés

Minden Machine Learning projekt egy jó adatkészletre támaszkodik. Ez a nagy adatkészlet teszi lehetővé az ML-modell betanítását és érvényesítését. Tehát egy ML projektben a munka nagy része az Ön igényeinek megfelelő adatkészlet megtalálása. Azonban nem mindig lehet olyan lehetőséget találni, amely megfelel az ambícióinak, mivel sok érdekesnek tűnő fájl végül nem az.

Ijesztő lehet időt pazarolni számtalan adatkészlet letöltésére, amíg meg nem találja az ideális készletet. Ezt szem előtt tartva összegyűjtöttünk néhány érdekesnek tűnő lehetőséget, amelyek segíthetnek ML projektjének fejlesztésében. Vegye figyelembe, hogy néhányat személyes, nem pedig kereskedelmi használatra szánnak, ezért tekintse ezeket a lehetőségeket, hogy tapasztalatokat szerezzen az ML univerzumban.

Az adatkészletek alapjai

Mielőtt az adatkészleteket említenénk, meg kell határoznunk néhány fogalmat. Főleg a mesterséges intelligencia projektekben Gépi tanulás, nagy mennyiségű adatra van szükség, amelyet az algoritmus betanításához használunk fel. Ezt az adatmennyiséget egy adatbázisban gyűjtik össze, ami rendkívül hasznos egy algoritmus tanításához.

Ezekkel az adatokkal az algoritmus betanítva – tesztelve is – képessé válik a minták megtalálására, kapcsolatok kialakítására és ezáltal autonóm döntések meghozatalára. Képzés nélkül, Gépi tanulás az algoritmusok nem tudnak semmilyen műveletet végrehajtani. Ezért minél jobbak a képzési adatok, annál jobban fog teljesíteni a modell. Ahhoz, hogy egy adatbázis hasznos legyen a projekt számára, nem a mennyiségről szól, hanem az osztályozásról is.

Ideális esetben az adatokat jól fel kell címkézni. Gondoljunk csak a chatbotok esetére: a nyelvi beillesztés fontos, de gondos szintaktikai elemzést kell végezni, hogy az elkészített algoritmus megértse, ha a beszélgetőpartner szlenget használ. A virtuális asszisztens csak ezután tudja elindítani a választ a felhasználó által kértnek megfelelően.

Adatkészletek generálhatók felmérésekből, felhasználói vásárlási adatokból, szolgáltatásokra hagyott értékelésekből és sok más módon, amelyek lehetővé teszik hasznos információk összegyűjtését oszlopokba és sorokba rendezve egy CSV-fájlban.

Mielőtt elkezdené a tökéletes adatkészlet keresését, fontos, hogy ismerje projektje célját, különösen, ha az egy adott területről származik, például időjárás, pénzügy, egészségügy stb. Ez határozza meg a forrást, ahonnan beszerzi a adatkészlet.

Adatkészletek ML-hez

Chatbot képzés

Egy hatékony chatbothoz hatalmas mennyiségű betanítási adatra van szükség ahhoz, hogy emberi beavatkozás nélkül gyorsan meg tudja oldani a felhasználói kérdéseket. A chatbot-fejlesztés elsődleges szűk keresztmetszete azonban a valósághű, feladatorientált párbeszédadatok beszerzése a gépi tanuláson alapuló rendszerek betanításához.

A párbeszédes adatkészlet kérdések és válaszok formátumban gyűjti az adatokat. Ideális olyan chatbotok képzésére, amelyek automatizált válaszokat adnak a közönségnek. Ezen adatok nélkül a chatbot nem tudja gyorsan megoldani a felhasználói kérdéseket vagy válaszolni a felhasználói kérdésekre emberi beavatkozás nélkül.

Ezekkel az adatkészletekkel a vállalkozások olyan eszközt hozhatnak létre, amely gyors válaszokat ad az ügyfeleknek a hét minden napján, 24 órában, és lényegesen olcsóbb, mintha egy csapat ügyfélszolgálatot végezne.

1. Kérdés-válasz adatkészlet

Ez az adatkészlet Wikipédia-cikkeket, kérdéseket és a hozzájuk tartozó manuálisan generált válaszokat tartalmazza. Ez egy 2008 és 2010 között gyűjtött adatkészlet, amelyben felhasználható tudományos kutatás.

2. Nyelvi adatok

A Language Data a Yahoo által kezelt adatbázis, amely a vállalat egyes szolgáltatásaiból, például a Yahoo! Válasz, amely nyitott közösségként működik a felhasználók számára, hogy kérdéseket és válaszokat tegyenek közzé.

Adatkészletek 1

3. WikiQA

A WikiQA korpusz szintén kérdések és válaszok halmazából áll. A kérdések forrása a Bing, míg a válaszok egy Wikipédia-oldalra hivatkoznak, ahol meg lehet oldani a kezdeti kérdést.

Adatkészletek 2 Összesen több mint 3,000 kérdés és egy 29,258 1,400 mondatból álló halmaz található az adatkészletben, amelyek közül körülbelül XNUMX a megfelelő kérdésre adott válaszként van besorolva.

Kormányzati adatok

A kormányok által generált adatkészletek demográfiai adatokat hoznak, amelyek nagyszerű inputok a társadalmi trendek megértéséhez, a közpolitikák kialakításához és a társadalom fejlesztéséhez kapcsolódó projektekhez. Ez hasznos lehet politikai kampányokhoz, célzott hirdetésekhez vagy piacelemzésekhez.

Ezek az adatkészletek jellemzően anonim adatokat tartalmaznak, így bár a modellek hozzáférhetnek a nyers adatokhoz, nem sértik a személyes adatok védelmét.

4. Data.gov

A 2009-ben indított Data.gov az észak-amerikai adatforrás. Katalógusa lenyűgöző: több mint 218,000 XNUMX adatkészlet, amelyek lehetővé teszik a formátum, címkék, típusok és témák szerinti szegmentálást.

5. EU nyílt adatportál

Az EU nyíltadat-portálja hozzáférést biztosít az Európai Unió intézményei által megosztott nyílt adatokhoz. Ezek olyan adatok, amelyek kereskedelmi és nem kereskedelmi célra is használhatók. A felhasználó rendelkezésére áll több mint 15.5 ezer adatkészlet, amelyek olyan témákat fednek le, mint az egészségügy, az energia, a környezetvédelem, a kultúra és az oktatás.

Egészségügyi adatok

A világszerte zajló egészségügyi válság nyomán az egészségügyi szervezetek által generált adatkészletek elengedhetetlenek az életmentő hatékony megoldások kidolgozásához. Ezek az adatkészletek segíthetnek azonosítani a kockázati tényezőket, kidolgozni a betegségek átviteli mintáit és felgyorsítani a diagnózist.

Ezek az adatkészletek egészségügyi feljegyzéseket, a betegek demográfiai adatait, a betegségek előfordulását, a gyógyszerhasználatot, a táplálkozási értékeket és még sok mást tartalmaznak.

6. Globális Egészségügyi Megfigyelő Intézet

Ez az adatkészlet az Egészségügyi Világszervezet (WHO) kezdeményezése. Nyilvános adatokat szolgáltat az egészség különböző területeiről, olyan témák szerint rendezve, mint az egészségügyi rendszerek, a dohányzás visszaszorítása, az anyaság, a HIV/AIDS stb. Lehetőség van a COVID-19-re vonatkozó adatok lekérdezésére is.

7. CORD-19

A CORD-19 a COVID-19-ről szóló tudományos publikációk és más, az új koronavírussal kapcsolatos cikkek gyűjteménye. Ez egy nyílt adatkészlet, amelynek célja, hogy új betekintést nyerjen a COVID-19-ről.

Adatkészletek7

Gazdasági adatok

A pénzügyi környezettel kapcsolatos adatállományok általában hatalmas mennyiségű információt gyűjtenek össze, hiszen jellemző, hogy régóta gyűjtik őket. Ideálisak gazdasági előrejelzések készítéséhez vagy befektetési trendek megállapításához.

A megfelelő pénzügyi adatkészletekkel a Gépi tanulási modell képes előre jelezni egy adott eszköz viselkedését. Éppen ezért a pénzügyi szektor mindent megtesz egy hatékony ML-modell létrehozása érdekében, hiszen bármi, ami még ésszerûen is megjósolható, dollármilliókat generálhat. A gépi tanulás már előre jelzi a polgárok viselkedését, ami hatással van a döntéshozók munkájuk végzésére.

8. Nemzetközi Valutaalap

Az IMF-adatkészlet számos gazdasági és pénzügyi mutatót, tagállami statisztikákat, valamint egyéb hitel- és árfolyamadatokat tartalmaz.

9. Világbank

A Világbank tárháza különböző adatkészleteket tartalmaz különböző országok gazdasági információival. Több mint 17,000 XNUMX adatkészlet van kontinensekre osztva.

88adatkészlet7

Termék- és szolgáltatásértékelések

A hangulatelemzés számos területen megtalálta alkalmazását, amelyek ma már segítenek a vállalkozásoknak abban, hogy helyesen becsüljék meg ügyfeleik vagy ügyfeleik, és tanuljanak tőlük. A hangulatelemzést egyre gyakrabban használják a közösségi média monitorozására, a márkafigyelésre, az ügyfél hangjára (VoC), az ügyfélszolgálatra és a piackutatásra.

A hangulatelemzés NLP-t használ (neuro-lingvisztikai programozás) módszerek és algoritmusok, amelyek vagy szabályalapúak, hibridek, vagy gépi tanulási technikákra támaszkodnak az adatok adathalmazokból való tanulásához.

A hangulatelemzéshez szükséges adatoknak speciálisnak kell lenniük, és nagy mennyiségben szükségesek. A hangulatelemzés képzési folyamatának legnagyobb kihívása nem a nagy mennyiségű adat megtalálása; ehelyett meg kell keresni a releváns adatkészleteket. Ezeknek az adatkészleteknek a hangulatelemző alkalmazások és felhasználási esetek széles területét kell lefedniük.

10. Amazon vélemények

Ez az adatkészlet körülbelül 35 millió Amazon-értékelést tartalmaz, amelyek egy 18 éves gyűjtött információs időszakot ölelnek fel. Ez egy termék-, felhasználó- és véleménytartalom adatkészlete.

11. Yelp-vélemények

A Yelp a szolgáltatásából gyűjtött információkon alapuló adatkészletet is kínál. Több mint 8 millió vélemény, 1 millió tipp, valamint csaknem 1.5 millió olyan attribútum található, amely a vállalkozásokkal kapcsolatos, például nyitvatartási idő és elérhetőség.

12. IMDB vélemények

Ez az adatbázis több mint 25 ezer filmkritikát tartalmaz képzéshez, további 25 ezret pedig az IMDB oldaláról informálisan vett tesztekhez, filmértékelésekre szakosodott. Kiegészítőként címkézetlen adatokat is kínál.

Adatkészletek az ML első lépéseihez

13. Borminőségi adatkészlet

Ez az adatkészlet az Észak-Portugáliában termelt vörös és zöld borral kapcsolatos információkat tartalmaz. A cél a bor minőségének meghatározása fizikai-kémiai vizsgálatok alapján. Érdekes azok számára, akik szeretnék gyakorolni az előrejelző rendszer létrehozását.

14. Titanic adatkészlet

Ez az adatkészlet a Titanic 887 valós utasának adatait tartalmazza, minden oszlopban megadva, hogy túlélték-e, életkorukat, utasosztályukat, nemüket és a fizetett beszállási díjat. Ez az adatkészlet a Kaggle platform által elindított kihívás része volt, amelynek célja egy olyan modell létrehozása volt, amely képes megjósolni, hogy mely utasok élték túl a Titanic elsüllyedését.

Platformok más adatkészletek kereséséhez

Ha tovább szeretne lépni, és meg akarja találni a saját adatkészletét, a legjobb módszer az, ha átböngészi a leghíresebb adattárakat Gépi tanulás világegyetem:

Kaggle

A Kaggle, a Google LLC leányvállalata adattudósok és gépi tanulási szakemberek online közössége. A Kaggle lehetővé teszi a felhasználók számára, hogy adatkészleteket keressenek és tegyenek közzé, modelleket fedezzenek fel és készítsenek webalapú adattudományi környezetben; együttműködni más adatkutatókkal és Gépi tanulási mérnökök, és részt vesz az adattudományi kihívások megoldására irányuló versenyeken.

A Kaggle 2010-ben indult azzal, hogy gépi tanulási versenyeket kínált, és most már nyilvános is adatplatform, egy felhő alapú munkaasztal adattudományi és mesterséges intelligencia oktatáshoz.

Adatkészlet keresése

A Dataset Search a Google keresőmotorja, amely segít a kutatóknak megtalálni a szabadon felhasználható online adatokat. Az interneten több millió adatkészlet található szinte minden Önt érdeklő témáról.

Ha kiskutyát szeretne vásárolni, találhat olyan adatkészleteket, amelyek a kölyökkutyák vásárlóinak panaszait vagy a kölyökkutya megismeréséről szóló tanulmányokat gyűjtik össze. Vagy ha szereti a síelést, akkor találhat adatokat a síterepek bevételeiről vagy a sérülések arányáról és a részvételi számokról. A Dataset Search majdnem 25 millió ilyen adatkészletet indexelt, így egyetlen helyen kereshet adatkészleteket, és találhat hivatkozásokat az adatok helyére.

UCI Machine Learning Repository

Az UCI Machine Learning Repository adatbázisok, tartományelméletek és adatgenerátorok gyűjteménye, amelyeket a Machine Learning közösség a Machine Learning algoritmusok empirikus elemzésére használ. Az archívumot ftp-archívumként hozták létre 1987-ben David Aha és az UC Irvine végzős hallgatói.

Azóta a diákok, oktatók és kutatók világszerte széles körben használják az ML adatkészletek elsődleges forrásaként. Az archívum hatásának jelzéseként több mint 1000-szer idézték, így a számítástechnika 100 legtöbbet idézett „papírja” közé tartozik.

Quandl

A Quandl egy olyan platform, amely gazdasági, pénzügyi és alternatív adatkészleteket biztosít felhasználóinak. A felhasználók ingyenes adatokat tölthetnek le, fizetett adatokat vásárolhatnak vagy eladhatnak adatokat a Quandl számára. Hasznos eszköz lehet a fejlesztéshez kereskedési algoritmusok, például.

Következtetés

Ha felfedezi ezeket az eszközöket, biztosan nagyszerű inputokat talál projektjeihez. Ügyeljen arra, hogy az Ön konkrét igényeinek leginkább megfelelő adatkészletet válassza ki, és mindig tartsa szem előtt: nem csak a mennyiség, hanem a minőség is fontos. Az adatkészlet mindennek az alapja Gépi tanulási projekt és elengedhetetlen a minőségi adatokra építeni, hogy elkerüljük a hibás következtetések levonását.

A legjobb adatgyűjtések a gépi tanuláshoz

14 legjobb adatkészlet a gépi tanuláshoz

Az adatkészletek alapjai