Obsah[Skrýt][Ukázat]
Každý projekt strojového učení se spoléhá na dobrou datovou sadu. Je to tato velká datová sada, která vám umožní trénovat a ověřovat váš model ML. Velká část práce v projektu ML je tedy nalezení dokonalé datové sady pro vaše potřeby. Není však vždy možné najít možnost, která odpovídá vašim ambicím, protože mnoho souborů, které vypadají zajímavě, nakonec není.
Může být skličující ztrácet čas stahováním bezpočtu datových sad, dokud nedosáhnete ideální sady. S ohledem na to jsme shromáždili několik možností, které se zdají zajímavé a mohou vám pomoci rozvíjet váš projekt ML. Všimněte si, že některé jsou určeny pro osobní místo pro komerční použití, takže se na tyto možnosti dívejte jako na způsob, jak získat zkušenosti ve vesmíru ML.
Základy datových sad
Než se zmíníme o datových sadách, měli bychom definovat některé pojmy. Zejména v projektech umělé inteligence Strojové učení, je potřeba velké množství dat, která budou použita k trénování algoritmu. Toto množství dat se shromažďuje v databázi, což je velmi užitečné pro výuku algoritmu.
S těmito daty je algoritmus trénován – také testován – a stává se schopným najít vzory, navazovat vztahy, a tak se rozhodovat autonomně. Bez tréninku, Strojové učení Algoritmy nejsou schopny provést žádnou akci. Čím lepší jsou tedy trénovací data, tím lépe bude model fungovat. Aby databáze byla pro projekt užitečná, není to o kvantitě, ale také o klasifikaci.
V ideálním případě by data měla být dobře označena. Zamyslete se nad případem chatbotů: vkládání jazyka je důležité, ale je třeba provést pečlivou syntaktickou analýzu, aby vytvořený algoritmus rozuměl tomu, kdy účastník rozhovoru používá slang. Teprve poté bude moci virtuální asistent spustit odpověď podle toho, co uživatel požadoval.
Datové sady lze generovat z průzkumů, údajů o nákupech uživatelů, hodnocení zanechaných ve službách a mnoha dalšími způsoby, které umožňují shromažďovat užitečné informace uspořádané do sloupců a řádků v souboru CSV.
Než se pustíte do hledání dokonalé datové sady, je důležité, abyste znali účel svého projektu, zvláště pokud pochází z konkrétní oblasti, jako je počasí, finance, zdraví atd. To bude určovat zdroj, ze kterého budete čerpat datový soubor.
Datové sady pro ML
Školení chatbotu
Efektivní chatbot vyžaduje obrovské množství trénovacích dat, aby mohl rychle vyřešit uživatelské dotazy bez lidského zásahu. Primárním úzkým místem ve vývoji chatbotů je však získávání realistických, na úkoly orientovaných dialogových dat pro trénování těchto systémů založených na strojovém učení.
Konverzační datová sada shromažďuje data ve formátu otázek a odpovědí. Je ideální pro školení chatbotů, kteří budou publiku poskytovat automatické odpovědi. Bez těchto údajů se chatbotu nepodaří rychle vyřešit dotazy uživatelů nebo odpovídat na dotazy uživatelů bez nutnosti zásahu člověka.
Pomocí těchto datových sad mohou podniky vytvořit nástroj, který poskytuje rychlé odpovědi zákazníkům 24 hodin denně, 7 dní v týdnu a je výrazně levnější než tým, že by zákaznickou podporu poskytoval tým lidí.
1. Datová sada otázka-odpověď
Tento datový soubor poskytuje sadu článků, otázek a příslušných ručně generovaných odpovědí na Wikipedii. Jedná se o soubor dat shromážděný v letech 2008 až 2010 pro použití v akademický výzkum.
2. Jazyková data
Language Data je databáze spravovaná společností Yahoo s informacemi generovanými z některých služeb společnosti, jako je Yahoo! Odpověď, která funguje jako otevřená komunita pro uživatele, kde mohou zveřejňovat otázky a odpovědi.
3. WikiQA
Korpus WikiQA se také skládá ze sady otázek a odpovědí. Zdrojem otázek je Bing, zatímco odpovědi odkazují na stránku Wikipedie s potenciálem vyřešit úvodní otázku.
Celkem je v datovém souboru více než 3,000 29,258 otázek a soubor 1,400 XNUMX vět, z nichž asi XNUMX XNUMX bylo kategorizováno jako odpovědi na odpovídající otázku.
Vládní data
Datové sady generované vládami přinášejí demografická data, která jsou skvělými vstupy pro projekty související s pochopením společenských trendů, vytvářením veřejných politik a zlepšováním společnosti. To může být užitečné pro politické kampaně, cílenou reklamu nebo analýzu trhu.
Tyto datové sady obvykle obsahují anonymizovaná data, takže i když mají modely přístup k nezpracovaným datům, nedochází k narušení soukromí.
4. Data.gov
Data.gov byla spuštěna v roce 2009 a je severoamerickým zdrojem dat. Jeho katalog je působivý: více než 218,000 XNUMX datových sad, které umožňují segmentaci podle formátu, značek, typů a témat.
5. Portál otevřených dat EU
Portál otevřených dat EU poskytuje přístup k otevřeným datům sdíleným institucemi Evropské unie. Jedná se o data, která mohou být určena pro komerční i nekomerční použití. Uživatel má k dispozici více než 15.5 tisíce datových sad, které pokrývají témata jako zdraví, energetika, životní prostředí, kultura a vzdělávání.
Zdravotní údaje
V návaznosti na pokračující celosvětovou zdravotní krizi jsou datové soubory generované zdravotnickými organizacemi nezbytné pro vývoj účinných řešení pro záchranu životů. Tyto soubory dat mohou pomoci identifikovat rizikové faktory, zjistit vzorce přenosu onemocnění a urychlit diagnostiku.
Tyto datové soubory se skládají ze zdravotních záznamů, demografie pacientů, prevalence onemocnění, užívání léků, nutričních hodnot a mnoho dalšího.
6. Globální zdravotní observatoř
Tento soubor dat je iniciativou Světové zdravotnické organizace (WHO). Poskytuje veřejná data týkající se různých oblastí zdraví, organizovaná podle témat, jako jsou zdravotní systémy, kontrola užívání tabáku, mateřství, HIV/AIDS atd. Je zde také možnost konzultovat údaje o COVID-19.
7. CORD-19
CORD-19 je soubor akademických publikací o COVID-19 a dalších článků o novém koronaviru. Jde o otevřený soubor dat, který má generovat nové poznatky o COVID-19.
Ekonomická data
Datové sady související s finančním prostředím obvykle shromažďují obrovské množství informací, protože je běžné, že jsou shromažďovány dlouhou dobu. Jsou ideální pro vytváření ekonomických předpovědí nebo stanovení investičních trendů.
Se správnými finančními datovými sadami a Model strojového učení může být schopen předvídat chování daného aktiva. Proto finanční sektor dělá vše, co je v jeho silách, aby vytvořil efektivní model ML, protože cokoli, co dokáže i přiměřeně dobře předvídat, má potenciál generovat miliony dolarů. Strojové učení již předpovídá chování občanů, což ovlivňuje způsob, jakým tvůrci politik dělají svou práci.
8. Mezinárodní měnový fond
Datový soubor MMF obsahuje řadu ekonomických a finančních ukazatelů, statistiky členských zemí a další údaje o půjčkách a směnných kurzech.
9. Světová banka
Úložiště Světové banky obsahuje různé soubory dat s ekonomickými informacemi z různých zemí. Existuje více než 17,000 XNUMX datových sad rozdělených podle kontinentů.
Recenze produktů a služeb
Analýza sentimentu našla své uplatnění v různých oblastech, které nyní pomáhají podnikům správně odhadovat a učit se od svých klientů nebo zákazníků. Analýza sentimentu se stále více používá pro monitorování sociálních médií, sledování značky, hlasu zákazníka (VoC), zákaznický servis a průzkum trhu.
Analýza sentimentu využívá NLP (neuro-lingvistické programování) metody a algoritmy, které jsou buď založené na pravidlech, hybridní, nebo se spoléhají na techniky strojového učení při učení dat z datových sad.
Údaje potřebné pro analýzu sentimentu by měly být specializované a jsou vyžadovány ve velkém množství. Nejnáročnější částí tréninkového procesu analýzy sentimentu není vyhledávání dat ve velkém množství; místo toho jde o nalezení příslušných datových sad. Tyto datové soubory musí pokrývat širokou oblast aplikací analýzy sentimentu a případů použití.
10. Amazon Recenze
Tato datová sada obsahuje asi 35 milionů recenzí na Amazonu, které pokrývají 18leté období shromažďování informací. Jedná se o datovou sadu obsahující produkt, uživatele a obsah recenzí.
11. Recenze Yelpu
Yelp také nabízí datovou sadu založenou na informacích získaných z její služby. Existuje více než 8 milionů recenzí, 1 milion tipů a téměř 1.5 milionu atributů souvisejících s podniky, jako je otevírací doba a dostupnost.
12. Recenze IMDB
Tato databáze obsahuje soubor více než 25 tisíc filmových recenzí pro školení a dalších 25 tisíc pro testy převzaté neformálně ze stránky IMDB, specializované na hodnocení filmů. Jako další nabízí také neoznačená data.
Datové sady pro první kroky v ML
13. Soubor údajů o kvalitě vína
Tento soubor údajů poskytuje informace týkající se vína, červeného i zeleného, vyrobeného v severním Portugalsku. Cílem je definovat kvalitu vína na základě fyzikálně-chemických testů. Zajímavé pro ty, kteří si chtějí procvičit tvorbu predikčního systému.
14. Datový soubor Titanic
Tato datová sada přináší data od 887 skutečných cestujících z Titaniku, přičemž každý sloupec definuje, zda přežili, jejich věk, třídu cestujících, pohlaví a palubní poplatek, který zaplatili. Tento soubor dat byl součástí výzvy spuštěné platformou Kaggle, jejímž cílem bylo vytvořit model, který by dokázal předpovědět, kteří cestující přežili potopení Titaniku.
Platformy pro hledání dalších datových sad
Pokud chcete jít dále a najít si vlastní datovou sadu, nejlepší způsob je procházet nejznámějšími repozitáři Strojové učení vesmír:
Kaggle
Kaggle, dceřiná společnost společnosti Google LLC, je online komunita datových vědců a odborníků na strojové učení. Kaggle umožňuje uživatelům vyhledávat a publikovat datové sady, zkoumat a vytvářet modely ve webovém prostředí datové vědy; spolupracovat s dalšími datovými vědci a Inženýři strojového učenía účastnit se soutěží zaměřených na řešení problémů v oblasti datové vědy.
Kaggle začal v roce 2010 nabízením soutěží strojového učení a nyní nabízí i veřejnost datová platforma, cloudový pracovní stůl pro datovou vědu a vzdělávání v oblasti umělé inteligence.
Vyhledávání datové sady
Dataset Search je vyhledávač od Google, který pomáhá výzkumníkům najít online data, která jsou volně dostupná k použití. Na celém webu existují miliony datových sad o téměř jakémkoli tématu, které vás zajímá.
Pokud si chcete koupit štěně, můžete najít datové sady obsahující stížnosti kupujících štěňat nebo studie o poznávání štěňat. Nebo pokud rádi lyžujete, můžete najít údaje o tržbách lyžařských středisek nebo úrazovosti a počtech účasti. Vyhledávání datových sad indexovalo téměř 25 milionů těchto datových sad, což vám poskytuje jediné místo pro vyhledávání datových sad a hledání odkazů na místa, kde se data nacházejí.
UCI Machine Learning Repository
UCI Machine Learning Repository je sbírka databází, doménových teorií a generátorů dat, které používá komunita Machine Learning pro empirickou analýzu algoritmů Machine Learning. Archiv byl vytvořen jako ftp archiv v roce 1987 Davidem Aha a dalšími postgraduálními studenty na UC Irvine.
Od té doby je široce používán studenty, pedagogy a výzkumníky po celém světě jako primární zdroj datových souborů ML. Jako ukazatel dopadu archivu byl tento archiv citován více než 1000krát, což z něj činí jednu ze 100 nejcitovanějších „článků“ v celé počítačové vědě.
Quandle
Quandl je platforma, která svým uživatelům poskytuje ekonomické, finanční a alternativní datové sady. Uživatelé mohou stahovat data zdarma, nakupovat placená data nebo data prodávat Quandlu. Může to být užitečný nástroj pro rozvoj obchodní algoritmy, Například.
Proč investovat do čističky vzduchu?
Prozkoumáním těchto nástrojů jistě najdete skvělé vstupy pro své projekty. Ujistěte se, že vyberete datovou sadu, která je nejvhodnější pro vaše konkrétní potřeby, a vždy mějte na paměti: nejde jen o kvantitu, ale také o kvalitu. Dataset je základem každého Projekt strojového učení a je nezbytné stavět na kvalitních datech, aby se předešlo riziku, že dojde k chybným závěrům.
Napsat komentář