14 parimat andmestikku masinõppe jaoks

Sisukord[Peida][Näita]

Andmekogumite põhitõed
ML-i andmestikud+-
Platvormid muude andmekogumite leidmiseks+-
Järeldus

Iga masinõppeprojekt tugineb heale andmekogumile. Just see suur andmekogum võimaldab teil oma ML-mudelit koolitada ja kinnitada. Seega moodustab suur osa ML-projekti tööst teie vajadustele sobiva andmestiku leidmine. Siiski ei ole alati võimalik leida valikut, mis sobib teie ambitsioonidega, kuna paljud failid, mis lõpuks tunduvad huvitavad, ei ole seda.

Võib olla hirmutav raisata aega lugematute andmekogumite allalaadimisele, kuni jõuate ideaalse komplektini. Seda silmas pidades oleme kokku kogunud mõned võimalused, mis tunduvad huvitavad ja võivad aidata teil ML-projekti arendada. Pange tähele, et mõned neist on mõeldud isiklikuks, mitte äriliseks kasutamiseks, seega vaadake neid võimalusi ML-i universumis kogemuste saamiseks.

Andmekogumite põhitõed

Enne andmekogude mainimist peaksime määratlema mõned terminid. Eriti tehisintellekti projektides Masinõpe, on vaja suurt hulka andmeid, mida kasutatakse algoritmi treenimiseks. See hulk andmeid kogutakse andmebaasi, mis on väga kasulik algoritmi õpetamiseks.

Nende andmetega on algoritm koolitatud – ka testitud – ning ta suudab leida mustreid, luua suhteid ja seega teha iseseisvalt otsuseid. Ilma koolituseta, Masinõpe algoritmid ei suuda ühtegi toimingut sooritada. Seega, mida paremad on treeninguandmed, seda paremini mudel töötab. Selleks, et andmebaas oleks projekti jaoks kasulik, ei sõltu see kvantiteedist, vaid ka klassifitseerimisest.

Ideaalis peaksid andmed olema hästi märgistatud. Mõelge vestlusrobotite juhtumile: keele sisestamine on oluline, kuid tuleb teha hoolikas süntaktiline analüüs, et loodud algoritm saaks aru, millal vestluskaaslane slängi kasutab. Alles siis saab virtuaalne assistent käivitada vastuse vastavalt kasutaja soovile.

Andmekogumeid saab genereerida küsitlustest, kasutajate ostuandmetest, teenustele jäetud hinnangutest ja paljudel muudel viisidel, mis võimaldavad koguda kasulikku teavet CSV-faili veergude ja ridade kaupa.

Enne täiuslikku andmekogumit otsima asumist on oluline teada oma projekti eesmärki, eriti kui see pärineb konkreetsest piirkonnast, nagu ilm, rahandus, tervis jne. See määrab allika, kust oma andmeid hankite. andmestik.

ML-i andmestikud

Chatbot koolitus

Tõhus vestlusbot nõuab tohutul hulgal koolitusandmeid, et kiiresti lahendada kasutajate päringuid ilma inimese sekkumiseta. Kuid vestlusrobotite arendamise peamine kitsaskoht on nende masinõppepõhiste süsteemide koolitamiseks realistlike, ülesandele orienteeritud dialoogiandmete hankimine.

Vestluse andmestik kogub andmeid küsimuste ja vastuste vormingus. See sobib ideaalselt vestlusrobotite koolitamiseks, mis annavad publikule automatiseeritud vastuseid. Ilma nende andmeteta ei suuda vestlusbot kiiresti lahendada kasutajate päringuid ega vastata kasutajate küsimustele ilma inimese sekkumiseta.

Neid andmekogumeid kasutades saavad ettevõtted luua tööriista, mis pakub klientidele kiireid vastuseid ööpäevaringselt ja on oluliselt odavam kui klienditoega tegelev meeskond.

1. Küsimuste ja vastuste andmekogum

See andmestik sisaldab Vikipeedia artikleid, küsimusi ja nendele vastavaid käsitsi loodud vastuseid. See on andmestik, mis on kogutud aastatel 2008–2010 kasutamiseks akadeemilised uuringud.

2. Keeleandmed

Keeleandmed on Yahoo hallatav andmebaas, mis sisaldab teavet, mis on genereeritud mõnest ettevõtte teenusest, näiteks Yahoo! Answer, mis töötab avatud kogukonnana, kus kasutajad saavad küsimusi ja vastuseid postitada.

Andmestikud 1

3. WikiQA

WikiQA korpus koosneb ka küsimuste ja vastuste komplektist. Küsimuste allikas on Bing, samas kui vastused viitavad Wikipedia lehele, millel on potentsiaal esialgse küsimuse lahendamiseks.

Andmestikud 2 Kokku on andmekogumis üle 3,000 küsimuse ja 29,258 1,400 lausest koosnev kogum, millest umbes XNUMX on liigitatud vastava küsimuse vastusteks.

Valitsuse andmed

Valitsuste loodud andmekogumid toovad kaasa demograafilisi andmeid, mis on suurepäraseks sisendiks sotsiaalsete suundumuste mõistmise, avaliku poliitika loomise ja ühiskonna parandamisega seotud projektide jaoks. See võib olla kasulik poliitiliste kampaaniate, sihitud reklaamide või turuanalüüsi jaoks.

Need andmekogumid sisaldavad tavaliselt anonüümseid andmeid, nii et kuigi mudelid pääsevad juurde algandmetele, ei rikuta isiklikku privaatsust.

4. Data.gov

2009. aastal käivitatud Data.gov on Põhja-Ameerika andmete allikas. Selle kataloog on muljetavaldav: rohkem kui 218,000 XNUMX andmekogumit, mis võimaldavad segmenteerimist vormingu, siltide, tüüpide ja teemade järgi.

5. ELi avaandmete portaal

EL-i avaandmete portaal võimaldab juurdepääsu Euroopa Liidu institutsioonide jagatud avaandmetele. Need on andmed, mis võivad olla mõeldud äriliseks ja mitteäriliseks kasutamiseks. Kasutaja käsutuses on enam kui 15.5 tuhat andmestikku, mis hõlmavad selliseid teemasid nagu tervis, energia, keskkond, kultuur ja haridus.

Terviseandmed

Maailmas jätkuva tervisekriisi taustal on terviseorganisatsioonide loodud andmekogumid elude päästmiseks tõhusate lahenduste väljatöötamiseks hädavajalikud. Need andmekogumid võivad aidata tuvastada riskitegureid, välja selgitada haiguste leviku mustrid ja kiirendada diagnoosimist.

Need andmekogumid koosnevad terviseandmetest, patsientide demograafiast, haiguste levimusest, ravimite kasutamisest, toiteväärtustest ja paljust muust.

6. Ülemaailmne tervise vaatluskeskus

See andmekogum on Maailma Terviseorganisatsiooni (WHO) algatus. See pakub avalikke andmeid erinevate tervisevaldkondade kohta, mis on korraldatud selliste teemade järgi nagu tervishoiusüsteemid, tubakatarbimise piiramine, emadus, HIV/AIDS jne. Samuti on võimalus vaadata andmeid COVID-19 kohta.

7. NÕEL-19

CORD-19 on COVID-19 ja muude uut koroonaviirust käsitlevate artiklite kogum. See on avatud andmekogum, mille eesmärk on luua COVID-19 kohta uusi teadmisi.

Andmekogumid7

Majandusandmed

Finantskeskkonnaga seotud andmekogumid koguvad tavaliselt tohutul hulgal teavet, kuna on tavaline, et neid on kogutud pikka aega. Need sobivad ideaalselt majandusprognooside loomiseks või investeerimistrendide kindlakstegemiseks.

Õigete finantsandmekogumitega a Masinõppe mudel võib olla võimeline ennustama antud vara käitumist. Seetõttu teeb finantssektor kõik endast oleneva, et luua tõhus ML-mudel, kuna kõik, mis suudab isegi mõistlikult hästi ennustada, võib teenida miljoneid dollareid. Masinõpe ennustab juba kodanike käitumist, mis mõjutab seda, kuidas poliitikakujundajad oma tööd teevad.

8. Rahvusvaheline Valuutafond

IMF-i andmestik sisaldab mitmesuguseid majandus- ja finantsnäitajaid, liikmesriikide statistikat ning muid laenu- ja vahetuskursiandmeid.

9. Maailmapank

Maailmapanga hoidla sisaldab erinevaid andmekogumeid erinevate riikide majandusteabega. Mandrite kaupa on jagatud üle 17,000 XNUMX andmekogumi.

88 andmestikku7

Toodete ja teenuste ülevaated

Sentimentanalüüs on leidnud oma rakendusi erinevates valdkondades, mis aitavad nüüd ettevõtetel oma kliente või kliente õigesti hinnata ja neilt õppida. Sentimentanalüüsi kasutatakse üha enam sotsiaalmeedia monitooringuks, brändi jälgimiseks, kliendi hääle (VoC), klienditeeninduseks ja turu-uuringuteks.

Tundeanalüüs kasutab NLP-d (neurolingvistiline programmeerimine) meetodid ja algoritmid, mis on kas reeglipõhised, hübriidsed või põhinevad andmekogumitest andmete õppimiseks masinõppe tehnikatel.

Sentimentide analüüsiks vajalikud andmed peaksid olema spetsialiseerunud ja neid nõutakse suurtes kogustes. Sentimentide analüüsi koolitusprotsessi kõige keerulisem osa ei ole suurte andmete leidmine; selle asemel on vaja leida asjakohased andmekogumid. Need andmekogumid peavad hõlmama laia valdkonda sentimentanalüüsi rakendusi ja kasutusjuhtumeid.

10. Amazoni ülevaated

See andmestik sisaldab umbes 35 miljonit Amazoni ülevaadet, mis hõlmavad 18-aastast kogutud teabe perioodi. See on toote-, kasutaja- ja arvustuste sisu andmestik.

11. Yelp Arvustused

Yelp pakub ka andmestikku, mis põhineb tema teenusest kogutud teabel. Seal on üle 8 miljoni ülevaate, 1 miljon näpunäidet ja peaaegu 1.5 miljonit ettevõtetega seotud atribuuti, nagu lahtiolekuajad ja saadavus.

12. IMDB ülevaated

See andmebaas sisaldab enam kui 25 tuhande filmiarvustuse komplekti koolituse jaoks ja veel 25 tuhandet IMDB lehelt mitteametlikult tehtud testide jaoks, mis on spetsialiseerunud filmide reitingutele. Lisaks pakub see ka märgistamata andmeid.

ML esimeste sammude andmestikud

13. Veini kvaliteedi andmestik

See andmestik sisaldab teavet Põhja-Portugalis toodetud punase ja rohelise veini kohta. Eesmärk on füüsikalis-keemiliste testide põhjal määratleda veini kvaliteet. Huvitav neile, kes soovivad harjutada ennustussüsteemi loomist.

14. Titanicu andmestik

See andmestik toob andmed 887 tõelise Titanicu reisija kohta, igas veerus on määratletud, kas nad jäid ellu, nende vanus, reisijaklass, sugu ja makstav pardatasu. See andmestik oli osa Kaggle'i platvormi käivitatud väljakutsest, mille eesmärk oli luua mudel, mis suudaks ennustada, millised reisijad Titanicu uppumise ellu jäid.

Platvormid muude andmekogumite leidmiseks

Kui soovite minna kaugemale ja leida oma andmestiku, on parim viis sirvida kõige kuulsamaid andmehoidlaid. Masinõpe universum:

Kaagutama

Google LLC tütarettevõte Kaggle on andmeteadlaste ja masinõppe professionaalide veebikogukond. Kaggle võimaldab kasutajatel leida ja avaldada andmekogumeid, uurida ja luua mudeleid veebipõhises andmeteaduse keskkonnas; töötada koos teiste andmeteadlastega ja Masinõppe inseneridja osaleda võistlustel andmeteaduse väljakutsete lahendamiseks.

Kaggle alustas 2010. aastal masinõppevõistluste pakkumisega ja pakub nüüd ka avalikkust andmeplatvorm, pilvepõhine töölaud andmeteaduse ja tehisintellekti hariduse jaoks.

Andmekogumi otsing

Dataset Search on Google'i otsingumootor, mis aitab teadlastel leida veebipõhiseid andmeid, mis on kasutamiseks vabalt saadaval. Kogu veebis on miljoneid andmekogumeid peaaegu kõigi teid huvitavate teemade kohta.

Kui soovite osta kutsikat, võite leida kutsikate ostjate kaebusi või kutsikate tunnetuse uuringuid koondavaid andmekogusid. Või kui teile meeldib suusatada, võite leida andmeid suusakuurortide tulude või vigastuste ja osalusnumbrite kohta. Andmekogumiotsing on indekseerinud peaaegu 25 miljonit neist andmekogumitest, pakkudes teile ühest kohast, kust otsida andmekogumeid ja leida linke andmete asukohale.

UCI masinõppe hoidla

UCI masinõppehoidla on andmebaaside, domeeniteooriate ja andmegeneraatorite kogum, mida masinõppekogukond kasutab masinõppe algoritmide empiiriliseks analüüsiks. Arhiivi lõi 1987. aastal ftp-arhiivina David Aha ja UC Irvine'i kraadiõppurid.

Sellest ajast alates on üliõpilased, õpetajad ja teadlased üle kogu maailma laialdaselt kasutanud seda ML-andmekogumite peamise allikana. Arhiivi mõju märgina on seda tsiteeritud üle 1000 korra, mis teeb sellest kogu arvutiteaduse 100 enimtsiteeritud "paberi" hulgas.

Quandl

Quandl on platvorm, mis pakub oma kasutajatele majandus-, finants- ja alternatiivseid andmekogumeid. Kasutajad saavad Quandlile alla laadida tasuta andmeid, osta tasulisi andmeid või müüa andmeid. See võib olla kasulik tööriist arendamiseks kauplemisalgoritmid, näiteks.

Järeldus

Neid tööriistu uurides leiate kindlasti oma projektide jaoks suurepäraseid sisendeid. Valige kindlasti oma konkreetsetele vajadustele kõige sobivam andmestik ja pidage alati meeles: see ei puuduta ainult kvantiteeti, vaid ka kvaliteeti. Andmekogum on mis tahes andmete aluseks Masinõppe projekt ja on oluline tugineda kvaliteetsetele andmetele, et vältida valede järelduste tegemise ohtu.

14 parimat andmestikku masinõppe jaoks

Andmekogumite põhitõed