Sisällysluettelo[Piilottaa][Näytä]
Jokainen koneoppimisprojekti perustuu hyvään tietojoukkoon. Juuri tämän suuren tietojoukon avulla voit kouluttaa ja validoida ML-mallisi. Joten suuri osa ML-projektin työstä on tarpeisiisi sopivan tietojoukon löytäminen. Aina ei kuitenkaan ole mahdollista löytää tavoitteellesi sopivaa vaihtoehtoa, koska monet mielenkiintoisilta näyttävät tiedostot eivät ole sitä.
Voi olla pelottavaa tuhlata aikaa lukemattomien tietojoukkojen lataamiseen, kunnes löydät ihanteellisen joukon. Tätä silmällä pitäen olemme koonneet joitain vaihtoehtoja, jotka vaikuttavat mielenkiintoisilta ja voivat auttaa sinua kehittämään ML-projektiasi. Huomaa, että jotkin niistä on tarkoitettu henkilökohtaiseen eikä kaupalliseen käyttöön, joten katso näitä vaihtoehtoja tapana hankkia kokemusta ML-universumista.
Tietojoukkojen perusteet
Ennen kuin mainitsemme tietojoukot, meidän pitäisi määritellä joitain termejä. Varsinkin tekoälyprojekteissa Koneen oppiminen, tarvitaan suuri määrä dataa, jota käytetään algoritmin harjoittamiseen. Tämä tietomäärä kerätään tietokantaan, mikä on erittäin hyödyllistä algoritmin opettamisessa.
Näillä tiedoilla algoritmi on koulutettu – myös testattu – ja se pystyy löytämään malleja, luomaan suhteita ja siten tekemään päätöksiä itsenäisesti. Ilman koulutusta, Koneen oppiminen algoritmit eivät pysty suorittamaan mitään toimintoa. Siksi mitä paremmat harjoitustiedot ovat, sitä paremmin malli toimii. Jotta tietokannasta olisi hyötyä projektille, se ei ole määrästä vaan myös luokittelusta.
Ihannetapauksessa tiedot olisi merkitty hyvin. Ajattele chatbottien tapausta: kielen lisääminen on tärkeää, mutta huolellinen syntaktinen analyysi on tehtävä, jotta luotu algoritmi ymmärtää, milloin keskustelukumppani käyttää slangia. Vasta sitten virtuaaliassistentti voi käynnistää vastauksen käyttäjän pyytämän mukaisesti.
Tietojoukkoja voidaan luoda kyselyistä, käyttäjien ostotiedoista, palveluihin jätetyistä arvioinneista ja monilla muilla tavoilla, jotka mahdollistavat hyödyllisten tietojen keräämisen CSV-tiedoston sarakkeisiin ja riveihin järjesteltyinä.
Ennen kuin lähdet etsimään täydellistä tietojoukkoa, on tärkeää tietää projektisi tarkoitus, varsinkin jos se tulee tietystä alueesta, kuten sää, talous, terveys jne. Tämä sanelee lähteen, josta hankit tietosi. tietojoukko.
ML:n tietojoukot
Chatbot-koulutus
Tehokas chatbot vaatii valtavan määrän koulutusdataa voidakseen ratkaista käyttäjien kyselyt nopeasti ilman ihmisen väliintuloa. Chatbot-kehityksen ensisijainen pullonkaula on kuitenkin realististen, tehtäväkohtaisten dialogitietojen hankkiminen näiden koneoppimiseen perustuvien järjestelmien kouluttamiseksi.
Keskustelutietojoukko kerää tietoja kysymys-vastausmuodossa. Se on ihanteellinen chatbottien kouluttamiseen, jotka antavat yleisölle automaattisia vastauksia. Ilman näitä tietoja chatbot ei pysty ratkaisemaan nopeasti käyttäjien tiedusteluja tai vastaamaan käyttäjien kysymyksiin ilman ihmisen väliintuloa.
Näiden tietojoukkojen avulla yritykset voivat luoda työkalun, joka tarjoaa asiakkaille nopeita vastauksia 24/7 ja joka on huomattavasti halvempi kuin asiakastiimin tekeminen asiakastuesta.
1. Kysymys-vastaus -tietojoukko
Tämä tietojoukko sisältää joukon Wikipedia-artikkeleita, kysymyksiä ja niihin liittyviä manuaalisesti luotuja vastauksia. Se on tietojoukko, joka on kerätty vuosina 2008–2010 käytettäväksi akateeminen tutkimus.
2. Kielitiedot
Language Data on Yahoon hallinnoima tietokanta, joka sisältää tietoja joistakin yrityksen palveluista, kuten Yahoo! Answer, joka toimii avoimena yhteisönä, jossa käyttäjät voivat lähettää kysymyksiä ja vastauksia.
3. WikiQA
WikiQA-korpus koostuu myös joukosta kysymyksiä ja vastauksia. Kysymysten lähde on Bing, kun taas vastaukset linkittävät Wikipedia-sivulle, joka voi ratkaista alkuperäisen kysymyksen.
Aineistossa on yhteensä yli 3,000 29,258 kysymystä ja 1,400 XNUMX lauseen sarja, joista noin XNUMX XNUMX on luokiteltu vastauksiksi vastaavaan kysymykseen.
Hallituksen tiedot
Hallitusten tuottamat tietojoukot tuovat demografisia tietoja, jotka ovat hyviä panoksia sosiaalisten trendien ymmärtämiseen, julkisten politiikkojen luomiseen ja yhteiskunnan parantamiseen liittyvissä projekteissa. Tästä voi olla hyötyä poliittisissa kampanjoissa, kohdistetussa mainonnassa tai markkina-analyysissä.
Nämä tietojoukot sisältävät tyypillisesti anonymisoitua dataa, joten vaikka mallit voivat käyttää raakadataa, henkilökohtaista tietosuojaa ei loukata.
4. Data.gov
Vuonna 2009 perustettu Data.gov on Pohjois-Amerikan tiedonlähde. Sen luettelo on vaikuttava: yli 218,000 XNUMX tietojoukkoa, jotka mahdollistavat segmentoinnin muodon, tunnisteiden, tyyppien ja aiheiden mukaan.
5. EU:n avoin tietoportaali
EU:n avoimen datan portaali tarjoaa pääsyn Euroopan unionin toimielinten jakamaan avoimeen dataan. Nämä ovat tietoja, jotka voidaan tarkoitettu kaupalliseen ja ei-kaupalliseen käyttöön. Käyttäjän käytettävissä on yli 15.5 tuhatta tietojoukkoa, jotka kattavat muun muassa terveyden, energian, ympäristön, kulttuurin ja koulutuksen.
Terveystieto
Maailmanlaajuisen meneillään olevan terveyskriisin seurauksena terveysjärjestöjen tuottamat tietojoukot ovat välttämättömiä tehokkaiden ratkaisujen kehittämiseksi ihmishenkien pelastamiseksi. Nämä tietojoukot voivat auttaa tunnistamaan riskitekijät, selvittämään taudin leviämismalleja ja nopeuttamaan diagnoosia.
Nämä tietojoukot sisältävät terveystietoja, potilaiden demografisia tietoja, sairauksien esiintyvyyttä, lääkkeiden käyttöä, ravintoarvoja ja paljon muuta.
6. Maailmanlaajuinen terveyden seurantakeskus
Tämä tietosarja on Maailman terveysjärjestön (WHO) aloite. Se tarjoaa julkista tietoa terveyden eri osa-alueista, jotka on järjestetty teemojen mukaan, kuten terveydenhuoltojärjestelmät, tupakan käytön hallinta, äitiys, HIV/AIDS jne. On myös mahdollisuus tarkastella tietoja COVID-19:stä.
7. JOHDON-19
CORD-19 on kokoelma COVID-19-aiheisia akateemisia julkaisuja ja muita uudesta koronaviruksesta kertovia artikkeleita. Se on avoin tietojoukko, jonka tarkoituksena on luoda uusia oivalluksia COVID-19:stä.
Taloustieteen tiedot
Talousympäristöön liittyvät tietojoukot keräävät yleensä valtavan määrän tietoa, koska on yleistä, että niitä on kerätty pitkään. Ne ovat ihanteellisia taloudellisten ennusteiden luomiseen tai investointitrendien määrittämiseen.
Oikeilla taloustietosarjoilla a Koneoppimisen malli voi ennustaa tietyn omaisuuden käyttäytymistä. Siksi finanssisektori tekee kaikkensa luodakseen tehokkaan ML-mallin, sillä kaikki, mikä voi ennustaa jopa kohtuullisen hyvin, voi tuottaa miljoonia dollareita. Koneoppiminen ennustaa jo kansalaisten käyttäytymistä, mikä vaikuttaa siihen, miten päättäjät tekevät työnsä.
8. Kansainvälinen valuuttarahasto
IMF:n tietoaineisto sisältää joukon talous- ja rahoitusindikaattoreita, jäsenmaiden tilastoja ja muita laina- ja valuuttakurssitietoja.
9. Maailmanpankki
Maailmanpankin arkisto sisältää erilaisia tietokokonaisuuksia eri maiden taloustiedoista. Aineistoja on yli 17,000 XNUMX jaettuna maanosien mukaan.
Tuote- ja palveluarvostelut
Tunneanalyysi on löytänyt sovelluksia eri aloilla, mikä auttaa yrityksiä arvioimaan ja oppimaan asiakkaistaan oikein. Tunneanalyysiä käytetään yhä enemmän sosiaalisen median seurantaan, brändin seurantaan, asiakkaan ääneen (VoC), asiakaspalveluun ja markkinatutkimukseen.
Tunneanalyysi käyttää NLP:tä (neurolingvistinen ohjelmointi) menetelmät ja algoritmit, jotka ovat joko sääntöpohjaisia, hybridi- tai koneoppimistekniikoihin perustuvia oppiakseen dataa tietojoukoista.
Tunneanalyysissä tarvittavien tietojen tulee olla erikoistuneita ja niitä tarvitaan suuria määriä. Tunnelma-analyysin koulutusprosessin haastavin osa ei ole suurien määrien tiedon löytäminen; sen sijaan on löydettävä asiaankuuluvat tietojoukot. Näiden tietokokonaisuuksien on katettava laaja alue tunneanalyysisovelluksia ja käyttötapauksia.
10. Amazon Arviot
Tämä tietojoukko sisältää noin 35 miljoonaa Amazon-arviota, jotka kattavat 18 vuoden kerätyn tiedon ajanjakson. Se on tuote-, käyttäjä- ja arvostelusisällön tietojoukko.
11. Yelp-arvostelut
Yelp tarjoaa myös tietojoukon, joka perustuu sen palvelusta kerättyihin tietoihin. Siellä on yli 8 miljoonaa arvostelua, miljoona vinkkiä sekä lähes 1 miljoonaa yrityksiin liittyvää attribuuttia, kuten aukioloajat ja saatavuus.
12. IMDB arvostelut
Tämä tietokanta sisältää joukon yli 25 tuhatta elokuva-arvostelua koulutusta varten ja toiset 25 tuhatta testejä varten, jotka on otettu epävirallisesti IMDB-sivulta, erikoistunut elokuvien luokitukseen. Se tarjoaa myös merkitsemättömiä tietoja lisänä.
Tietojoukot ML:n ensimmäisille vaiheille
13. Viinin laadun tietojoukko
Tämä tietoaineisto sisältää tietoa Pohjois-Portugalissa tuotetuista sekä punaisista että vihreistä viineistä. Tavoitteena on määrittää viinin laatu fysikaalis-kemiallisten testien perusteella. Mielenkiintoinen niille, jotka haluavat harjoitella ennustejärjestelmän luomista.
14. Titanic -tietojoukko
Tämä tietojoukko tuo tiedot 887 todellisesta Titanicin matkustajasta, ja jokaisessa sarakkeessa määritellään, selviytyivätkö he hengissä, heidän ikänsä, matkustajaluokkansa, sukupuolensa ja heidän maksamansa pääsymaksun. Tämä tietojoukko oli osa Kaggle-alustan käynnistämää haastetta, jonka tavoitteena oli luoda malli, joka voisi ennustaa, ketkä matkustajat selvisivät Titanicin uppoamisesta.
Alustat muiden tietojoukkojen etsimiseen
Jos haluat mennä pidemmälle ja löytää oman tietojoukon, paras tapa on selata tunnetuimpia tietovarastoja. Koneen oppiminen maailmankaikkeus:
Kaggle
Kaggle, Google LLC:n tytäryhtiö, on datatieteilijöiden ja koneoppimisen ammattilaisten verkkoyhteisö. Kagglen avulla käyttäjät voivat etsiä ja julkaista tietojoukkoja, tutkia ja luoda malleja verkkopohjaisessa datatieteen ympäristössä; työskentelemään muiden datatieteilijöiden kanssa Koneoppimisinsinööritja osallistua kilpailuihin datatieteen haasteiden ratkaisemiseksi.
Kaggle aloitti vuonna 2010 tarjoamalla koneoppimiskilpailuja ja tarjoaa nyt myös yleisölle tietoalusta, pilvipohjainen työpöytä tietotieteen ja tekoälyn koulutukseen.
Tietojoukon haku
Dataset Search on Googlen hakukone, joka auttaa tutkijoita löytämään online-dataa, joka on vapaasti käytettävissä. Internetissä on miljoonia tietojoukkoja lähes kaikista sinua kiinnostavista aiheista.
Jos aiot ostaa koiranpentua, voit löytää tietojoukkoja, jotka koostuvat pentujen ostajien valituksista tai tutkimuksista koiranpentujen kognitiosta. Tai jos pidät hiihtämisestä, voit löytää tietoja hiihtokeskusten tuloista tai loukkaantumismääristä ja osallistumismääristä. Tietojoukkohaku on indeksoinut lähes 25 miljoonaa näistä tietojoukoista, mikä tarjoaa sinulle yhden paikan, josta voit etsiä tietojoukkoja ja löytää linkkejä, joissa tiedot ovat.
UCI-koneoppimisen arkisto
UCI Machine Learning Repository on kokoelma tietokantoja, toimialueteorioita ja datageneraattoreita, joita Machine Learning -yhteisö käyttää koneoppimisalgoritmien empiiriseen analysointiin. David Aha ja UC Irvinen jatko-opiskelijat loivat arkiston ftp-arkistona vuonna 1987.
Siitä lähtien opiskelijat, opettajat ja tutkijat ympäri maailmaa ovat käyttäneet sitä laajasti ML-aineistojen ensisijaisena lähteenä. Osoituksena arkiston vaikutuksesta se on lainattu yli 1000 kertaa, mikä tekee siitä yhden 100 eniten siteeratun "paperin" joukossa koko tietojenkäsittelytieteen alalla.
Quandl
Quandl on alusta, joka tarjoaa käyttäjilleen talous-, rahoitus- ja vaihtoehtoisia tietojoukkoja. Käyttäjät voivat ladata ilmaisia tietoja, ostaa maksullisia tietoja tai myydä tietoja Quandlille. Se voi olla hyödyllinen työkalu kehittämiseen kaupankäyntialgoritmit, esimerkiksi.
Yhteenveto
Tutustumalla näihin työkaluihin löydät varmasti hyviä panoksia projekteihisi. Muista valita tietojoukko, joka sopii parhaiten erityistarpeisiisi ja muista aina: kyse ei ole vain määrästä vaan myös laadusta. Tietojoukko on kaiken perusta Koneoppimisprojekti ja on olennaisen tärkeää rakentaa laadukkaisiin tietoihin, jotta vältytään virheellisistä johtopäätöksistä.
Jätä vastaus