Innholdsfortegnelse[Gjemme seg][Forestilling]
Hvert maskinlæringsprosjekt er avhengig av et godt datasett. Det er dette store datasettet som lar deg trene og validere ML-modellen din. Så en stor del av arbeidet i et ML-prosjekt er å finne det perfekte datasettet for dine behov. Det er imidlertid ikke alltid mulig å finne et alternativ som passer dine ambisjoner, ettersom mange filer som til slutt ser interessante ut, ikke er det.
Det kan være skremmende å kaste bort tid på å laste ned utallige datasett til du kommer til et ideelt sett. Med det i tankene har vi samlet noen alternativer som virker interessante og kan hjelpe deg med å utvikle ditt ML-prosjekt. Merk at noen er ment for personlig i stedet for kommersiell bruk, så se på disse alternativene som en måte å få erfaring i ML-universet.
Grunnleggende om datasett
Før vi nevner datasettene, bør vi definere noen begreper. I kunstig intelligens-prosjekter, spesielt Maskinlæring, kreves det en stor mengde data, som vil bli brukt til å trene algoritmen. Denne mengden data samles i en database, noe som er ekstremt nyttig for å lære en algoritme.
Med disse dataene trenes – også testet – algoritmen og blir i stand til å finne mønstre, etablere relasjoner og dermed ta beslutninger autonomt. Uten trening, Maskinlæring Algoritmer er ikke i stand til å utføre noen handling. Derfor, jo bedre treningsdata, jo bedre vil modellen prestere. For at en database skal være nyttig for prosjektet, handler det ikke om kvantitet: det handler også om klassifisering.
Ideelt sett bør dataene være godt merket. Tenk på tilfellet med chatbots: språkinnsetting er viktig, men nøye syntaktisk analyse må gjøres slik at algoritmen som er opprettet kan forstå når samtalepartneren bruker slang. Først da vil den virtuelle assistenten kunne starte svaret i henhold til det som ble bedt om av brukeren.
Datasett kan genereres fra undersøkelser, brukerkjøpsdata, evalueringer som er igjen på tjenester og på mange andre måter som gjør det mulig å samle nyttig informasjon organisert i kolonner og rader i en CSV-fil.
Før du legger ut på leting etter det perfekte datasettet, er det viktig at du kjenner til formålet med prosjektet ditt, spesielt hvis det er fra et spesifikt område, som vær, økonomi, helse osv. Dette vil diktere kilden du vil hente datasett.
Datasett for ML
Chatbot-trening
En effektiv chatbot krever en enorm mengde treningsdata for raskt å kunne løse brukerhenvendelser uten menneskelig innblanding. Den primære flaskehalsen i chatbotutvikling er imidlertid å skaffe realistiske, oppgaveorienterte dialogdata for å trene disse Machine Learning-baserte systemene.
Et samtaledatasett samler data i et spørsmål og svar-format. Den er ideell for trening av chatbots som vil gi automatiserte svar til publikum. Uten disse dataene vil chatboten ikke raskt løse brukerhenvendelser eller svare på brukerspørsmål uten behov for menneskelig innblanding.
Ved å bruke disse datasettene kan bedrifter lage et verktøy som gir raske svar til kundene 24/7 og er betydelig billigere enn å ha et team med mennesker som utfører kundestøtte.
1. Spørsmål-svar-datasett
Dette datasettet inneholder et sett med Wikipedia-artikler, spørsmål og deres respektive manuelt genererte svar. Det er et datasett samlet inn mellom 2008 og 2010 for bruk i akademisk forskning.
2. Språkdata
Language Data er en database administrert av Yahoo med informasjon generert fra noen av selskapets tjenester, for eksempel Yahoo! Answer, som fungerer som et åpent fellesskap der brukere kan legge ut spørsmål og svar.
3. WikiQA
WikiQA-korpuset består også av et sett med spørsmål og svar. Kilden til spørsmålene er Bing, mens svarene lenker til en Wikipedia-side med potensial til å løse det første spørsmålet.
Totalt er det mer enn 3,000 29,258 spørsmål og et sett med 1,400 XNUMX setninger i datasettet, hvorav ca XNUMX XNUMX er kategorisert som svar på et tilsvarende spørsmål.
Regjeringsdata
Datasett generert av myndigheter gir demografiske data, som er gode input for prosjekter knyttet til å forstå sosiale trender, skape offentlig politikk og forbedre samfunnet. Dette kan være nyttig for politiske kampanjer, målrettet annonsering eller markedsanalyse.
Disse datasettene inneholder vanligvis anonymiserte data, så selv om modellene kan få tilgang til rådataene, er det ingen brudd på personvernet.
4. Data.gov
Data.gov ble lansert i 2009 og er den nordamerikanske datakilden. Katalogen er imponerende: mer enn 218,000 XNUMX datasett som tillater segmentering etter format, tagger, typer og emner.
5. EUs åpne dataportal
EUs åpne dataportal gir tilgang til åpne data som deles av institusjoner i EU. Dette er data som kan være ment for kommersiell og ikke-kommersiell bruk. Til brukerens disposisjon er mer enn 15.5 tusen datasett som dekker emner som helse, energi, miljø, kultur og utdanning.
Helse data
I kjølvannet av den pågående helsekrisen over hele verden, er datasett generert av helseorganisasjoner avgjørende for å utvikle effektive løsninger for å redde liv. Disse datasettene kan hjelpe til med å identifisere risikofaktorene, utarbeide sykdomsoverføringsmønstre og fremskynde diagnosen.
Disse datasettene består av helsejournaler, demografi av pasienter, sykdomsprevalens, medisinsk bruk, ernæringsmessige verdier og mye mer.
6. Global Health Observatory
Dette datasettet er et initiativ fra Verdens helseorganisasjon (WHO). Den gir offentlige data relatert til ulike helseområder, organisert etter temaer som helsesystemer, kontroll av tobakksbruk, barsel, HIV/AIDS osv. Det er også mulighet for å konsultere data om COVID-19.
7. CORD-19
CORD-19 er et korpus av akademiske publikasjoner om COVID-19 og andre artikler om det nye koronaviruset. Det er et åpent datasett beregnet på å generere ny innsikt om COVID-19.
Økonomidata
Datasett knyttet til det økonomiske miljøet samler vanligvis en enorm mengde informasjon, siden det er vanlig at de har blitt samlet over lang tid. De er ideelle for å lage økonomiske spådommer eller etablere investeringstrender.
Med de riktige økonomiske datasettene, a Machine Learning modell kan være i stand til å forutsi oppførselen til en gitt eiendel. Det er derfor finanssektoren gjør alt som står i dens makt for å skape en effektiv ML-modell, ettersom alt som kan forutsi selv rimelig godt har potensial til å generere millioner av dollar. Maskinlæring forutsier allerede innbyggernes atferd, noe som påvirker måten beslutningstakere gjør jobben sin på.
8. International Monetary Fund
IMF-datasettet inneholder en rekke økonomiske og finansielle indikatorer, medlemslandsstatistikk og andre lån- og valutakursdata.
9. Verdensbanken
Verdensbankens depot inneholder ulike datasett med økonomisk informasjon fra ulike land. Det er mer enn 17,000 XNUMX datasett delt på kontinenter.
Anmeldelser av produkter og tjenester
Sentimentanalyse har funnet sine applikasjoner på forskjellige felt som nå hjelper bedrifter med å estimere og lære av sine kunder eller kunder riktig. Sentimentanalyse brukes i økende grad til overvåking av sosiale medier, merkevareovervåking, stemmen til kunden (VoC), kundeservice og markedsundersøkelser.
Sentimentanalyse bruker NLP (nevro-lingvistisk programmering) metoder og algoritmer som enten er regelbaserte, hybride eller er avhengige av maskinlæringsteknikker for å lære data fra datasett.
Dataene som trengs i sentimentanalyse bør være spesialiserte og kreves i store mengder. Den mest utfordrende delen med treningsprosessen for sentimentanalyse er ikke å finne data i store mengder; i stedet er det å finne de relevante datasettene. Disse datasettene må dekke et bredt område av sentimentanalyseapplikasjoner og brukstilfeller.
10. Amazon Anmeldelser
Dette datasettet inneholder rundt 35 millioner Amazon-anmeldelser, som spenner over en 18-års periode med innsamlet informasjon. Det er et datasett med produkt-, bruker- og anmeldelsesinnhold.
11. Yelp-anmeldelser
Yelp tilbyr også et datasett basert på informasjon samlet inn fra tjenesten. Det er over 8 millioner anmeldelser, 1 million tips, pluss nesten 1.5 millioner attributter knyttet til virksomheter, som åpningstider og tilgjengelighet.
12. IMDB-anmeldelser
Denne databasen inneholder et sett med mer enn 25 tusen filmanmeldelser for trening og ytterligere 25 tusen for tester tatt uformelt fra IMDB-siden, spesialisert på filmvurderinger. Den tilbyr også umerket data som et tillegg.
Datasett for de første trinnene i ML
13. Datasett for vinkvalitet
Dette datasettet gir informasjon relatert til vin, både rød og grønn, produsert i Nord-Portugal. Målet er å definere vinkvaliteten basert på fysisk-kjemiske tester. Interessant for de som vil øve på å lage et prediksjonssystem.
14. Titanic datasett
Dette datasettet bringer data fra 887 ekte passasjerer fra Titanic, med hver kolonne som definerer om de overlevde, deres alder, passasjerklasse, kjønn og ombordstigningsavgiften de betalte. Dette datasettet var en del av en utfordring lansert av Kaggle-plattformen, hvis mål var å lage en modell som kunne forutsi hvilke passasjerer som overlevde forliset av Titanic.
Plattformer for å finne andre datasett
Hvis du vil gå videre og finne ditt eget datasett, er den beste måten å bla gjennom de mest kjente depotene til Maskinlæring univers:
kaggle
Kaggle, et datterselskap av Google LLC, er et nettsamfunn av datavitere og maskinlæringseksperter. Kaggle lar brukere finne og publisere datasett, utforske og lage modeller i et nettbasert datavitenskapelig miljø; samarbeide med andre dataforskere og Maskinlæringsingeniører, og delta i konkurranser for å løse datavitenskapelige utfordringer.
Kaggle startet i 2010 med å tilby Machine Learning-konkurranser og tilbyr nå også et publikum dataplattform, en skybasert arbeidsbenk for utdanning innen datavitenskap og kunstig intelligens.
Datasettsøk
Datasettsøk er en søkemotor fra Google som hjelper forskere med å finne online data som er fritt tilgjengelig for bruk. Over hele nettet er det millioner av datasett om nesten alle emner som interesserer deg.
Hvis du ønsker å kjøpe en valp, kan du finne datasett som samler klager fra valpekjøpere eller studier om valpens kognisjon. Eller hvis du liker å stå på ski, kan du finne data om inntektene til alpinanlegg eller skadeprosent og deltakertall. Datasettsøk har indeksert nesten 25 millioner av disse datasettene, noe som gir deg ett enkelt sted å søke etter datasett og finne lenker til hvor dataene er.
UCI Machine Learning Repository
UCI Machine Learning Repository er en samling av databaser, domeneteorier og datageneratorer som brukes av Machine Learning-fellesskapet for empirisk analyse av Machine Learning-algoritmer. Arkivet ble opprettet som et ftp-arkiv i 1987 av David Aha og medstudenter ved UC Irvine.
Siden den gang har den blitt mye brukt av studenter, lærere og forskere over hele verden som en primær kilde til ML-datasett. Som en indikasjon på virkningen av arkivet har det blitt sitert over 1000 ganger, noe som gjør det til et av de 100 mest siterte "papirene" innen all datavitenskap.
Quandl
Quandl er en plattform som gir brukerne økonomiske, finansielle og alternative datasett. Brukere kan laste ned gratis data, kjøpe betalte data eller selge data til Quandl. Det kan være et nyttig verktøy for utvikling av handelsalgoritmer, For eksempel.
konklusjonen
Ved å utforske disse verktøyene vil du garantert finne gode innspill til prosjektene dine. Pass på å velge datasettet som passer best for dine spesifikke behov, og husk alltid: det handler ikke bare om kvantitet, men også kvalitet. Datasettet er grunnlaget for evt Maskinlæringsprosjekt og det er viktig å bygge på kvalitetsdata for å unngå risikoen for å trekke feilaktige konklusjoner.
Legg igjen en kommentar