Innehållsförteckning[Dölj][Visa]
Varje maskininlärningsprojekt förlitar sig på en bra datauppsättning. Det är denna stora datamängd som gör att du kan träna och validera din ML-modell. Så en stor del av arbetet i ett ML-projekt är att hitta den perfekta datamängden för dina behov. Det är dock inte alltid möjligt att hitta ett alternativ som passar din ambition, eftersom många filer som ser intressanta ut i slutändan inte är det.
Det kan vara skrämmande att slösa tid på att ladda ner otaliga datauppsättningar tills du kommer fram till en idealisk uppsättning. Med det i åtanke har vi samlat några alternativ som verkar intressanta och kan hjälpa dig att utveckla ditt ML-projekt. Observera att vissa är avsedda för personligt istället för kommersiellt bruk, så titta på dessa alternativ som ett sätt att få erfarenhet av ML-universum.
Grunderna i datamängder
Innan vi nämner datamängderna bör vi definiera några termer. I artificiell intelligens-projekt, särskilt Maskininlärning, krävs en stor mängd data, som kommer att användas för att träna algoritmen. Denna mängd data samlas i en databas, vilket är extremt användbart för att lära ut en algoritm.
Med denna data tränas – också testas – algoritmen och blir i stånd att hitta mönster, etablera relationer och därmed fatta beslut autonomt. Utan träning, Maskininlärning Algoritmer kan inte utföra någon åtgärd. Därför, ju bättre träningsdata, desto bättre presterar modellen. För att en databas ska vara användbar för projektet handlar det inte om kvantitet: det handlar också om klassificering.
Helst bör uppgifterna vara väl märkta. Tänk på fallet med chatbots: språkinsättning är viktigt, men noggrann syntaktisk analys måste göras så att den skapade algoritmen kan förstå när samtalspartnern använder slang. Först då kommer den virtuella assistenten att kunna starta svaret enligt vad som efterfrågades av användaren.
Dataset kan genereras från undersökningar, användarköpdata, utvärderingar som lämnats på tjänster och på många andra sätt som gör det möjligt att samla in användbar information organiserad i kolumner och rader i en CSV-fil.
Innan du ger dig ut på jakt efter den perfekta datamängden är det viktigt att du känner till syftet med ditt projekt, särskilt om det är från ett specifikt område, såsom väder, ekonomi, hälsa, etc. Detta kommer att diktera källan från vilken du kommer att hämta dina dataset.
Dataset för ML
Chatbot-utbildning
En effektiv chatbot kräver en enorm mängd träningsdata för att snabbt kunna lösa användarförfrågningar utan mänsklig inblandning. Den primära flaskhalsen i utvecklingen av chatbot är dock att få realistiska, uppgiftsorienterade dialogdata för att träna dessa Machine Learning-baserade system.
En konversationsdatauppsättning samlar in data i ett fråge- och svarformat. Den är idealisk för att träna chatbots som kommer att ge automatiserade svar till publiken. Utan dessa data kommer chatboten att misslyckas med att snabbt lösa användarförfrågningar eller svara på användarfrågor utan behov av mänskligt ingripande.
Med hjälp av dessa datauppsättningar kan företag skapa ett verktyg som ger snabba svar till kunder 24/7 och är betydligt billigare än att ha ett team av människor som gör kundsupport.
1. Fråge-svar Dataset
Denna datauppsättning tillhandahåller en uppsättning Wikipedia-artiklar, frågor och deras respektive manuellt genererade svar. Det är en datauppsättning som samlats in mellan 2008 och 2010 för användning i akademisk forskning.
2. Språkdata
Language Data är en databas som hanteras av Yahoo med information som genereras från några av företagets tjänster, såsom Yahoo! Answer, som fungerar som en öppen gemenskap där användare kan lägga upp frågor och svar.
3. WikiQA
WikiQA-korpusen består också av en uppsättning frågor och svar. Källan till frågorna är Bing, medan svaren länkar till en Wikipedia-sida med potential att lösa den inledande frågan.
Totalt finns det mer än 3,000 29,258 frågor och en uppsättning av 1,400 XNUMX meningar i datasetet, varav cirka XNUMX XNUMX har kategoriserats som svar på en motsvarande fråga.
Regeringens uppgifter
Datauppsättningar som genereras av regeringar ger demografiska data, som är fantastiska input för projekt relaterade till att förstå sociala trender, skapa offentliga riktlinjer och förbättra samhället. Detta kan vara användbart för politiska kampanjer, riktad reklam eller marknadsanalys.
Dessa datauppsättningar innehåller vanligtvis anonymiserad data, så även om modellerna kan komma åt rådata finns det inga kränkningar av den personliga integriteten.
4. Data.gov
Data.gov, som lanserades 2009, är den nordamerikanska datakällan. Katalogen är imponerande: mer än 218,000 XNUMX datauppsättningar som tillåter segmentering efter format, taggar, typer och ämnen.
5. EU Open Data Portal
EU Open Data Portal ger tillgång till öppna data som delas av EU:s institutioner. Detta är data som kan vara avsedda för kommersiellt och icke-kommersiellt bruk. Till användarens förfogande finns mer än 15.5 tusen datauppsättningar som täcker ämnen som hälsa, energi, miljö, kultur och utbildning.
Hälso data
I kölvattnet av den pågående hälsokrisen världen över är datauppsättningar som genereras av hälsoorganisationer viktiga för att utveckla effektiva lösningar för att rädda liv. Dessa datauppsättningar kan hjälpa till att identifiera riskfaktorerna, räkna ut sjukdomsöverföringsmönster och påskynda diagnosen.
Dessa datauppsättningar består av hälsojournaler, demografi av patienter, sjukdomsprevalens, medicinsk användning, näringsvärden och mycket mer.
6. Global Health Observatory
Denna datauppsättning är ett initiativ från Världshälsoorganisationen (WHO). Den tillhandahåller offentliga data relaterade till olika hälsoområden, organiserade efter teman som hälsosystem, kontroll av tobaksanvändning, moderskap, hiv/aids, etc. Det finns också möjlighet att konsultera data om covid-19.
7. CORD-19
CORD-19 är en samling akademiska publikationer om COVID-19 och andra artiklar om det nya coronaviruset. Det är en öppen datauppsättning avsedd att generera nya insikter om COVID-19.
Ekonomidata
Datauppsättningar relaterade till den finansiella miljön samlar vanligtvis en enorm mängd information, eftersom det är vanligt att de har samlats in under lång tid. De är idealiska för att skapa ekonomiska förutsägelser eller fastställa investeringstrender.
Med rätt finansiella datauppsättningar, en Machine Learning modell kan förutsäga beteendet hos en given tillgång. Det är därför finanssektorn gör allt i sin makt för att skapa en effektiv ML-modell, eftersom allt som kan förutsäga till och med någorlunda väl har potential att generera miljontals dollar. Machine Learning förutsäger redan medborgarnas beteende, vilket påverkar hur beslutsfattare gör sina jobb.
8. Internationella valutafonden
IMF:s datauppsättning innehåller en rad ekonomiska och finansiella indikatorer, medlemslandsstatistik och andra lån och växelkursdata.
9. VÄRLDSBANKEN
Världsbankens arkiv innehåller olika datamängder med ekonomisk information från olika länder. Det finns mer än 17,000 XNUMX datauppsättningar uppdelade efter kontinenter.
Recensioner av produkter och tjänster
Sentimentanalys har hittat sina tillämpningar inom olika områden som nu hjälper företag att uppskatta och lära av sina kunder eller kunder korrekt. Sentimentanalys används alltmer för övervakning av sociala medier, varumärkesövervakning, kundens röst (VoC), kundservice och marknadsundersökningar.
Sentimentanalys använder NLP (neuro-lingvistisk programmering) metoder och algoritmer som antingen är regelbaserade, hybrider eller förlitar sig på maskininlärningstekniker för att lära sig data från datamängder.
Den data som behövs för sentimentanalys bör vara specialiserad och krävs i stora mängder. Den mest utmanande delen med träningsprocessen för sentimentanalys är att inte hitta data i stora mängder; istället är det att hitta relevanta datamängder. Dessa datamängder måste täcka ett brett område av applikationer för sentimentanalys och användningsfall.
10. Amazon Recensioner
Denna datauppsättning innehåller cirka 35 miljoner Amazon-recensioner, som spänner över en 18-årsperiod av insamlad information. Det är en datauppsättning av produkt-, användar- och recensionsinnehåll.
11. Yelp-recensioner
Yelp erbjuder också en datauppsättning baserad på information som samlats in från dess tjänst. Det finns över 8 miljoner recensioner, 1 miljon tips, plus nästan 1.5 miljoner attribut relaterade till företag, såsom öppettider och tillgänglighet.
12. IMDB Recensioner
Denna databas innehåller en uppsättning av mer än 25 tusen filmrecensioner för träning och ytterligare 25 tusen för tester som tagits informellt från IMDB-sidan, specialiserad på filmbetyg. Den erbjuder också omärkta data som ett tillägg.
Dataset för de första stegen i ML
13. Dataset för vinkvalitet
Denna datauppsättning ger information relaterad till vin, både rött och grönt, producerat i norra Portugal. Målet är att definiera vinkvaliteten utifrån fysikalisk-kemiska tester. Intressant för dig som vill träna på att skapa ett prediktionssystem.
14. Titanic Dataset
Denna datauppsättning innehåller data från 887 riktiga passagerare från Titanic, där varje kolumn definierar om de överlevde, deras ålder, passagerarklass, kön och ombordstigningsavgiften de betalade. Denna datauppsättning var en del av en utmaning som lanserades av Kaggle-plattformen, vars syfte var att skapa en modell som kunde förutsäga vilka passagerare som överlevde Titanics förlisning.
Plattformar för att hitta andra datamängder
Om du vill gå längre och hitta din egen datauppsättning är det bästa sättet att bläddra igenom de mest kända förråden av Maskininlärning universum:
Kaggle
Kaggle, ett dotterbolag till Google LLC, är en onlinegemenskap av datavetare och maskininlärningspersonal. Kaggle låter användare hitta och publicera datauppsättningar, utforska och skapa modeller i en webbaserad datavetenskapsmiljö; arbeta med andra datavetare och Maskininlärningsingenjöreroch delta i tävlingar för att lösa datavetenskapliga utmaningar.
Kaggle startade 2010 med att erbjuda Machine Learning-tävlingar och erbjuder nu även en publik dataplattform, en molnbaserad arbetsbänk för utbildning i datavetenskap och artificiell intelligens.
Datasetsökning
Dataset Search är en sökmotor från Google som hjälper forskare att hitta onlinedata som är fritt tillgänglig för användning. Över hela webben finns det miljontals datauppsättningar om nästan alla ämnen som intresserar dig.
Om du funderar på att köpa en valp kan du hitta datauppsättningar som sammanställer klagomål från valpköpare eller studier om valpens kognition. Eller om du gillar skidåkning kan du hitta information om intäkter från skidorter eller skadefrekvens och antal deltagare. Dataset Search har indexerat nästan 25 miljoner av dessa datauppsättningar, vilket ger dig en enda plats att söka efter datauppsättningar och hitta länkar till var data finns.
UCI Machine Learning Repository
UCI Machine Learning Repository är en samling databaser, domänteorier och datageneratorer som används av Machine Learning-gemenskapen för empirisk analys av Machine Learning-algoritmer. Arkivet skapades som ett ftp-arkiv 1987 av David Aha och andra doktorander vid UC Irvine.
Sedan dess har det använts i stor utsträckning av studenter, lärare och forskare över hela världen som en primär källa för ML-datauppsättningar. Som en indikation på effekten av arkivet har det citerats över 1000 100 gånger, vilket gör det till ett av de XNUMX mest citerade "papperen" inom all datavetenskap.
Quandl
Quandl är en plattform som förser sina användare med ekonomiska, finansiella och alternativa datauppsättningar. Användare kan ladda ner gratis data, köpa betaldata eller sälja data till Quandl. Det kan vara ett användbart verktyg för utveckling av handelsalgoritmer, till exempel.
Slutsats
Genom att utforska dessa verktyg kommer du säkert att hitta bra input för dina projekt. Var noga med att välja den datauppsättning som är mest lämpad för dina specifika behov och tänk alltid på: det handlar inte bara om kvantitet utan också kvalitet. Datauppsättningen är grunden för eventuella Maskininlärningsprojekt och det är viktigt att bygga på kvalitetsdata för att undvika risken att dra felaktiga slutsatser.
Kommentera uppropet