మెషిన్ లెర్నింగ్ కోసం 14 ఉత్తమ డేటాసెట్‌లు

విషయ సూచిక[దాచు][చూపండి]

డేటాసెట్ల ప్రాథమిక అంశాలు
ML కోసం డేటాసెట్‌లు+-
ఇతర డేటాసెట్‌లను కనుగొనడానికి ప్లాట్‌ఫారమ్‌లు+-
ముగింపు

ప్రతి మెషిన్ లెర్నింగ్ ప్రాజెక్ట్ మంచి డేటాసెట్‌పై ఆధారపడి ఉంటుంది. ఇది మీ ML మోడల్‌కు శిక్షణ ఇవ్వడానికి మరియు ధృవీకరించడానికి మిమ్మల్ని అనుమతించే ఈ పెద్ద డేటాసెట్. కాబట్టి, ML ప్రాజెక్ట్‌లోని పనిలో ఎక్కువ భాగం మీ అవసరాలకు సరైన డేటాసెట్‌ను కనుగొనడం. అయినప్పటికీ, మీ ఆశయానికి సరిపోయే ఎంపికను కనుగొనడం ఎల్లప్పుడూ సాధ్యపడదు, చివరికి ఆసక్తికరంగా కనిపించే అనేక ఫైల్‌లు అలా ఉండవు.

మీరు ఆదర్శవంతమైన సెట్‌కి చేరుకునే వరకు లెక్కలేనన్ని డేటాసెట్‌లను డౌన్‌లోడ్ చేయడంలో సమయాన్ని వృథా చేయడం చాలా కష్టం. దీన్ని దృష్టిలో ఉంచుకుని, మేము ఆసక్తికరంగా అనిపించే కొన్ని ఎంపికలను సేకరించాము మరియు మీ ML ప్రాజెక్ట్‌ను అభివృద్ధి చేయడంలో మీకు సహాయపడగలము. కొన్ని వాణిజ్యపరమైన ఉపయోగం కోసం కాకుండా వ్యక్తిగతం కోసం ఉద్దేశించినవి అని గమనించండి, కాబట్టి ML విశ్వంలో అనుభవాన్ని పొందడానికి ఈ ఎంపికలను ఒక మార్గంగా చూడండి.

డేటాసెట్ల ప్రాథమిక అంశాలు

మేము డేటాసెట్లను ప్రస్తావించే ముందు, మేము కొన్ని నిబంధనలను నిర్వచించాలి. ముఖ్యంగా ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ ప్రాజెక్ట్‌లలో యంత్ర అభ్యాస, పెద్ద మొత్తంలో డేటా అవసరం, ఇది అల్గారిథమ్‌కు శిక్షణ ఇవ్వడానికి ఉపయోగించబడుతుంది. ఈ మొత్తం డేటా డేటాబేస్‌లో సేకరించబడుతుంది, ఇది అల్గారిథమ్‌ను బోధించడానికి చాలా ఉపయోగకరంగా ఉంటుంది.

ఈ డేటాతో, అల్గోరిథం శిక్షణ పొందింది - పరీక్షించబడింది - మరియు నమూనాలను కనుగొనడం, సంబంధాలను ఏర్పరచుకోవడం మరియు తద్వారా స్వతంత్రంగా నిర్ణయాలు తీసుకోగలదు. శిక్షణ లేకుండా, యంత్ర అభ్యాస అల్గారిథమ్‌లు ఏ చర్యను చేయలేవు. అందువల్ల, మెరుగైన శిక్షణ డేటా, మెరుగైన మోడల్ పనితీరును ప్రదర్శిస్తుంది. ప్రాజెక్ట్‌కు డేటాబేస్ ఉపయోగకరంగా ఉండాలంటే, ఇది పరిమాణం గురించి కాదు: ఇది వర్గీకరణ గురించి కూడా.

ఆదర్శవంతంగా, డేటా బాగా లేబుల్ చేయబడాలి. చాట్‌బాట్‌ల విషయంలో ఆలోచించండి: భాష చొప్పించడం ముఖ్యం, అయితే జాగ్రత్తగా వాక్యనిర్మాణ విశ్లేషణ చేయాలి, తద్వారా సంభాషణకర్త యాసను ఉపయోగిస్తున్నప్పుడు సృష్టించబడిన అల్గోరిథం అర్థం చేసుకోగలదు. అప్పుడు మాత్రమే వర్చువల్ అసిస్టెంట్ యూజర్ కోరిన దాని ప్రకారం సమాధానాన్ని ప్రారంభించగలరు.

సర్వేలు, వినియోగదారు కొనుగోలు డేటా, సేవలపై మిగిలి ఉన్న మూల్యాంకనాలు మరియు CSV ఫైల్‌లోని నిలువు వరుసలు మరియు వరుసలలో నిర్వహించబడిన ఉపయోగకరమైన సమాచారాన్ని సేకరించడానికి అనుమతించే అనేక ఇతర మార్గాల నుండి డేటాసెట్‌లను రూపొందించవచ్చు.

మీరు ఖచ్చితమైన డేటాసెట్‌ను వెతకడానికి ముందు, మీ ప్రాజెక్ట్ యొక్క ఉద్దేశ్యం గురించి తెలుసుకోవడం చాలా ముఖ్యం, ప్రత్యేకించి ఇది వాతావరణం, ఆర్థికం, ఆరోగ్యం మొదలైన నిర్దిష్ట ప్రాంతం నుండి వచ్చినట్లయితే. ఇది మీరు ఏ మూలాధారాన్ని పొందాలో నిర్దేశిస్తుంది. డేటాసెట్.

ML కోసం డేటాసెట్‌లు

చాట్‌బాట్ శిక్షణ

ప్రభావవంతమైన చాట్‌బాట్‌కు మానవ ప్రమేయం లేకుండా వినియోగదారు విచారణలను త్వరగా పరిష్కరించడానికి భారీ మొత్తంలో శిక్షణ డేటా అవసరం. అయితే, ఈ మెషిన్ లెర్నింగ్-ఆధారిత సిస్టమ్‌లకు శిక్షణ ఇవ్వడానికి వాస్తవిక, టాస్క్-ఓరియెంటెడ్ డైలాగ్ డేటాను పొందడం చాట్‌బాట్ అభివృద్ధిలో ప్రధాన అడ్డంకి.

సంభాషణ డేటాసెట్ ప్రశ్న మరియు సమాధాన ఆకృతిలో డేటాను సేకరిస్తుంది. ప్రేక్షకులకు స్వయంచాలక సమాధానాలను అందించే చాట్‌బాట్‌లకు శిక్షణ ఇవ్వడానికి ఇది అనువైనది. ఈ డేటా లేకుండా, మానవ ప్రమేయం లేకుండానే వినియోగదారు విచారణలను త్వరగా పరిష్కరించడంలో లేదా వినియోగదారు ప్రశ్నలకు సమాధానం ఇవ్వడంలో చాట్‌బాట్ విఫలమవుతుంది.

ఈ డేటాసెట్‌లను ఉపయోగించి, వ్యాపారాలు కస్టమర్‌లకు 24/7 శీఘ్ర సమాధానాలను అందించే సాధనాన్ని సృష్టించగలవు మరియు కస్టమర్ సపోర్ట్ చేసే వ్యక్తుల బృందం కంటే చాలా చౌకగా ఉంటాయి.

1. ప్రశ్న-జవాబు డేటాసెట్

ఈ డేటాసెట్ వికీపీడియా కథనాలు, ప్రశ్నలు మరియు వాటి సంబంధిత మాన్యువల్‌గా రూపొందించబడిన సమాధానాల సమితిని అందిస్తుంది. ఇది ఉపయోగం కోసం 2008 మరియు 2010 మధ్య సేకరించిన డేటాసెట్ విద్యా పరిశోధన.

2. భాషా డేటా

భాషా డేటా అనేది Yahoo! వంటి కొన్ని కంపెనీ సేవల నుండి రూపొందించబడిన సమాచారంతో Yahoo ద్వారా నిర్వహించబడే డేటాబేస్. జవాబు, ఇది వినియోగదారులు ప్రశ్నలు మరియు సమాధానాలను పోస్ట్ చేయడానికి ఓపెన్ కమ్యూనిటీగా పనిచేస్తుంది.

డేటాసెట్లు 1

3. WikiQA

WikiQA కార్పస్ కూడా ప్రశ్నలు మరియు సమాధానాల సమితిని కలిగి ఉంటుంది. ప్రశ్నల మూలం Bing, అయితే సమాధానాలు ప్రారంభ ప్రశ్నను పరిష్కరించగల సామర్థ్యం ఉన్న వికీపీడియా పేజీకి లింక్ చేయబడతాయి.

డేటాసెట్లు 2 మొత్తంగా, డేటాసెట్‌లో 3,000 కంటే ఎక్కువ ప్రశ్నలు మరియు 29,258 వాక్యాల సమితి ఉన్నాయి, వీటిలో దాదాపు 1,400 సంబంధిత ప్రశ్నకు సమాధానాలుగా వర్గీకరించబడ్డాయి.

ప్రభుత్వ డేటా

ప్రభుత్వాలచే రూపొందించబడిన డేటాసెట్‌లు సామాజిక ధోరణులను అర్థం చేసుకోవడం, పబ్లిక్ విధానాలను రూపొందించడం మరియు సమాజాన్ని మెరుగుపరచడం వంటి వాటికి సంబంధించిన ప్రాజెక్ట్‌లకు గొప్ప ఇన్‌పుట్‌లు అయిన జనాభా డేటాను అందిస్తాయి. ఇది రాజకీయ ప్రచారాలకు, లక్ష్య ప్రకటనలకు లేదా మార్కెట్ విశ్లేషణకు ఉపయోగపడుతుంది.

ఈ డేటాసెట్‌లు సాధారణంగా అనామక డేటాను కలిగి ఉంటాయి, కాబట్టి మోడల్‌లు ముడి డేటాను యాక్సెస్ చేయగలిగినప్పటికీ, వ్యక్తిగత గోప్యత ఉల్లంఘనలు ఉండవు.

4. డేటా.గోవ్

2009లో ప్రారంభించబడింది, Data.gov అనేది డేటా కోసం ఉత్తర అమెరికా మూలం. దీని కేటలాగ్ ఆకట్టుకుంటుంది: ఫార్మాట్, ట్యాగ్‌లు, రకాలు మరియు అంశాల వారీగా విభజనను అనుమతించే 218,000 కంటే ఎక్కువ డేటాసెట్‌లు.

5. EU ఓపెన్ డేటా పోర్టల్

EU ఓపెన్ డేటా పోర్టల్ యూరోపియన్ యూనియన్ యొక్క సంస్థలు భాగస్వామ్యం చేసిన ఓపెన్ డేటాకు యాక్సెస్‌ను అందిస్తుంది. ఇవి వాణిజ్య మరియు వాణిజ్యేతర ఉపయోగం కోసం ఉద్దేశించిన డేటా. వినియోగదారు వద్ద ఆరోగ్యం, శక్తి, పర్యావరణం, సంస్కృతి మరియు విద్య వంటి అంశాలను కవర్ చేసే 15.5 వేల కంటే ఎక్కువ డేటాసెట్‌లు ఉన్నాయి.

ఆరోగ్య డేటా

ప్రపంచవ్యాప్తంగా కొనసాగుతున్న ఆరోగ్య సంక్షోభం నేపథ్యంలో, ప్రాణాలను కాపాడేందుకు సమర్థవంతమైన పరిష్కారాలను అభివృద్ధి చేయడానికి ఆరోగ్య సంస్థలచే రూపొందించబడిన డేటాసెట్‌లు అవసరం. ఈ డేటాసెట్‌లు ప్రమాద కారకాలను గుర్తించడంలో, వ్యాధి ప్రసార విధానాలను రూపొందించడంలో మరియు రోగ నిర్ధారణను వేగవంతం చేయడంలో సహాయపడతాయి.

ఈ డేటాసెట్‌లు ఆరోగ్య రికార్డులు, రోగుల జనాభా, వ్యాధి వ్యాప్తి, ఔషధ వినియోగం, పోషక విలువలు మరియు మరిన్నింటిని కలిగి ఉంటాయి.

6. గ్లోబల్ హెల్త్ అబ్జర్వేటరీ

ఈ డేటా సెట్ ప్రపంచ ఆరోగ్య సంస్థ (WHO) చొరవ. ఇది ఆరోగ్య వ్యవస్థలు, పొగాకు వినియోగ నియంత్రణ, ప్రసూతి, HIV/AIDS మొదలైన థీమ్‌ల ద్వారా నిర్వహించబడిన వివిధ ఆరోగ్య రంగాలకు సంబంధించిన పబ్లిక్ డేటాను అందిస్తుంది. COVID-19పై డేటాను సంప్రదించే అవకాశం కూడా ఉంది.

7. CORD-19

CORD-19 అనేది COVID-19 మరియు కొత్త కరోనావైరస్ గురించిన ఇతర కథనాలకు సంబంధించిన అకడమిక్ ప్రచురణల యొక్క కార్పస్. ఇది COVID-19పై కొత్త అంతర్దృష్టులను రూపొందించడానికి ఉద్దేశించిన ఓపెన్ డేటాసెట్.

డేటాసెట్లు7

ఆర్థిక శాస్త్ర డేటా

ఆర్థిక వాతావరణానికి సంబంధించిన డేటాసెట్‌లు సాధారణంగా భారీ మొత్తంలో సమాచారాన్ని సేకరిస్తాయి, ఎందుకంటే అవి చాలా కాలంగా సేకరించబడటం సాధారణం. ఆర్థిక అంచనాలను రూపొందించడానికి లేదా పెట్టుబడి పోకడలను స్థాపించడానికి అవి అనువైనవి.

సరైన ఆర్థిక డేటాసెట్‌లతో, a మెషిన్ లెర్నింగ్ మోడల్ ఇచ్చిన ఆస్తి యొక్క ప్రవర్తనను అంచనా వేయవచ్చు. అందుకే ఆర్థిక రంగం సమర్థవంతమైన ML మోడల్‌ను రూపొందించడానికి తన శక్తి మేరకు ప్రతిదీ చేస్తోంది, ఎందుకంటే సహేతుకంగా కూడా అంచనా వేయగల ఏదైనా మిలియన్ డాలర్లను ఉత్పత్తి చేయగల సామర్థ్యాన్ని కలిగి ఉంటుంది. మెషిన్ లెర్నింగ్ ఇప్పటికే పౌరుల ప్రవర్తనను అంచనా వేస్తోంది, ఇది విధాన రూపకర్తలు వారి ఉద్యోగాలను చేసే విధానాన్ని ప్రభావితం చేస్తోంది.

8. ఇంటర్నేషనల్ మానిటరీ ఫండ్

IMF డేటాసెట్ ఆర్థిక మరియు ఆర్థిక సూచికలు, సభ్య దేశ గణాంకాలు మరియు ఇతర రుణ మరియు మారకపు రేటు డేటా పరిధిని కలిగి ఉంది.

9. ప్రపంచ బ్యాంకు

ప్రపంచ బ్యాంక్ రిపోజిటరీ వివిధ దేశాల ఆర్థిక సమాచారంతో విభిన్న డేటాసెట్‌లను కలిగి ఉంది. ఖండాల వారీగా విభజించబడిన 17,000 కంటే ఎక్కువ డేటాసెట్‌లు ఉన్నాయి.

88 డేటాసెట్లు7

ఉత్పత్తి మరియు సేవల సమీక్షలు

సెంటిమెంట్ విశ్లేషణ వివిధ రంగాలలో దాని అప్లికేషన్‌లను కనుగొంది, అవి ఇప్పుడు ఎంటర్‌ప్రైజెస్ తమ క్లయింట్లు లేదా కస్టమర్‌లను సరిగ్గా అంచనా వేయడానికి మరియు తెలుసుకోవడానికి సహాయపడుతున్నాయి. సోషల్ మీడియా పర్యవేక్షణ, బ్రాండ్ పర్యవేక్షణ, కస్టమర్ వాయిస్ (VoC), కస్టమర్ సేవ మరియు మార్కెట్ పరిశోధన కోసం సెంటిమెంట్ విశ్లేషణ ఎక్కువగా ఉపయోగించబడుతోంది.

సెంటిమెంట్ విశ్లేషణ NLPని ఉపయోగిస్తుంది (న్యూరో-లింగ్విస్టిక్ ప్రోగ్రామింగ్) పద్ధతులు మరియు అల్గారిథమ్‌లు రూల్-బేస్డ్, హైబ్రిడ్ లేదా డేటాసెట్‌ల నుండి డేటాను తెలుసుకోవడానికి మెషిన్ లెర్నింగ్ టెక్నిక్‌లపై ఆధారపడతాయి.

సెంటిమెంట్ విశ్లేషణలో అవసరమైన డేటా ప్రత్యేకంగా ఉండాలి మరియు పెద్ద పరిమాణంలో అవసరం. సెంటిమెంట్ విశ్లేషణ శిక్షణ ప్రక్రియలో అత్యంత సవాలుగా ఉన్న భాగం పెద్ద మొత్తంలో డేటాను కనుగొనడం కాదు; బదులుగా, సంబంధిత డేటాసెట్‌లను కనుగొనడం. ఈ డేటా సెట్‌లు తప్పనిసరిగా సెంటిమెంట్ విశ్లేషణ అప్లికేషన్‌లు మరియు వినియోగ కేసుల విస్తృత ప్రాంతాన్ని కవర్ చేయాలి.

10 అమెజాన్ సమీక్షలు

ఈ డేటాసెట్ సుమారు 35 మిలియన్ల అమెజాన్ సమీక్షలను కలిగి ఉంది, ఇది 18-సంవత్సరాల కాల వ్యవధిలో సేకరించబడిన సమాచారాన్ని కలిగి ఉంది. ఇది ఉత్పత్తి, వినియోగదారు మరియు సమీక్ష కంటెంట్ యొక్క డేటాసెట్.

10 Yelp సమీక్షలు

Yelp దాని సేవ నుండి సేకరించిన సమాచారం ఆధారంగా డేటాసెట్‌ను కూడా అందిస్తుంది. 8 మిలియన్లకు పైగా సమీక్షలు, 1 మిలియన్ చిట్కాలు మరియు వ్యాపారాలకు సంబంధించిన దాదాపు 1.5 మిలియన్ అట్రిబ్యూట్‌లు, ప్రారంభ గంటలు మరియు లభ్యత వంటివి ఉన్నాయి.

10 IMDB సమీక్షలు

ఈ డేటాబేస్ శిక్షణ కోసం 25 వేల కంటే ఎక్కువ చలనచిత్ర సమీక్షలను కలిగి ఉంది మరియు IMDB పేజీ నుండి అనధికారికంగా తీసిన పరీక్షల కోసం మరో 25 వేల సినిమా రేటింగ్‌లను కలిగి ఉంది. ఇది అదనంగా లేబుల్ చేయని డేటాను కూడా అందిస్తుంది.

MLలో మొదటి దశల కోసం డేటాసెట్‌లు

10 వైన్ నాణ్యత డేటాసెట్

ఈ డేటాసెట్ ఉత్తర పోర్చుగల్‌లో ఉత్పత్తి చేయబడిన ఎరుపు మరియు ఆకుపచ్చ వైన్‌కు సంబంధించిన సమాచారాన్ని అందిస్తుంది. భౌతిక రసాయన పరీక్షల ఆధారంగా వైన్ నాణ్యతను నిర్వచించడం లక్ష్యం. ప్రిడిక్షన్ సిస్టమ్‌ను రూపొందించడం సాధన చేయాలనుకునే వారికి ఆసక్తికరం.

10 టైటానిక్ డేటాసెట్

ఈ డేటాసెట్ టైటానిక్ నుండి 887 మంది నిజమైన ప్రయాణీకుల నుండి డేటాను తెస్తుంది, ప్రతి కాలమ్ వారు బతికి ఉన్నారా, వారి వయస్సు, ప్రయాణీకుల తరగతి, లింగం మరియు వారు చెల్లించిన బోర్డింగ్ రుసుమును నిర్వచిస్తుంది. ఈ డేటాసెట్ Kaggle ప్లాట్‌ఫారమ్ ద్వారా ప్రారంభించబడిన సవాలులో భాగం, దీని లక్ష్యం టైటానిక్ మునిగిపోయిన ప్రయాణికులను అంచనా వేయగల మోడల్‌ను రూపొందించడం.

ఇతర డేటాసెట్‌లను కనుగొనడానికి ప్లాట్‌ఫారమ్‌లు

మీరు మరింత ముందుకు వెళ్లి మీ స్వంత డేటాసెట్‌ను కనుగొనాలనుకుంటే, అత్యంత ప్రసిద్ధ రిపోజిటరీల ద్వారా బ్రౌజ్ చేయడం ఉత్తమ మార్గం యంత్ర అభ్యాస విశ్వం:

Kaggle

కాగ్లే, Google LLC యొక్క అనుబంధ సంస్థ, డేటా సైంటిస్టులు మరియు మెషిన్ లెర్నింగ్ నిపుణుల యొక్క ఆన్‌లైన్ సంఘం. డేటాసెట్‌లను కనుగొనడానికి మరియు ప్రచురించడానికి, వెబ్ ఆధారిత డేటా సైన్స్ వాతావరణంలో మోడల్‌లను అన్వేషించడానికి మరియు సృష్టించడానికి Kaggle వినియోగదారులను అనుమతిస్తుంది; ఇతర డేటా శాస్త్రవేత్తలతో కలిసి పని చేయండి మరియు మెషిన్ లెర్నింగ్ ఇంజనీర్లు, మరియు డేటా సైన్స్ సవాళ్లను పరిష్కరించడానికి పోటీలలో పాల్గొనండి.

Kaggle 2010లో మెషిన్ లెర్నింగ్ పోటీలను అందించడం ద్వారా ప్రారంభించబడింది మరియు ఇప్పుడు పబ్లిక్‌ను కూడా అందిస్తుంది డేటా ప్లాట్‌ఫారమ్, డేటా సైన్స్ మరియు ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ విద్య కోసం క్లౌడ్ ఆధారిత వర్క్‌బెంచ్.

డేటాసెట్ శోధన

డేటాసెట్ శోధన అనేది Google నుండి వచ్చిన శోధన ఇంజిన్, ఇది ఉపయోగం కోసం ఉచితంగా అందుబాటులో ఉన్న ఆన్‌లైన్ డేటాను గుర్తించడంలో పరిశోధకులకు సహాయపడుతుంది. వెబ్‌లో, మీకు ఆసక్తి ఉన్న దాదాపు ఏదైనా విషయం గురించి మిలియన్ల కొద్దీ డేటాసెట్‌లు ఉన్నాయి.

మీరు కుక్కపిల్లని కొనుగోలు చేయాలని చూస్తున్నట్లయితే, కుక్కపిల్ల కొనుగోలుదారుల ఫిర్యాదులను లేదా కుక్కపిల్ల జ్ఞానంపై అధ్యయనాలను కంపైల్ చేసే డేటాసెట్‌లను మీరు కనుగొనవచ్చు. లేదా మీరు స్కీయింగ్ ఇష్టపడితే, మీరు స్కీ రిసార్ట్‌ల ఆదాయం లేదా గాయం రేట్లు మరియు పాల్గొనే సంఖ్యలపై డేటాను కనుగొనవచ్చు. డేటాసెట్ శోధన ఈ డేటాసెట్‌లలో దాదాపు 25 మిలియన్‌లను ఇండెక్స్ చేసింది, డేటాసెట్‌ల కోసం శోధించడానికి మరియు డేటా ఉన్న లింక్‌లను కనుగొనడానికి మీకు ఒకే స్థలాన్ని ఇస్తుంది.

UCI మెషిన్ లెర్నింగ్ రిపోజిటరీ

UCI మెషిన్ లెర్నింగ్ రిపోజిటరీ అనేది మెషిన్ లెర్నింగ్ అల్గారిథమ్‌ల అనుభావిక విశ్లేషణ కోసం మెషిన్ లెర్నింగ్ కమ్యూనిటీ ఉపయోగించే డేటాబేస్‌లు, డొమైన్ సిద్ధాంతాలు మరియు డేటా జనరేటర్‌ల సమాహారం. ఈ ఆర్కైవ్ 1987లో డేవిడ్ ఆహా మరియు UC ఇర్విన్‌లోని తోటి గ్రాడ్యుయేట్ విద్యార్థులచే ftp ఆర్కైవ్‌గా రూపొందించబడింది.

ఆ సమయం నుండి, ML డేటాసెట్‌ల యొక్క ప్రాథమిక వనరుగా ప్రపంచవ్యాప్తంగా విద్యార్థులు, అధ్యాపకులు మరియు పరిశోధకులు దీనిని విస్తృతంగా ఉపయోగిస్తున్నారు. ఆర్కైవ్ ప్రభావం యొక్క సూచనగా, ఇది 1000 సార్లు ఉదహరించబడింది, ఇది కంప్యూటర్ సైన్స్‌లో అత్యధికంగా ఉదహరించబడిన 100 "పేపర్‌లలో" ఒకటిగా నిలిచింది.

క్వాండ్ల్

Quandl అనేది దాని వినియోగదారులకు ఆర్థిక, ఆర్థిక మరియు ప్రత్యామ్నాయ డేటాసెట్‌లను అందించే ప్లాట్‌ఫారమ్. వినియోగదారులు ఉచిత డేటాను డౌన్‌లోడ్ చేసుకోవచ్చు, చెల్లింపు డేటాను కొనుగోలు చేయవచ్చు లేదా Quandlకు డేటాను విక్రయించవచ్చు. అభివృద్ధికి ఇది ఉపయోగకరమైన సాధనం ట్రేడింగ్ అల్గోరిథంలు, ఉదాహరణకి.

ముగింపు

ఈ సాధనాలను అన్వేషించడం ద్వారా, మీరు మీ ప్రాజెక్ట్‌ల కోసం గొప్ప ఇన్‌పుట్‌లను కనుగొనడం ఖాయం. మీ నిర్దిష్ట అవసరాలకు అత్యంత అనుకూలమైన డేటాసెట్‌ను ఎంచుకున్నారని నిర్ధారించుకోండి మరియు ఎల్లప్పుడూ గుర్తుంచుకోండి: ఇది పరిమాణం మాత్రమే కాదు, నాణ్యత కూడా. డేటాసెట్ దేనికైనా ఆధారం మెషిన్ లెర్నింగ్ ప్రాజెక్ట్ మరియు తప్పు నిర్ధారణలకు వచ్చే ప్రమాదాన్ని నివారించడానికి నాణ్యమైన డేటాను రూపొందించడం చాలా అవసరం.

మెషిన్ లెర్నింగ్ కోసం 14 ఉత్తమ డేటాసెట్‌లు

డేటాసెట్ల ప్రాథమిక అంశాలు