14 bêste datasets foar masine learen

Table of Contents[Ferstopje][Toanje]

Basis fan datasets
Datasets foar ML+-
Platfoarms foar it finen fan oare datasets+-
Konklúzje

Elk Machine Learning-projekt fertrout op in goede dataset. It is dizze grutte dataset wêrmei jo jo ML-model kinne traine en validearje. Dat, in grut diel fan it wurk yn in ML-projekt is it finen fan de perfekte dataset foar jo behoeften. It is lykwols net altyd mooglik om in opsje te finen dy't past by jo ambysje, lykas in protte bestannen dy't op it lêst ynteressant sjogge, net binne.

It kin lestich wêze om tiid te fergriemen mei it downloaden fan ûntelbere datasets oant jo by in ideale set komme. Mei dat yn gedachten hawwe wy wat opsjes sammele dy't ynteressant lykje en jo kinne helpe jo ML-projekt te ûntwikkeljen. Tink derom dat guon binne bedoeld foar persoanlik ynstee fan kommersjeel gebrûk, dus sjoch nei dizze opsjes as in manier om ûnderfining te krijen yn it ML-universum.

Basis fan datasets

Foardat wy de datasets neame, moatte wy wat termen definiearje. Yn Artificial Intelligence-projekten, benammen Machine Learning, in grutte hoemannichte gegevens is nedich, dy't brûkt wurde om it algoritme te trenen. Dizze hoemannichte gegevens wurdt sammele yn in databank, wat ekstreem nuttich is om in algoritme te learen.

Mei dizze gegevens wurdt it algoritme trainearre – ek hifke – en wurdt it by steat om patroanen te finen, relaasjes op te lizzen en sa autonoom besluten te nimmen. Sûnder training, Machine Learning algoritmen kinne gjin aksje útfiere. Dêrom, hoe better de trainingsgegevens, hoe better it model sil prestearje. Foardat in databank nuttich is foar it projekt, giet it net om kwantiteit: it giet ek om klassifikaasje.

Ideal moatte de gegevens goed markearre wurde. Tink oan it gefal fan chatbots: taalynfoegje is wichtich, mar soarchfâldige syntaktyske analyze moat dien wurde sadat it makke algoritme kin begripe wannear't de petearpartner slang brûkt. Allinnich dan sil de firtuele assistint it antwurd kinne starte neffens wat troch de brûker frege is.

Datasets kinne wurde generearre út enkêtes, brûkersoankeapgegevens, evaluaasjes dy't oerbleaun binne op tsjinsten, en op in protte oare manieren wêrmei it sammeljen fan nuttige ynformaasje organisearre is yn kolommen en rigen yn in CSV-bestân.

Foardat jo op syk binne nei de perfekte dataset, is it wichtich dat jo it doel fan jo projekt witte, foaral as it fan in spesifyk gebiet is, lykas waar, finânsjes, sûnens, ensfh. Dit sil de boarne diktearje wêrfan jo jo boarne wolle. dataset.

Datasets foar ML

Chatbot training

In effektive chatbot fereasket in enoarme hoemannichte trainingsgegevens om brûkersfragen fluch op te lossen sûnder minsklike yntervinsje. It primêre knelpunt yn 'e chatbot-ûntwikkeling is lykwols realistyske, taakrjochte dialoochgegevens te krijen om dizze Machine Learning-basearre systemen te trainen.

In konversaasjedataset sammelt gegevens yn in fraach- en antwurdformaat. It is ideaal foar training fan chatbots dy't automatisearre antwurden sille jaan oan it publyk. Sûnder dizze gegevens sil de chatbot net fluch brûkersfragen oplosse of brûkersfragen beäntwurdzje sûnder de needsaak foar minsklike yntervinsje.

Mei help fan dizze datasets kinne bedriuwen in ark meitsje dat rappe antwurden leveret oan klanten 24/7 en is signifikant goedkeaper dan it hawwen fan in team fan minsken dy't klantstipe docht.

1. Fraach-antwurd Dataset

Dizze dataset jout in set fan Wikipedia-artikels, fragen en harren respektivelike hân oanmakke antwurden. It is in dataset sammele tusken 2008 en 2010 foar gebrûk yn akademysk ûndersyk.

2. Taalgegevens

Taalgegevens is in databank beheard troch Yahoo mei ynformaasje generearre út guon fan 'e tsjinsten fan it bedriuw, lykas Yahoo! Antwurd, dy't wurket as in iepen mienskip foar brûkers om fragen en antwurden te pleatsen.

Dataset 1

3. WikiQA

It WikiQA-korpus bestiet ek út in set fragen en antwurden. De boarne fan 'e fragen is Bing, wylst de antwurden ferwize nei in Wikipedia-side mei it potensjeel om de earste fraach op te lossen.

Dataset 2 Yn totaal binne der mear as 3,000 fragen en in set fan 29,258 sinnen yn de dataset, wêrfan sa'n 1,400 as antwurden op in oerienkommende fraach yndield binne.

Oerheidsgegevens

Datasets generearre troch oerheden bringe demografyske gegevens, dy't geweldige ynput binne foar projekten yn ferbân mei it begripen fan sosjale trends, it meitsjen fan iepenbier belied en it ferbetterjen fan 'e maatskippij. Dit kin nuttich wêze foar politike kampanjes, doelgerichte advertinsjes of merkanalyse.

Dizze datasets befetsje typysk anonymisearre gegevens, dus hoewol de modellen tagong kinne ta de rauwe gegevens, binne d'r gjin ynbreuk op persoanlike privacy.

4. Data.gov

Lansearre yn 2009, Data.gov is de Noardamerikaanske boarne foar gegevens. De katalogus is yndrukwekkend: mear dan 218,000 datasets dy't segmintaasje mooglik meitsje op formaat, tags, typen en ûnderwerpen.

5. EU Open Data Portal

It EU Open Data Portal jout tagong ta iepen gegevens dield troch ynstellingen fan 'e Jeropeeske Uny. Dit binne gegevens dy't bedoeld wêze kinne foar kommersjeel en net-kommersjeel gebrûk. Ta de beskikking fan de brûker binne mear as 15.5 tûzen datasets, dy't ûnderwerpen as sûnens, enerzjy, miljeu, kultuer en ûnderwiis befetsje.

Sûnensgegevens

Yn 'e rin fan' e oanhâldende sûnenskrisis wrâldwiid binne datasets generearre troch sûnensorganisaasjes essensjeel foar it ûntwikkeljen fan effektive oplossingen om libbens te rêden. Dizze datasets kinne helpe om de risikofaktoaren te identifisearjen, patroanen foar oerdracht fan sykte út te wurkjen en diagnoaze te fersnellen.

Dizze datasetten besteane út sûnensrecords, demografy fan pasjinten, sykteprevalens, medysk gebrûk, fiedingswearden, en folle mear.

6. Global Health Observatory

Dizze gegevensset is in inisjatyf fan 'e Wrâldsûnensorganisaasje (WHO). It leveret iepenbiere gegevens yn ferbân mei ferskate gebieten fan sûnens, organisearre troch tema's lykas sûnenssystemen, tabakgebrûkskontrôle, maternity, HIV/AIDS, ensfh. D'r is ek de opsje om gegevens oer COVID-19 te rieplachtsjen.

7. CORD-19

CORD-19 is in korpus fan akademyske publikaasjes oer COVID-19 en oare artikels oer it nije coronavirus. It is in iepen dataset bedoeld om nije ynsjoch te generearjen oer COVID-19.

Datasets 7

Ekonomyske gegevens

Datasets relatearre oan 'e finansjele omjouwing sammelje normaal in enoarme hoemannichte ynformaasje, om't it gewoan is dat se in lange tiid binne sammele. Se binne ideaal foar it meitsjen fan ekonomyske foarsizzings of it fêststellen fan ynvestearringstrends.

Mei de juste finansjele datasets, a Machine Learning model kin it gedrach fan in opjûne asset foarsizze. Dêrom docht de finansjele sektor alles yn har macht om in effektyf ML-model te meitsjen, om't alles dat sels ridlik goed kin foarsizze, it potinsjeel hat om miljoenen dollars te generearjen. Machine Learning foarsizze al it gedrach fan boargers, wat ynfloed hat op 'e manier wêrop beliedsmakkers har wurk dogge.

8. International Monetary Fund

De IMF-dataset befettet in ferskaat oan ekonomyske en finansjele yndikatoaren, statistiken fan lidsteaten, en oare gegevens oer lieningen en wikselkoersen.

9. Wrâldbank

It repository fan 'e Wrâldbank befettet ferskate datasetten mei ekonomyske ynformaasje út ferskate lannen. D'r binne mear dan 17,000 datasets ferdield troch kontininten.

88 dataset7

Produkt en tsjinsten resinsjes

Sentimintanalyze hat har tapassingen fûn yn ferskate fjilden dy't bedriuwen no helpe om korrekt te skatten en te learen fan har kliïnten as klanten. Sentimintanalyse wurdt hieltyd mear brûkt foar monitoring op sosjale media, merkmonitoring, de stim fan 'e klant (VoC), klanttsjinst, en merkûndersyk.

Sentimintanalyse brûkt NLP (neuro-linguïstyske programmearring) metoaden en algoritmen dy't òf op regel basearre, hybride, òf fertrouwe op Machine Learning-techniken om gegevens te learen fan datasets.

De gegevens dy't nedich binne yn sentimintanalyze moatte spesjalisearre wêze en binne ferplicht yn grutte hoemannichten. It meast útdaagjende diel oer it trainingsproses foar sentimintanalyse is gjin gegevens te finen yn grutte hoemannichten; ynstee, it is te finen de oanbelangjende datasets. Dizze datasets moatte in breed gebiet dekke fan applikaasjes foar sentimintanalyse en gebrûksgefallen.

10. Resinsjes fan Amazon

Dizze dataset befettet sawat 35 miljoen Amazon-resinsjes, oer in perioade fan 18 jier fan sammele ynformaasje. It is in dataset fan produkt-, brûker- en beoardielingynhâld.

11. Yelp Resinsjes

Yelp biedt ek in dataset basearre op ynformaasje sammele fan har tsjinst. D'r binne mear dan 8 miljoen resinsjes, 1 miljoen tips, plus hast 1.5 miljoen attributen yn ferbân mei bedriuwen, lykas iepeningstiden en beskikberens.

12. IMDB Resinsjes

Dizze databank befettet in set fan mear dan 25 tûzen filmresinsjes foar training en nochris 25 tûzen foar tests ynformeel nommen fan 'e IMDB-side, spesjalisearre yn filmwurdearrings. It biedt ek net-labelde gegevens as in ekstra.

Datasets foar de earste stappen yn ML

13. Wine Quality Dataset

Dizze dataset jout ynformaasje yn ferbân mei wyn, sawol read as grien, produsearre yn Noard-Portegal. It doel is om de wynkwaliteit te definiearjen op basis fan fysysk-gemyske tests. Nijsgjirrich foar dyjingen dy't wolle oefenje oan it meitsjen fan in foarsizzingssysteem.

14. Titanic Dataset

Dizze dataset bringt gegevens fan 887 echte passazjiers fan 'e Titanic, wêrby't elke kolom definiearret as se oerlibbe, har leeftyd, passazjiersklasse, geslacht, en de ynstapkosten dy't se betelle hawwe. Dizze dataset wie diel fan in útdaging lansearre troch it Kaggle-platfoarm, waans doel wie om in model te meitsjen dat koe foarsizze hokker passazjiers it sinken fan 'e Titanic oerlibbe.

Platfoarms foar it finen fan oare datasets

As jo fierder gean wolle en jo eigen dataset fine, is de bêste manier om te blêdzjen troch de meast ferneamde repositories fan 'e Machine Learning hielal:

Kaggle

Kaggle, in dochterûndernimming fan Google LLC, is in online mienskip fan gegevenswittenskippers en Machine Learning-professionals. Kaggle kinne brûkers te finen en publisearje datasets, ferkenne en meitsje modellen yn in web-basearre gegevens wittenskip omjouwing; wurkje mei oare gegevens wittenskippers en Machine Learning Engineers, en meidwaan oan wedstriden om útdagings foar gegevenswittenskip op te lossen.

Kaggle begon yn 2010 troch Machine Learning-wedstriden oan te bieden en biedt no ek in publyk oan data platfoarm, in wolkbasearre wurkbank foar gegevenswittenskip en ûnderwiis foar keunstmjittige yntelliginsje.

Dataset Search

Dataset Search is in sykmasine fan Google dy't ûndersikers helpt online gegevens te finen dy't frij beskikber binne foar gebrûk. Oer it web binne d'r miljoenen datasets oer hast elk ûnderwerp dat jo ynteresseart.

As jo op syk binne nei in puppy te keapjen, kinne jo datasets fine dy't klachten fan puppy-keapers kompilearje of stúdzjes oer puppy-kennis. Of as jo fan skiing hâlde, kinne jo gegevens fine oer de ynkomsten fan skigebieten as blessueresifers en dielnamenûmers. Dataset Search hat hast 25 miljoen fan dizze datasets yndeksearre, wat jo ien plak jout om te sykjen nei datasets en keppelings te finen nei wêr't de gegevens binne.

UCI Machine Learning Repository

De UCI Machine Learning Repository is in samling databases, domeinteoryen en gegevensgenerators dy't wurde brûkt troch de Machine Learning-mienskip foar de empiryske analyze fan Machine Learning-algoritmen. It argyf waard makke as in ftp-argyf yn 1987 troch David Aha en kollega-studinten oan UC Irvine.

Sûnt dy tiid is it in protte brûkt troch studinten, oplieders en ûndersikers oer de hiele wrâld as in primêre boarne fan ML-dataset. As yndikaasje fan 'e ynfloed fan it argyf is it mear as 1000 kear oanhelle, wêrtroch it ien fan' e top 100 meast oanhelle "papieren" is yn 'e hiele kompjûterwittenskip.

Quandl

Quandl is in platfoarm dat syn brûkers ekonomyske, finansjele en alternative datasets foarsjocht. Brûkers kinne fergees gegevens downloade, betelle gegevens keapje of gegevens ferkeapje oan Quandl. It kin in nuttich ark wêze foar de ûntwikkeling fan hannel algoritmen, bygelyks.

Konklúzje

Troch dizze ark te ferkennen, sille jo wis geweldige ynputs fine foar jo projekten. Soargje derfoar dat jo de dataset kieze dy't it meast geskikt is foar jo spesifike behoeften en hâld altyd yn gedachten: it giet net allinich oer kwantiteit, mar ek kwaliteit. De dataset is de basis fan elk Machine Learning projekt en it is essinsjeel om te bouwen op kwaliteitsgegevens om it risiko te foarkommen dat defekte konklúzjes komme.

14 bêste datasets foar masine learen

Basis fan datasets