Enhavtabelo[Kaŝi][Montri]
Ĉiu Maŝinlernada projekto dependas de bona datumaro. Estas ĉi tiu granda datumaro, kiu permesos vin trejni kaj validigi vian ML-modelon. Do, granda parto de la laboro en ML-projekto estas trovi la perfektan datumaron por viaj bezonoj. Tamen, ne ĉiam eblas trovi eblon, kiu taŭgas por via ambicio, ĉar multaj dosieroj, kiuj aspektas interesaj, finfine, ne estas.
Povas esti timige perdi tempon por elŝuti sennombrajn datumajn arojn ĝis vi alvenos al ideala aro. Konsiderante tion, ni kolektis kelkajn eblojn, kiuj ŝajnas interesaj kaj povas helpi vin evoluigi vian ML-projekton. Rimarku, ke iuj estas destinitaj por persona anstataŭ komerca uzo, do rigardu ĉi tiujn elektojn kiel manieron akiri sperton en la ML-universo.
Bazoj de Datumaroj
Antaŭ ol ni mencii la datumajn arojn, ni devus difini kelkajn terminojn. En projektoj de Artefarita Inteligenteco, precipe maŝino Lernado, granda kvanto da datumoj estas bezonataj, kiuj estos uzataj por trejni la algoritmon. Ĉi tiu kvanto da datumoj estas kolektitaj en datumbazo, kiu estas ege utila por instrui algoritmon.
Kun ĉi tiuj datumoj, la algoritmo estas trejnita - ankaŭ testita - kaj iĝas kapabla trovi ŝablonojn, establi rilatojn kaj tiel fari decidojn aŭtonome. Sen trejnado, maŝino Lernado algoritmoj ne kapablas fari ajnan agon. Tial, ju pli bonaj estas la trejnaj datumoj, des pli bone la modelo funkcios. Por ke datumbazo estu utila al la projekto, ne temas pri kvanto: temas ankaŭ pri klasifiko.
Ideale, la datumoj estu bone etikeditaj. Pensu pri la kazo de babilbotoj: lingvo-enmeto estas grava, sed zorgema sintaksa analizo devas esti farita, por ke la kreita algoritmo povu kompreni, kiam la interparolanto uzas slangon. Nur tiam la virtuala asistanto povos lanĉi la respondon laŭ tio, kion petis la uzanto.
Datumaroj povas esti generitaj de enketoj, uzantaĉetaj datumoj, taksadoj lasitaj sur servoj, kaj en multaj aliaj manieroj kiuj permesas kolekti utilajn informojn organizitajn en kolumnoj kaj vicoj en CSV-dosiero.
Antaŭ ol vi ekiras serĉi la perfektan datumaron, gravas, ke vi sciu la celon de via projekto, precipe se ĝi estas de specifa areo, kiel vetero, financo, sano, ktp. Ĉi tio diktos la fonton de kiu vi fontos vian. datumaro.
Datumaroj por ML
Trejnado de Chatbot
Efika babilejo postulas amasan kvanton da trejnaj datumoj por rapide solvi uzantajn demandojn sen homa interveno. Tamen, la primara proplemkolo en babilbot-disvolviĝo akiras realismajn, taskoorientitajn dialogdatenojn por trejni ĉi tiujn Maŝinlernadajn sistemojn bazitajn.
Konversacia datumaro kolektas datumojn en formato de demando kaj respondo. Ĝi estas ideala por trejnado de babilrotoj, kiuj donos aŭtomatajn respondojn al la spektantaro. Sen ĉi tiuj datumoj, la babilejo malsukcesos rapide solvi uzantajn demandojn aŭ respondi uzantajn demandojn sen bezono de homa interveno.
Uzante ĉi tiujn datumajn arojn, entreprenoj povas krei ilon, kiu provizas rapidajn respondojn al klientoj 24/7 kaj estas signife pli malmultekosta ol havi teamon de homoj farantaj klientan subtenon.
1. Demando-Respondo Datumaro
Ĉi tiu datumaro disponigas aron de Vikipedio-artikoloj, demandoj kaj iliaj respektivaj permane generitaj respondoj. Ĝi estas datumaro kolektita inter 2008 kaj 2010 por uzo en akademia esplorado.
2. Lingvaj Datumoj
Lingvaj Datumoj estas datumbazo administrita de Yahoo kun informoj generitaj de kelkaj el la servoj de la kompanio, kiel Yahoo! Respondo, kiu funkcias kiel malferma komunumo por uzantoj afiŝi demandojn kaj respondojn.
3. VikiQA
La WikiQA-korpuso ankaŭ konsistas el aro de demandoj kaj respondoj. La fonto de la demandoj estas Bing, dum la respondoj ligas al Vikipedia paĝo kun la potencialo solvi la komencan demandon.
Entute, estas pli ol 3,000 demandoj kaj aro de 29,258 frazoj en la datumaro, el kiuj proksimume 1,400 kategoriiĝis kiel respondoj al ekvivalenta demando.
Registaraj datumoj
Datumaroj generitaj de registaroj alportas demografiajn datumojn, kiuj estas bonegaj enigaĵoj por projektoj rilataj al komprenado de sociaj tendencoj, kreado de publikaj politikoj kaj plibonigado de socio. Ĉi tio povas esti utila por politikaj kampanjoj, celita reklamado aŭ merkata analizo.
Ĉi tiuj datumaroj kutime enhavas anonimigitajn datumojn, do dum la modeloj povas aliri la krudajn datumojn, ne estas malobservoj de persona privateco.
4. Data.gov
Lanĉita en 2009, Data.gov estas la nordamerika fonto por datumoj. Ĝia katalogo estas impresa: pli ol 218,000 XNUMX datumseroj, kiuj permesas segmentadon laŭ formato, etikedoj, tipoj kaj temoj.
5. Portalo pri Malfermaj Datumoj de EU
La Portalo de Malfermaj Datumoj de EU disponigas aliron al malfermaj datumoj kunhavataj de institucioj de la Eŭropa Unio. Ĉi tiuj estas datumoj, kiuj povas esti destinitaj por komerca kaj nekomerca uzo. Je la dispono de la uzanto estas pli ol 15.5 mil datumseroj, kovrante temojn kiel sano, energio, medio, kulturo kaj edukado.
Sanaj datumoj
Post la daŭra sankrizo tutmonde, datumaroj generitaj de sanorganizoj estas esencaj por disvolvi efikajn solvojn por savi vivojn. Ĉi tiuj datumaroj povas helpi identigi la riskfaktorojn, ellabori malsanajn transmisiajn ŝablonojn kaj akceli diagnozon.
Ĉi tiuj datumaroj konsistas el sanaj registroj, demografio de pacientoj, tropezo de malsanoj, kuracaj uzado, nutraj valoroj kaj multe pli.
6. Observatorio pri Tutmonda Sano
Ĉi tiu datumaro estas iniciato de la Monda Organizo pri Sano (OMS). Ĝi provizas publikajn datumojn rilatajn al malsamaj areoj de sano, organizitaj laŭ temoj kiel sansistemoj, kontrolo de tabako, patrineco, HIV/aidoso, ktp. Ankaŭ ekzistas la eblo konsulti datumojn pri COVID-19.
7. KORDO-19
CORD-19 estas korpuso de akademiaj publikaĵoj pri COVID-19 kaj aliaj artikoloj pri la nova koronavirus. Ĝi estas malferma datumaro celita generi novajn komprenojn pri COVID-19.
Ekonomiaj datumoj
Datumaroj rilataj al la financa medio kutime kolektas grandegan kvanton da informoj, ĉar estas kutime, ke ili estas kolektitaj dum longa tempo. Ili estas idealaj por krei ekonomiajn prognozojn aŭ establi investajn tendencojn.
Kun la ĝustaj financaj datumaroj, a Maŝinlernada modelo eble povas antaŭdiri la konduton de antaŭfiksita valoraĵo. Tial la financa sektoro faras ĉion en sia povo por krei efikan ML-modelon, ĉar ĉio, kio povas antaŭdiri eĉ racie bone, havas la eblecon generi milionojn da dolaroj. Maŝina Lernado jam antaŭdiras la konduton de civitanoj, kiu influas la manieron kiel politikofarantoj faras siajn laborojn.
8. Internacia Mona Fonduso
La IMF-datumaro enhavas gamon da ekonomiaj kaj financaj indikiloj, membrolandajn statistikojn kaj aliajn datumojn pri prunto kaj kurzo.
9. Monda Banko
La deponejo de la Monda Banko enhavas malsamajn datumarojn kun ekonomiaj informoj de malsamaj landoj. Estas pli ol 17,000 datumaroj dividitaj laŭ kontinentoj.
Recenzoj pri produktoj kaj servoj
Analizo de sentoj trovis siajn aplikojn en diversaj kampoj, kiuj nun helpas entreprenojn taksi kaj lerni de siaj klientoj aŭ klientoj ĝuste. Sentanalizo estas ĉiam pli uzata por monitorado de sociaj amaskomunikiloj, marka monitorado, voĉo de la kliento (VoC), klientservo kaj merkata esploro.
Sentanalizo uzas NLP (neŭro-lingva programado) metodoj kaj algoritmoj kiuj estas aŭ regul-bazitaj, hibridaj, aŭ fidas je Maŝinlernado-teknikoj por lerni datenojn de datumaroj.
La datumoj bezonataj en sentanalizo devus esti specialigitaj kaj estas postulataj en grandaj kvantoj. La plej malfacila parto pri la trejnadprocezo de sentanalizo ne estas trovi datumojn en grandaj kvantoj; anstataŭe, ĝi estas trovi la koncernajn datumarojn. Ĉi tiuj datumaj aroj devas kovri larĝan areon de sentoj-analizaj aplikoj kaj uzkazoj.
10. Recenzoj pri Amazonoj
Ĉi tiu datumaro enhavas ĉirkaŭ 35 milionojn da Amazon-recenzoj, enhavante 18-jaran periodon de kolektitaj informoj. Ĝi estas datumaro de produkto, uzanto kaj recenza enhavo.
11. Yelp Recenzoj
Yelp ankaŭ ofertas datumaron bazitan sur informoj kolektitaj de sia servo. Estas pli ol 8 milionoj da recenzoj, 1 miliono da konsiletoj, plus preskaŭ 1.5 milionoj da atributoj rilataj al entreprenoj, kiel malfermhoroj kaj havebleco.
12. IMDB-recenzoj
Ĉi tiu datumbazo enhavas aron de pli ol 25 mil filmrecenzoj por trejnado kaj pliajn 25 mil por testoj prenitaj neformale de la IMDB-paĝo, specialigita pri filmtaksoj. Ĝi ankaŭ ofertas neetikeditajn datumojn kiel aldonaĵon.
Datumaroj por la unuaj paŝoj en ML
13. Vino Kvalito Datumoj
Ĉi tiu datumaro disponigas informojn rilate al vino, kaj ruĝa kaj verda, produktita en norda Portugalio. La celo estas difini la vinkvaliton surbaze de fizikkemiaj testoj. Interesa por tiuj, kiuj volas praktiki krei antaŭdiran sistemon.
14. Titanic Datumaro
Ĉi tiu datumaro alportas datumojn de 887 realaj pasaĝeroj de la Titanic, kun ĉiu kolumno difinas ĉu ili pluvivis, ilian aĝon, pasaĝerklason, sekson, kaj la eniĝkotizon kiun ili pagis. Ĉi tiu datumaro estis parto de defio lanĉita de la Kaggle-platformo, kies celo estis krei modelon kiu povis antaŭdiri kiuj pasaĝeroj postvivis la sinkigon de la Titanic.
Platformoj por Trovo de Aliaj Datumaroj
Se vi volas iri plu kaj trovi vian propran datumaron, la plej bona maniero estas foliumi tra la plej famaj deponejoj de la maŝino Lernado universo:
Kaggle
Kaggle, filio de Google LLC, estas interreta komunumo de datumsciencistoj kaj profesiuloj pri Maŝinlernado. Kaggle permesas al uzantoj trovi kaj publikigi datumarojn, esplori kaj krei modelojn en ret-bazita datuma scienca medio; labori kun aliaj datumsciencistoj kaj Inĝenieroj pri Maŝinlernado, kaj partoprenu konkursojn por solvi datumajn sciencajn defiojn.
Kaggle komencis en 2010 proponante konkursojn pri Maŝinlernado kaj nun ankaŭ ofertas publikon datumplatformo, nub-bazita laborbenko por datumscienco kaj Artefarita Inteligenta edukado.
Serĉo de Datumoj
Dataset Search estas serĉilo de Google, kiu helpas esploristojn trovi retajn datumojn, kiuj estas libere disponeblaj por uzo. Tra la reto, ekzistas milionoj da datumaroj pri preskaŭ ajna temo, kiu interesas vin.
Se vi serĉas aĉeti hundidon, vi povus trovi datumajn arojn kompilantaj plendojn de hundidoj aĉetantoj aŭ studoj pri hundido-scio. Aŭ se vi ŝatas skii, vi povus trovi datumojn pri la enspezo de skiejoj aŭ vundotarifoj kaj partoprennombroj. Dataset Search indeksis preskaŭ 25 milionojn da ĉi tiuj datumaroj, donante al vi ununuran lokon por serĉi datumajn arojn kaj trovi ligilojn al kie estas la datumoj.
Deponejo pri Maŝinlernado de UCI
La UCI Machine Learning Repository estas kolekto de datumbazoj, domajnaj teorioj kaj datumgeneratoroj kiuj estas uzitaj fare de la Machine Learning-komunumo por la empiria analizo de Machine Learning-algoritmoj. La arkivo estis kreita kiel ftp-arkivo en 1987 fare de David Aha kaj kungradstudantoj ĉe UC Irvine.
Ekde tiu tempo, ĝi estas vaste uzata de studentoj, edukistoj kaj esploristoj tra la tuta mondo kiel ĉefa fonto de ML-datumseroj. Kiel indiko de la efiko de la arkivo, ĝi estis citita pli ol 1000 fojojn, igante ĝin unu el la supraj 100 plej cititaj "artikoloj" en ĉio el komputiko.
Quandl
Quandl estas platformo, kiu provizas siajn uzantojn per ekonomiaj, financaj kaj alternativaj datumaroj. Uzantoj povas elŝuti senpagajn datumojn, aĉeti pagitajn datumojn aŭ vendi datumojn al Quandl. Ĝi povas esti utila ilo por la disvolviĝo de komercaj algoritmoj, ekzemple.
konkludo
Esplorante ĉi tiujn ilojn, vi certe trovos bonegajn enigaĵojn por viaj projektoj. Nepre elektu la datumararon, kiu plej taŭgas por viaj specifaj bezonoj kaj ĉiam memoru: ne temas nur pri kvanto, sed ankaŭ pri kvalito. La datumaro estas la bazo de iu ajn Projekto pri Maŝinlernado kaj estas esence konstrui sur kvalitaj datumoj por eviti la riskon atingi misajn konkludojn.
Lasi Respondon