Turinys[Slėpti][Rodyti]
Kiekvienas mašininio mokymosi projektas remiasi geru duomenų rinkiniu. Būtent šis didelis duomenų rinkinys leis jums išmokyti ir patvirtinti savo ML modelį. Taigi, didžioji ML projekto darbo dalis yra tobulo duomenų rinkinio paieška pagal jūsų poreikius. Tačiau ne visada įmanoma rasti variantą, atitinkantį jūsų ambicijas, nes daugelis failų, kurie atrodo įdomūs, galiausiai nėra tokie.
Gali būti baugu gaišti laiką atsisiunčiant daugybę duomenų rinkinių, kol pasieksite idealų rinkinį. Atsižvelgdami į tai, surinkome keletą variantų, kurie atrodo įdomūs ir gali padėti plėtoti ML projektą. Atminkite, kad kai kurie yra skirti asmeniniam, o ne komerciniam naudojimui, todėl žiūrėkite į šias parinktis kaip į būdą įgyti patirties ML visatoje.
Duomenų rinkinių pagrindai
Prieš minėdami duomenų rinkinius, turėtume apibrėžti kai kuriuos terminus. Dirbtinio intelekto projektuose, ypač Mašininis mokymasis, reikalingas didelis duomenų kiekis, kuris bus naudojamas algoritmui lavinti. Toks duomenų kiekis surenkamas į duomenų bazę, kuri yra labai naudinga mokant algoritmo.
Turint šiuos duomenis, algoritmas apmokomas – taip pat išbandomas – ir tampa pajėgus rasti šablonus, užmegzti ryšius ir taip savarankiškai priimti sprendimus. Be mokymo, Mašininis mokymasis algoritmai negali atlikti jokių veiksmų. Todėl kuo geresni treniruočių duomenys, tuo geriau modelis veiks. Kad duomenų bazė būtų naudinga projektui, svarbu ne kiekybė, o klasifikacija.
Idealiu atveju duomenys turėtų būti gerai pažymėti. Pagalvokite apie pokalbių robotų atvejį: kalbos įterpimas yra svarbus, tačiau reikia atlikti kruopščią sintaksinę analizę, kad sukurtas algoritmas suprastų, kada pašnekovas vartoja žargoną. Tik tada virtualus asistentas galės paleisti atsakymą pagal tai, ko paprašė vartotojas.
Duomenų rinkiniai gali būti generuojami iš apklausų, vartotojų pirkimo duomenų, paslaugų įvertinimų ir daugeliu kitų būdų, kurie leidžia rinkti naudingą informaciją, suskirstytą į CSV failo stulpelius ir eilutes.
Prieš pradėdami ieškoti tobulo duomenų rinkinio, svarbu žinoti savo projekto tikslą, ypač jei jis yra iš konkrečios srities, pvz., orų, finansų, sveikatos ir kt. Tai padiktuos šaltinį, iš kurio gausite savo duomenis. duomenų rinkinys.
ML duomenų rinkiniai
Chatbot mokymai
Veiksmingam pokalbių robotui reikalingas didžiulis mokymo duomenų kiekis, kad būtų galima greitai išspręsti vartotojų užklausas be žmogaus įsikišimo. Tačiau pagrindinė pokalbių roboto kūrimo kliūtis yra gauti realistiškus, į užduotis orientuotus dialogo duomenis, kad būtų galima išmokyti šias mašininiu mokymusi pagrįstas sistemas.
Pokalbio duomenų rinkinys renka duomenis klausimų ir atsakymų formatu. Tai idealiai tinka mokyti pokalbių robotus, kurie pateiks automatinius atsakymus auditorijai. Be šių duomenų pokalbių robotas negalės greitai išspręsti vartotojų užklausų ar atsakyti į vartotojų klausimus be žmogaus įsikišimo.
Naudodamos šiuos duomenų rinkinius, įmonės gali sukurti įrankį, kuris teikia greitus atsakymus klientams 24 valandas per parą, 7 dienas per savaitę ir yra žymiai pigesnis nei klientų aptarnavimo komanda.
1. Klausimų-atsakymų duomenų rinkinys
Šiame duomenų rinkinyje pateikiamas Vikipedijos straipsnių, klausimų ir atitinkamų rankiniu būdu sugeneruotų atsakymų rinkinys. Tai duomenų rinkinys, surinktas 2008–2010 m., skirtas naudoti moksliniai tyrimai.
2. Kalbos duomenys
Kalbos duomenys yra Yahoo valdoma duomenų bazė su informacija, sugeneruota iš kai kurių įmonės paslaugų, pvz., Yahoo! Atsakymas, kuris veikia kaip atvira bendruomenė, kurioje vartotojai gali skelbti klausimus ir atsakymus.
3. WikiQA
WikiQA korpusą taip pat sudaro klausimų ir atsakymų rinkinys. Klausimų šaltinis yra Bing, o atsakymai nukreipia į Vikipedijos puslapį, kuriame galima išspręsti pradinį klausimą.
Iš viso duomenų rinkinyje yra daugiau nei 3,000 klausimų ir 29,258 1,400 sakinių rinkinys, iš kurių apie XNUMX XNUMX buvo priskirti atsakymui į atitinkamą klausimą.
Vyriausybės duomenys
Vyriausybių sugeneruoti duomenų rinkiniai pateikia demografinius duomenis, kurie puikiai tinka projektams, susijusiems su socialinių tendencijų supratimu, viešosios politikos kūrimu ir visuomenės gerinimu. Tai gali būti naudinga politinėms kampanijoms, tikslinei reklamai ar rinkos analizei.
Šiuose duomenų rinkiniuose paprastai yra anoniminių duomenų, todėl, nors modeliai gali pasiekti neapdorotus duomenis, asmens privatumas nepažeidžiamas.
4. Data.gov
2009 m. pradėtas naudoti Data.gov yra Šiaurės Amerikos duomenų šaltinis. Jo katalogas įspūdingas: daugiau nei 218,000 XNUMX duomenų rinkinių, leidžiančių segmentuoti pagal formatą, žymas, tipus ir temas.
5. ES atvirų duomenų portalas
ES atvirųjų duomenų portalas suteikia prieigą prie atvirų duomenų, kuriais dalijasi Europos Sąjungos institucijos. Tai yra duomenys, kurie gali būti skirti komerciniam ir nekomerciniam naudojimui. Naudotojas turi daugiau nei 15.5 tūkstančio duomenų rinkinių, apimančių tokias temas kaip sveikata, energija, aplinka, kultūra ir švietimas.
Sveikatos duomenys
Po visame pasaulyje besitęsiančios sveikatos krizės sveikatos organizacijų sukurti duomenų rinkiniai yra būtini kuriant veiksmingus sprendimus, kaip išgelbėti gyvybes. Šie duomenų rinkiniai gali padėti nustatyti rizikos veiksnius, išsiaiškinti ligų perdavimo būdus ir pagreitinti diagnozę.
Šiuos duomenų rinkinius sudaro sveikatos įrašai, pacientų demografija, ligų paplitimas, vaistų vartojimas, maistinės vertės ir daug daugiau.
6. Pasaulinė sveikatos observatorija
Šis duomenų rinkinys yra Pasaulio sveikatos organizacijos (PSO) iniciatyva. Jame teikiami vieši duomenys, susiję su įvairiomis sveikatos sritimis, suskirstyti pagal tokias temas kaip sveikatos sistemos, tabako vartojimo kontrolė, motinystė, ŽIV/AIDS ir kt. Taip pat yra galimybė peržiūrėti duomenis apie COVID-19.
7. LAIDAS-19
CORD-19 yra akademinių publikacijų apie COVID-19 ir kitų straipsnių apie naująjį koronavirusą rinkinys. Tai atviras duomenų rinkinys, skirtas naujoms įžvalgoms apie COVID-19 sukurti.
Ekonomikos duomenys
Duomenų rinkiniai, susiję su finansine aplinka, paprastai surenka labai daug informacijos, nes įprasta, kad jie kaupiami ilgą laiką. Jie idealiai tinka kurti ekonomines prognozes ar nustatyti investicijų tendencijas.
Turėdami tinkamus finansinių duomenų rinkinius, a Mašininio mokymosi modelis gali numatyti tam tikro turto elgesį. Štai kodėl finansų sektorius daro viską, ką gali, kad sukurtų veiksmingą ML modelį, nes viskas, kas gali net pakankamai gerai prognozuoti, gali generuoti milijonus dolerių. Mašininis mokymasis jau nuspėja piliečių elgesį, o tai daro įtaką tam, kaip politikos formuotojai atlieka savo darbą.
8. Tarptautinis valiutos fondas
TVF duomenų rinkinyje yra įvairių ekonominių ir finansinių rodiklių, šalių narių statistikos ir kitų paskolų bei valiutų kursų duomenų.
9. Pasaulio bankas
Pasaulio banko saugykloje yra įvairių duomenų rinkinių su ekonomine informacija iš skirtingų šalių. Yra daugiau nei 17,000 XNUMX duomenų rinkinių, suskirstytų pagal žemynus.
Produktų ir paslaugų apžvalgos
Sentimentų analizė rado savo pritaikymą įvairiose srityse, kurios dabar padeda įmonėms teisingai įvertinti savo klientus ar klientus ir mokytis iš jų. Sentimentų analizė vis dažniau naudojama socialinės žiniasklaidos stebėjimui, prekės ženklo stebėjimui, kliento balsui (VoC), klientų aptarnavimui ir rinkos tyrimams.
Sentimentų analizė naudoja NLP (neurolingvistinis programavimas) metodai ir algoritmai, kurie yra pagrįsti taisyklėmis, mišrūs arba remiasi mašininio mokymosi metodais, kad išmoktų duomenis iš duomenų rinkinių.
Sentimentų analizei reikalingi duomenys turėtų būti specializuoti ir reikalingi dideliais kiekiais. Sudėtingiausia nuotaikų analizės mokymo proceso dalis – nerasti didelių duomenų; vietoj to reikia rasti atitinkamus duomenų rinkinius. Šie duomenų rinkiniai turi apimti plačią nuotaikų analizės programų ir naudojimo atvejų sritį.
10. „Amazon“ apžvalgos
Šiame duomenų rinkinyje yra apie 35 milijonai „Amazon“ apžvalgų, apimančių 18 metų surinktos informacijos laikotarpį. Tai produktų, naudotojų ir apžvalgų turinio duomenų rinkinys.
11. Yelp apžvalgos
„Yelp“ taip pat siūlo duomenų rinkinį, pagrįstą informacija, surinkta iš jos paslaugos. Yra daugiau nei 8 milijonai atsiliepimų, 1 milijonas patarimų ir beveik 1.5 milijono atributų, susijusių su verslu, pvz., darbo valandos ir pasiekiamumas.
12. IMDB apžvalgos
Šioje duomenų bazėje yra daugiau nei 25 tūkstančių filmų apžvalgų rinkinys mokymams ir dar 25 tūkstančiai testų, paimtų neformaliai iš IMDB puslapio, specializuojasi filmų reitinguose. Jis taip pat siūlo nepažymėtus duomenis kaip papildomą.
Duomenų rinkiniai pirmiesiems ML žingsniams
13. Vyno kokybės duomenų rinkinys
Šiame duomenų rinkinyje pateikiama informacija apie raudoną ir žalią vyną, pagamintą šiaurinėje Portugalijoje. Tikslas yra nustatyti vyno kokybę remiantis fizikiniais ir cheminiais tyrimais. Įdomu tiems, kurie nori praktikuotis kuriant prognozavimo sistemą.
14. Titaniko duomenų rinkinys
Šiame duomenų rinkinyje pateikiami 887 tikrų „Titaniko“ keleivių duomenys, kiekviename stulpelyje nurodoma, ar jie išgyveno, jų amžius, keleivių klasė, lytis ir sumokėtas įlaipinimo mokestis. Šis duomenų rinkinys buvo Kaggle platformos pradėto iššūkio dalis, kurios tikslas buvo sukurti modelį, kuris galėtų numatyti, kurie keleiviai išgyveno nuskendus Titanikui.
Kitų duomenų rinkinių radimo platformos
Jei norite eiti toliau ir rasti savo duomenų rinkinį, geriausias būdas yra naršyti garsiausias duomenų saugyklas. Mašininis mokymasis visata:
Kabinti
„Kaggle“, „Google LLC“ dukterinė įmonė, yra internetinė duomenų mokslininkų ir mašininio mokymosi profesionalų bendruomenė. „Kaggle“ leidžia vartotojams rasti ir publikuoti duomenų rinkinius, tyrinėti ir kurti modelius žiniatinklio duomenų mokslo aplinkoje; dirbti su kitais duomenų mokslininkais ir Mašininio mokymosi inžinieriaiir dalyvauti konkursuose, skirtuose duomenų mokslo iššūkiams spręsti.
„Kaggle“ pradėjo 2010 m., siūlydama mašininio mokymosi konkursus, o dabar taip pat siūlo visuomenei duomenų platforma, debesimis pagrįstas duomenų mokslo ir dirbtinio intelekto ugdymo darbastalis.
Duomenų rinkinio paieška
Duomenų rinkinio paieška yra „Google“ paieškos variklis, padedantis tyrėjams rasti internetinius duomenis, kuriuos galima laisvai naudoti. Visame žiniatinklyje yra milijonai duomenų rinkinių apie beveik bet kurią jus dominančią temą.
Jei norite įsigyti šuniuką, galite rasti duomenų rinkinius, kuriuose kaupiami šuniukų pirkėjų skundai arba šuniukų pažinimo tyrimai. Arba, jei mėgstate slidinėti, galite rasti duomenis apie slidinėjimo kurortų pajamas arba traumų skaičių ir dalyvių skaičių. Duomenų rinkinių paieška indeksavo beveik 25 milijonus šių duomenų rinkinių, todėl galite vienoje vietoje ieškoti duomenų rinkinių ir rasti nuorodas į duomenų vietą.
UCI mašininio mokymosi saugykla
UCI mašininio mokymosi saugykla yra duomenų bazių, domenų teorijų ir duomenų generatorių rinkinys, kurį mašininio mokymosi bendruomenė naudoja mašininio mokymosi algoritmų empirinei analizei. Archyvą kaip ftp archyvą 1987 m. sukūrė David Aha ir kiti UC Irvine absolventai.
Nuo to laiko jis buvo plačiai naudojamas studentų, pedagogų ir mokslininkų visame pasaulyje kaip pagrindinis ML duomenų rinkinių šaltinis. Kaip archyvo poveikio rodiklis, jis buvo cituojamas daugiau nei 1000 kartų, todėl jis yra vienas iš 100 dažniausiai cituojamų „straipsnių“ visoje kompiuterių moksle.
Quandl
Quandl yra platforma, kuri savo vartotojams teikia ekonominius, finansinius ir alternatyvius duomenų rinkinius. Vartotojai gali atsisiųsti nemokamus duomenis, pirkti mokamus duomenis arba parduoti duomenis Quandl. Tai gali būti naudinga priemonė plėtojant prekybos algoritmai, pavyzdžiui.
Išvada
Ištyrę šiuos įrankius tikrai rasite puikių indėlių savo projektams. Būtinai pasirinkite duomenų rinkinį, kuris labiausiai atitinka jūsų konkrečius poreikius, ir visada turėkite omenyje: tai ne tik kiekybė, bet ir kokybė. Duomenų rinkinys yra bet kurio Mašininio mokymosi projektas ir labai svarbu remtis kokybiškais duomenimis, kad būtų išvengta klaidingų išvadų.
Palikti atsakymą