Kazalo[Skrij][Pokaži]
Vsak projekt strojnega učenja temelji na dobrem naboru podatkov. Prav ta velik nabor podatkov vam bo omogočil usposabljanje in potrditev vašega modela ML. Torej, velik del dela v projektu ML je iskanje popolnega nabora podatkov za vaše potrebe. Vendar pa ni vedno mogoče najti možnosti, ki ustreza vašim ambicijam, saj številne datoteke, ki so videti zanimive, na koncu niso.
Lahko je zastrašujoče izgubljati čas za prenos neštetih podatkovnih nizov, dokler ne pridete do idealnega nabora. Glede na to smo zbrali nekaj možnosti, ki se zdijo zanimive in vam lahko pomagajo razviti vaš projekt ML. Upoštevajte, da so nekatere namenjene osebni namesto komercialni uporabi, zato si oglejte te možnosti kot način za pridobivanje izkušenj v vesolju ML.
Osnove naborov podatkov
Preden omenimo nabore podatkov, moramo opredeliti nekaj izrazov. Še posebej v projektih umetne inteligence strojno učenje, je potrebna velika količina podatkov, ki bodo uporabljeni za usposabljanje algoritma. Ta količina podatkov je zbrana v bazi podatkov, ki je izjemno uporabna za poučevanje algoritma.
S temi podatki se algoritem usposobi – tudi preizkusi – in postane sposoben iskati vzorce, vzpostavljati odnose in tako samostojno sprejemati odločitve. Brez treninga, strojno učenje algoritmi ne morejo izvesti nobenega dejanja. Zato boljši kot so podatki o usposabljanju, boljši bo model. Da bi bila baza podatkov uporabna za projekt, ne gre za kvantiteto: gre tudi za klasifikacijo.
V idealnem primeru bi morali biti podatki dobro označeni. Pomislite na primer klepetalnic: vstavljanje jezika je pomembno, vendar je treba opraviti skrbno sintaktično analizo, da lahko ustvarjeni algoritem razume, kdaj sogovornik uporablja sleng. Šele takrat bo virtualni pomočnik lahko sprožil odgovor glede na to, kar je zahteval uporabnik.
Nabore podatkov je mogoče ustvariti iz anket, podatkov o nakupih uporabnikov, ocen storitev in na številne druge načine, ki omogočajo zbiranje koristnih informacij, organiziranih v stolpce in vrstice v datoteki CSV.
Preden se odpravite iskati popoln nabor podatkov, je pomembno, da poznate namen svojega projekta, še posebej, če gre za določeno področje, kot so vreme, finance, zdravje itd. To bo narekovalo vir, iz katerega boste pridobili svoje nabor podatkov.
Nabori podatkov za ML
Usposabljanje za klepetalnice
Učinkovit robot za klepetanje zahteva ogromno količino podatkov za usposabljanje, da lahko hitro reši vprašanja uporabnikov brez človeškega posredovanja. Vendar pa je glavno ozko grlo pri razvoju klepetalnic pridobivanje realističnih, v nalogo usmerjenih pogovornih podatkov za usposabljanje teh sistemov, ki temeljijo na strojnem učenju.
Pogovorni nabor podatkov zbira podatke v obliki vprašanj in odgovorov. Idealen je za usposabljanje klepetalnikov, ki bodo občinstvu dali avtomatske odgovore. Brez teh podatkov klepetalnica ne bo hitro rešila uporabniških poizvedb ali odgovorila na vprašanja uporabnikov brez potrebe po posredovanju človeka.
Z uporabo teh podatkovnih nizov lahko podjetja ustvarijo orodje, ki strankam zagotavlja hitre odgovore 24 ur na dan, 7 dni v tednu in je bistveno ceneje kot ekipa ljudi, ki skrbi za podporo strankam.
1. Podatkovni niz vprašanj-odgovorov
Ta nabor podatkov ponuja niz člankov, vprašanj in njihovih ročno ustvarjenih odgovorov v Wikipediji. To je zbirka podatkov, zbrana med letoma 2008 in 2010 za uporabo v akademske raziskave.
2. Jezikovni podatki
Jezikovni podatki so zbirka podatkov, ki jo upravlja Yahoo z informacijami, pridobljenimi iz nekaterih storitev podjetja, kot je Yahoo! Answer, ki deluje kot odprta skupnost, v kateri lahko uporabniki objavljajo vprašanja in odgovore.
3. WikiQA
Tudi korpus WikiQA je sestavljen iz niza vprašanj in odgovorov. Vir vprašanj je Bing, medtem ko se odgovori povezujejo na stran Wikipedije, ki lahko reši začetno vprašanje.
Skupno je v naboru podatkov več kot 3,000 vprašanj in niz 29,258 stavkov, od tega je bilo približno 1,400 kategoriziranih kot odgovori na ustrezno vprašanje.
Vladni podatki
Podatkovni nizi, ki jih ustvarijo vlade, prinašajo demografske podatke, ki so odlični vložki za projekte, povezane z razumevanjem družbenih trendov, oblikovanjem javnih politik in izboljšanjem družbe. To je lahko koristno za politične kampanje, ciljano oglaševanje ali analizo trga.
Ti nabori podatkov običajno vsebujejo anonimizirane podatke, tako da lahko modeli dostopajo do neobdelanih podatkov, vendar ni kršitev osebne zasebnosti.
4. Data.gov
Data.gov, ki je bil uveden leta 2009, je severnoameriški vir podatkov. Njegov katalog je impresiven: več kot 218,000 podatkovnih nizov, ki omogočajo segmentacijo po obliki, oznakah, vrstah in temah.
5. Portal odprtih podatkov EU
Portal odprtih podatkov EU omogoča dostop do odprtih podatkov, ki si jih delijo institucije Evropske unije. To so podatki, ki so lahko namenjeni komercialni in nekomercialni uporabi. Uporabniku je na voljo več kot 15.5 tisoč nizov podatkov, ki pokrivajo teme, kot so zdravje, energija, okolje, kultura in izobraževanje.
Podatki o zdravju
Po sedanji zdravstveni krizi po vsem svetu so nabori podatkov, ki jih ustvarijo zdravstvene organizacije, bistveni za razvoj učinkovitih rešitev za reševanje življenj. Ti nabori podatkov lahko pomagajo prepoznati dejavnike tveganja, določiti vzorce prenosa bolezni in pospešiti diagnozo.
Ti nabori podatkov so sestavljeni iz zdravstvenih kartotek, demografskih podatkov bolnikov, razširjenosti bolezni, uporabe zdravil, hranilnih vrednosti in še veliko več.
6. Globalni observatorij za zdravje
Ta niz podatkov je pobuda Svetovne zdravstvene organizacije (WHO). Zagotavlja javne podatke, povezane z različnimi področji zdravja, organizirane po temah, kot so zdravstveni sistemi, nadzor nad uporabo tobaka, materinstvo, HIV/AIDS itd. Obstaja tudi možnost pregleda podatkov o COVID-19.
7. CORD-19
CORD-19 je zbirka akademskih publikacij o COVID-19 in drugih člankov o novem koronavirusu. Gre za odprt nabor podatkov, ki je namenjen ustvarjanju novih vpogledov o COVID-19.
Ekonomski podatki
Podatkovni nizi, povezani s finančnim okoljem, običajno zberejo ogromno informacij, saj je običajno, da se zbirajo že dolgo. Idealne so za ustvarjanje gospodarskih napovedi ali ugotavljanje naložbenih trendov.
S pravimi nabori finančnih podatkov, a Model strojnega učenja bi lahko predvidel vedenje danega sredstva. Zato finančni sektor dela vse, kar je v njegovi moči, da ustvari učinkovit model ML, saj lahko vse, kar lahko še tako dobro predvidi, ustvari milijone dolarjev. Strojno učenje že napoveduje vedenje državljanov, kar vpliva na to, kako oblikovalci politik opravljajo svoje delo.
8. Mednarodni monetarni sklad
Nabor podatkov MDS vsebuje vrsto ekonomskih in finančnih kazalnikov, statistiko držav članic ter druge podatke o posojilih in deviznih tečajih.
9. Svetovna banka
Repozitorij Svetovne banke vsebuje različne nabore podatkov z ekonomskimi informacijami iz različnih držav. Obstaja več kot 17,000 podatkovnih nizov, razdeljenih po celinah.
Pregledi izdelkov in storitev
Analiza občutkov je našla svoje aplikacije na različnih področjih, ki zdaj podjetjem pomagajo pravilno oceniti in se od svojih strank ali strank učijo. Analiza občutkov se vse pogosteje uporablja za spremljanje družbenih medijev, spremljanje blagovne znamke, glas stranke (VoC), storitve za stranke in tržne raziskave.
Analiza občutkov uporablja NLP (nevrolingvistično programiranje) metode in algoritmi, ki temeljijo na pravilih, hibridni ali se zanašajo na tehnike strojnega učenja za učenje podatkov iz naborov podatkov.
Podatki, potrebni za analizo razpoloženja, bi morali biti specializirani in zahtevani v velikih količinah. Najzahtevnejši del procesa usposabljanja za analizo razpoloženja ni iskanje velikih količin podatkov; namesto tega je iskanje ustreznih podatkovnih nizov. Ti nabori podatkov morajo pokrivati široko področje aplikacij in primerov uporabe analize razpoloženja.
10. Ocene Amazon
Ta nabor podatkov vsebuje približno 35 milijonov Amazonovih pregledov, ki zajemajo 18-letno obdobje zbranih informacij. Je nabor podatkov o izdelkih, uporabnikih in vsebinah ocene.
11. Yelp pregledi
Yelp ponuja tudi nabor podatkov, ki temelji na informacijah, zbranih iz njegove storitve. Obstaja več kot 8 milijonov mnenj, 1 milijon nasvetov in skoraj 1.5 milijona atributov, povezanih s podjetji, kot so delovni čas in razpoložljivost.
12. Ocene IMDB
Ta zbirka podatkov vsebuje nabor več kot 25 tisoč filmskih ocen za usposabljanje in še 25 tisoč za teste, neuradno vzete s strani IMDB, specializirane za ocene filmov. Kot dodatek ponuja tudi neoznačene podatke.
Nabori podatkov za prve korake v ML
13. Nabor podatkov o kakovosti vina
Ta nabor podatkov zagotavlja informacije v zvezi z vinom, rdečim in zelenim, proizvedenim na severu Portugalske. Cilj je opredeliti kakovost vina na podlagi fizikalno-kemijskih testov. Zanimivo za tiste, ki želijo vaditi ustvarjanje sistema napovedi.
14. Nabor podatkov Titanik
Ta nabor podatkov prinaša podatke od 887 resničnih potnikov s Titanika, pri čemer vsak stolpec določa, ali so preživeli, njihovo starost, razred potnikov, spol in pristojbino za vkrcanje, ki so jo plačali. Ta nabor podatkov je bil del izziva, ki ga je sprožila platforma Kaggle, katerega cilj je bil ustvariti model, ki bi lahko napovedal, kateri potniki so preživeli potopitev Titanika.
Platforme za iskanje drugih naborov podatkov
Če želite iti dlje in poiskati svoj nabor podatkov, je najboljši način brskanje po najbolj znanih repozitorijih strojno učenje vesolje:
Kaggle
Kaggle, podružnica družbe Google LLC, je spletna skupnost podatkovnih znanstvenikov in strokovnjakov za strojno učenje. Kaggle uporabnikom omogoča iskanje in objavo podatkovnih nizov, raziskovanje in ustvarjanje modelov v spletnem okolju podatkovnih znanosti; delo z drugimi podatkovnimi znanstveniki in Inženirji strojnega učenja, in sodelovati v tekmovanjih za reševanje izzivov podatkovne znanosti.
Kaggle se je začel leta 2010 s ponudbo tekmovanj za strojno učenje, zdaj pa ponuja tudi javno podatkovna platforma, delovna miza v oblaku za izobraževanje o podatkih in umetno inteligenco.
Iskanje nabora podatkov
Dataset Search je Googlov iskalnik, ki pomaga raziskovalcem najti spletne podatke, ki so prosto dostopni za uporabo. Po spletu je na milijone podatkovnih nizov o skoraj vsaki temi, ki vas zanima.
Če želite kupiti mladička, lahko najdete nabore podatkov, ki zbirajo pritožbe kupcev mladičev ali študije o spoznavanju mladičev. Če pa vam je všeč smučanje, lahko najdete podatke o prihodkih smučišč ali stopnjah poškodb in udeležbe. Iskanje naborov podatkov je indeksiralo skoraj 25 milijonov teh podatkovnih nizov, kar vam daje eno samo mesto za iskanje naborov podatkov in iskanje povezav do podatkov, kjer so.
UCI Repozitorij strojnega učenja
Repozitorij strojnega učenja UCI je zbirka baz podatkov, teorij domen in generatorjev podatkov, ki jih uporablja skupnost strojnega učenja za empirično analizo algoritmov strojnega učenja. Arhiv so ustvarili kot ftp arhiv leta 1987 David Aha in kolegi podiplomski študenti na UC Irvine.
Od takrat ga študenti, učitelji in raziskovalci po vsem svetu pogosto uporabljajo kot primarni vir podatkovnih nizov ML. Kot pokazatelj učinka arhiva je bil citiran več kot 1000-krat, zaradi česar je eden izmed 100 najbolj citiranih »prispevkov« v vsej računalniški znanosti.
Quandl
Quandl je platforma, ki svojim uporabnikom ponuja ekonomske, finančne in alternativne nabore podatkov. Uporabniki lahko prenesejo brezplačne podatke, kupijo plačljive podatke ali jih prodajo Quandlu. Lahko je uporabno orodje za razvoj algoritmi trgovanja, Npr.
zaključek
Z raziskovanjem teh orodij boste zagotovo našli odlične vložke za svoje projekte. Bodite prepričani, da izberete nabor podatkov, ki je najbolj primeren za vaše posebne potrebe, in vedno imejte v mislih: ne gre samo za količino, ampak tudi za kakovost. Podatkovni niz je osnova katerega koli Projekt strojnega učenja in nujno je graditi na kakovostnih podatkih, da bi se izognili tveganju napačnih sklepov.
Pustite Odgovori