Përmbajtje[Fshih][Shfaqje]
Çdo projekt i Mësimit të Makinerisë mbështetet në një bazë të dhënash të mirë. Është ky grup i madh i të dhënave që do t'ju lejojë të trajnoni dhe vërtetoni modelin tuaj ML. Pra, një pjesë e madhe e punës në një projekt ML është gjetja e të dhënave të përsosura për nevojat tuaja. Megjithatë, nuk është gjithmonë e mundur të gjesh një opsion që i përshtatet ambicieve të tua, pasi shumë skedarë që duken interesante, në fund të fundit, nuk janë.
Mund të jetë e frikshme të humbni kohë duke shkarkuar grupe të dhënash të panumërta derisa të arrini në një grup ideal. Me këtë në mendje, ne kemi mbledhur disa opsione që duken interesante dhe mund t'ju ndihmojnë të zhvilloni projektin tuaj ML. Vini re se disa janë të destinuara për përdorim personal dhe jo komercial, kështu që shikoni këto opsione si një mënyrë për të fituar përvojë në universin ML.
Bazat e grupeve të të dhënave
Përpara se të përmendim grupet e të dhënave, duhet të përcaktojmë disa terma. Në projektet e Inteligjencës Artificiale, veçanërisht Mësim Machine, kërkohet një sasi e madhe të dhënash, të cilat do të përdoren për të trajnuar algoritmin. Kjo sasi e të dhënave mblidhet në një bazë të dhënash, e cila është jashtëzakonisht e dobishme për të mësuar një algoritëm.
Me këto të dhëna, algoritmi trajnohet - gjithashtu testohet - dhe bëhet i aftë të gjejë modele, të krijojë marrëdhënie dhe kështu të marrë vendime në mënyrë autonome. Pa trajnim, Mësim Machine algoritmet nuk janë në gjendje të kryejnë asnjë veprim. Prandaj, sa më të mira të jenë të dhënat e trajnimit, aq më mirë do të performojë modeli. Që një bazë të dhënash të jetë e dobishme për projektin, nuk ka të bëjë me sasinë: ka të bëjë gjithashtu me klasifikimin.
Idealisht, të dhënat duhet të etiketohen mirë. Mendoni për rastin e chatbot-eve: futja e gjuhës është e rëndësishme, por duhet bërë analiza sintaksore e kujdesshme në mënyrë që algoritmi i krijuar të kuptojë kur bashkëbiseduesi përdor zhargon. Vetëm atëherë asistenti virtual do të jetë në gjendje të lëshojë përgjigjen sipas asaj që është kërkuar nga përdoruesi.
Grupet e të dhënave mund të gjenerohen nga sondazhet, të dhënat e blerjeve të përdoruesve, vlerësimet e lëna në shërbime dhe në shumë mënyra të tjera që lejojnë mbledhjen e informacionit të dobishëm të organizuar në kolona dhe rreshta në një skedar CSV.
Përpara se të niseni në kërkimin e bazës së të dhënave të përsosur, është e rëndësishme të dini qëllimin e projektit tuaj, veçanërisht nëse është nga një zonë specifike, si moti, financat, shëndeti, etj. Kjo do të diktojë burimin nga i cili do të merrni grup i të dhënave.
Grupet e të dhënave për ML
Trajnim Chatbot
Një chatbot efektiv kërkon një sasi masive të të dhënave trajnimi në mënyrë që të zgjidhë shpejt pyetjet e përdoruesve pa ndërhyrjen njerëzore. Sidoqoftë, pengesa kryesore në zhvillimin e chatbot-it është marrja e të dhënave dialoguese realiste, të orientuara nga detyra për të trajnuar këto sisteme të bazuara në mësimin e makinerive.
Një grup i të dhënave bisedore mbledh të dhëna në një format pyetjesh dhe përgjigjesh. Është ideal për trajnimin e chatbot-eve që do t'i japin përgjigje të automatizuara audiencës. Pa këto të dhëna, chatbot do të dështojë të zgjidhë shpejt pyetjet e përdoruesve ose t'u përgjigjet pyetjeve të përdoruesit pa nevojën e ndërhyrjes njerëzore.
Duke përdorur këto grupe të dhënash, bizneset mund të krijojnë një mjet që u jep përgjigje të shpejta klientëve 24/7 dhe është dukshëm më i lirë sesa të kesh një ekip njerëzish që bëjnë mbështetje për klientët.
1. Grupi i të dhënave pyetje-përgjigje
Ky grup të dhënash ofron një grup artikujsh të Wikipedia-s, pyetje dhe përgjigjet e tyre përkatëse të krijuara manualisht. Është një grup të dhënash i mbledhur midis 2008 dhe 2010 për përdorim në kërkime akademike.
2. Të dhënat e gjuhës
Të dhënat e gjuhës është një bazë të dhënash e menaxhuar nga Yahoo me informacion të gjeneruar nga disa prej shërbimeve të kompanisë, si Yahoo! Përgjigja, e cila funksionon si një komunitet i hapur për përdoruesit për të postuar pyetje dhe përgjigje.
3. WikiQA
Korpusi WikiQA gjithashtu përbëhet nga një grup pyetjesh dhe përgjigjesh. Burimi i pyetjeve është Bing, ndërsa përgjigjet lidhen me një faqe Wikipedia me potencial për të zgjidhur pyetjen fillestare.
Në total, ka më shumë se 3,000 pyetje dhe një grup prej 29,258 fjalish në grupin e të dhënave, nga të cilat rreth 1,400 janë kategorizuar si përgjigje për një pyetje përkatëse.
Të dhënat e qeverisë
Të dhënat e gjeneruara nga qeveritë sjellin të dhëna demografike, të cilat janë të dhëna të shkëlqyera për projektet që lidhen me të kuptuarit e tendencave sociale, krijimin e politikave publike dhe përmirësimin e shoqërisë. Kjo mund të jetë e dobishme për fushatat politike, reklamat e synuara ose analizat e tregut.
Këto grupe të dhënash zakonisht përmbajnë të dhëna anonime, kështu që ndërsa modelet mund të kenë akses në të dhënat e papërpunuara, nuk ka shkelje të privatësisë personale.
4. Të dhënat.gov
I lançuar në vitin 2009, Data.gov është burimi i të dhënave të Amerikës së Veriut. Katalogu i tij është mbresëlënës: më shumë se 218,000 grupe të dhënash që lejojnë segmentimin sipas formatit, etiketave, llojeve dhe temave.
5. Portali i të dhënave të hapura të BE-së
Portali i të dhënave të hapura të BE-së ofron qasje në të dhënat e hapura të ndara nga institucionet e Bashkimit Evropian. Këto janë të dhëna që mund të synohen për përdorim komercial dhe jokomercial. Në dispozicion të përdoruesit janë më shumë se 15.5 mijë grupe të dhënash, që mbulojnë tema të tilla si shëndeti, energjia, mjedisi, kultura dhe arsimi.
Të dhëna shëndetësore
Në vazhdën e krizës së vazhdueshme shëndetësore në mbarë botën, grupet e të dhënave të krijuara nga organizatat shëndetësore janë thelbësore për zhvillimin e zgjidhjeve efektive për të shpëtuar jetë. Këto grupe të dhënash mund të ndihmojnë në identifikimin e faktorëve të rrezikut, të përcaktojnë modelet e transmetimit të sëmundjeve dhe të përshpejtojnë diagnozën.
Këto grupe të dhënash përbëhen nga të dhënat shëndetësore, demografia e pacientëve, prevalenca e sëmundjeve, përdorimi i ilaçeve, vlerat ushqyese dhe shumë më tepër.
6. Observatori Global i Shëndetit
Ky grup të dhënash është një iniciativë e Organizatës Botërore të Shëndetësisë (OBSH). Ai ofron të dhëna publike në lidhje me fusha të ndryshme të shëndetit, të organizuara sipas temave si sistemet shëndetësore, kontrolli i përdorimit të duhanit, materniteti, HIV/AIDS, etj. Ekziston edhe mundësia e konsultimit të të dhënave për COVID-19.
7. KORDI-19
CORD-19 është një korpus publikimesh akademike mbi COVID-19 dhe artikuj të tjerë rreth koronavirusit të ri. Është një grup të dhënash të hapur që synon të gjenerojë njohuri të reja mbi COVID-19.
Të dhënat e ekonomisë
Grupet e të dhënave që lidhen me mjedisin financiar zakonisht mbledhin një sasi të madhe informacioni, pasi është e zakonshme që ato të jenë mbledhur për një kohë të gjatë. Ato janë ideale për krijimin e parashikimeve ekonomike ose vendosjen e tendencave të investimeve.
Me grupet e duhura të të dhënave financiare, a Modeli i Mësimit të Makinerisë mund të jetë në gjendje të parashikojë sjelljen e një aktivi të caktuar. Kjo është arsyeja pse sektori financiar po bën gjithçka në fuqinë e tij për të krijuar një model efektiv të ML, pasi çdo gjë që mund të parashikojë edhe në mënyrë të arsyeshme ka potencialin për të gjeneruar miliona dollarë. Mësimi i Makinerisë tashmë po parashikon sjelljen e qytetarëve, gjë që po ndikon në mënyrën se si politikëbërësit po bëjnë punën e tyre.
8. Fondi Monetar Ndërkombëtar
Të dhënat e FMN-së përmban një sërë treguesish ekonomikë dhe financiarë, statistika të vendeve anëtare dhe të dhëna të tjera për kreditë dhe kursin e këmbimit.
9. Banka Botërore
Depoja e Bankës Botërore përmban grupe të ndryshme të dhënash me informacione ekonomike nga vende të ndryshme. Ka më shumë se 17,000 grupe të dhënash të ndara sipas kontinenteve.
Rishikimet e produkteve dhe shërbimeve
Analiza e ndjenjave ka gjetur aplikimet e saj në fusha të ndryshme që tani po i ndihmojnë ndërmarrjet të vlerësojnë dhe të mësojnë nga klientët ose klientët e tyre në mënyrë korrekte. Analiza e ndjenjave po përdoret gjithnjë e më shumë për monitorimin e mediave sociale, monitorimin e markës, zërin e klientit (VoC), shërbimin ndaj klientit dhe kërkimin e tregut.
Analiza e ndjenjave përdor NLP metoda dhe algoritme (programimi neuro-gjuhësor) që janë ose të bazuara në rregulla, hibride ose mbështeten në teknikat e të mësuarit të makinës për të mësuar të dhëna nga grupet e të dhënave.
Të dhënat e nevojshme në analizën e ndjenjave duhet të jenë të specializuara dhe kërkohen në sasi të mëdha. Pjesa më sfiduese në lidhje me procesin e trajnimit të analizës së ndjenjave është mosgjetja e të dhënave në sasi të mëdha; në vend të kësaj, është për të gjetur grupet përkatëse të të dhënave. Këto grupe të dhënash duhet të mbulojnë një zonë të gjerë aplikimesh të analizës së ndjenjave dhe rasteve të përdorimit.
10. Shqyrtime Amazon
Ky grup të dhënash përmban rreth 35 milionë rishikime të Amazon, duke përfshirë një periudhë 18-vjeçare të informacionit të mbledhur. Është një grup të dhënash i përmbajtjes së produktit, përdoruesit dhe rishikimit.
11. Shqyrtime Yelp
Yelp gjithashtu ofron një grup të dhënash bazuar në informacionin e mbledhur nga shërbimi i tij. Ka mbi 8 milion komente, 1 milion këshilla, plus pothuajse 1.5 milion atribute që lidhen me bizneset, si orari i hapjes dhe disponueshmëria.
12. Vlerësime të IMDB
Kjo bazë të dhënash përmban një grup prej më shumë se 25 mijë recensionesh filmash për trajnim dhe 25 mijë të tjerë për teste të marra joformalisht nga faqja e IMDB, e specializuar në vlerësimet e filmave. Ai gjithashtu ofron të dhëna të paetiketuara si shtesë.
Grupet e të dhënave për hapat e parë në ML
13. Seti i të dhënave për cilësinë e verës
Ky grup të dhënash ofron informacion në lidhje me verën, të kuqe dhe jeshile, të prodhuar në Portugalinë veriore. Qëllimi është të përcaktohet cilësia e verës bazuar në testet fiziko-kimike. Interesante për ata që duan të praktikojnë krijimin e një sistemi parashikimi.
14. Grupi i të dhënave Titanic
Ky grup të dhënash sjell të dhëna nga 887 pasagjerë të vërtetë nga Titaniku, me secilën kolonë që përcakton nëse mbijetuan, moshën, klasën e pasagjerëve, gjininë dhe tarifën e imbarkimit që paguanin. Ky grup i të dhënave ishte pjesë e një sfide të nisur nga platforma Kaggle, qëllimi i së cilës ishte të krijonte një model që mund të parashikonte se cilët pasagjerë i mbijetuan fundosjes së Titanikut.
Platformat për gjetjen e grupeve të tjera të të dhënave
Nëse doni të shkoni më tej dhe të gjeni të dhënat tuaja të të dhënave, mënyra më e mirë është të shfletoni nëpër depot më të famshme të Mësim Machine universi:
Kaggle
Kaggle, një degë e Google LLC, është një komunitet në internet i shkencëtarëve të të dhënave dhe profesionistëve të Mësimit të Makinerisë. Kaggle i lejon përdoruesit të gjejnë dhe publikojnë grupe të dhënash, të eksplorojnë dhe krijojnë modele në një mjedis shkencor të të dhënave të bazuara në ueb; punojnë me shkencëtarë të tjerë të të dhënave dhe Inxhinierët e Mësimit të Makinerisë, dhe merrni pjesë në konkurse për të zgjidhur sfidat e shkencës së të dhënave.
Kaggle filloi në 2010 duke ofruar konkurse të Mësimit të Makinerisë dhe tani ofron edhe një publik platforma e të dhënave, një tavolinë pune e bazuar në renë kompjuterike për shkencën e të dhënave dhe edukimin e inteligjencës artificiale.
Kërkimi i grupit të të dhënave
Kërkimi i grupit të të dhënave është një motor kërkimi nga Google që i ndihmon studiuesit të gjejnë të dhënat në internet që janë të disponueshme falas për përdorim. Nëpër ueb, ka miliona grupe të dhënash për pothuajse çdo temë që ju intereson.
Nëse po kërkoni të blini një qenush, mund të gjeni grupe të dhënash që përpilojnë ankesa të blerësve të këlyshëve ose studime mbi njohjen e qenve. Ose nëse ju pëlqen skijimi, mund të gjeni të dhëna për të ardhurat e vendpushimeve të skive ose normat e lëndimeve dhe numrat e pjesëmarrjes. Kërkimi i grupeve të të dhënave ka indeksuar pothuajse 25 milionë nga këto grupe të dhënash, duke ju dhënë një vend të vetëm për të kërkuar grupe të dhënash dhe për të gjetur lidhjet ku ndodhen të dhënat.
Depoja e mësimit të makinerisë UCI
Depoja e Mësimit të Makinerisë UCI është një koleksion i bazave të të dhënave, teorive të domenit dhe gjeneratorëve të të dhënave që përdoren nga komuniteti i Mësimit të Makinerisë për analizën empirike të algoritmeve të Mësimit të Makinerisë. Arkivi u krijua si një arkiv ftp në 1987 nga David Aha dhe kolegë studentë të diplomuar në UC Irvine.
Që nga ajo kohë, ai është përdorur gjerësisht nga studentët, edukatorët dhe studiuesit në të gjithë botën si një burim kryesor i grupeve të të dhënave të ML. Si një tregues i ndikimit të arkivit, ai është cituar mbi 1000 herë, duke e bërë atë një nga 100 "punimet" më të cituara në të gjithë shkencën kompjuterike.
Quandl
Quandl është një platformë që u ofron përdoruesve të saj grupe të dhënash ekonomike, financiare dhe alternative. Përdoruesit mund të shkarkojnë të dhëna falas, të blejnë të dhëna me pagesë ose t'i shesin të dhëna Quandl. Mund të jetë një mjet i dobishëm për zhvillimin e algoritme tregtare, Për shembull.
Përfundim
Duke eksploruar këto mjete, me siguri do të gjeni të dhëna të shkëlqyera për projektet tuaja. Sigurohuni që të zgjidhni grupin e të dhënave që është më i përshtatshëm për nevojat tuaja specifike dhe mbani gjithmonë parasysh: nuk ka të bëjë vetëm me sasinë, por edhe me cilësinë. Të dhënat janë baza e çdo Projekti i Mësimit të Makinerisë dhe është thelbësore të bazohet në të dhëna cilësore për të shmangur rrezikun e arritjes së përfundimeve të gabuara.
Lini një Përgjigju