Table of Contents[Veşartin][Rêdan]
Her projeya Fêrbûna Makîneyê xwe dispêre danegehek baş. Ew ev daneya mezin e ku dê bihêle hûn modela ML-ya xwe perwerde bikin û rast bikin. Ji ber vê yekê, beşek mezin a xebatê di projeyek ML de peydakirina daneya bêkêmasî ya ji bo hewcedariyên we ye. Lêbelê, her gav ne gengaz e ku hûn vebijarkek ku li gorî ambargoya we tê de bibînin, ji ber ku gelek pelên ku balkêş xuya dikin, di dawiyê de, ne wusa ne.
Heya ku hûn bigihîjin komek îdeal, wendakirina wextê dakêşana bêhejmar daneyên dakêşanê dibe tirsnak. Di hişê wê de, me hin vebijarkên ku balkêş xuya dikin berhev kirine û dikarin ji we re bibin alîkar ku hûn projeya xweya ML pêşve bibin. Bala xwe bidinê ku hin ji bo kesane li şûna karanîna bazirganî têne armanc kirin, ji ber vê yekê li van vebijarkan wekî rêyek ji bo bidestxistina ezmûna di gerdûna ML de binihêrin.
Bingehên Datasets
Berî ku em behsa berhevokan bikin, divê em hin têgînan diyar bikin. Di projeyên Îstixbarata Hunerî de, bi taybetî Fêrbûna Machine, hejmareke mezin a daneyan hewce ye, ku dê ji bo perwerdekirina algorîtmê were bikar anîn. Ev mîqdara daneyê di databasek de têne berhev kirin, ku ji bo hînkirina algorîtmayek zehf bikêr e.
Bi van daneyan, algorîtma tê perwerdekirin - di heman demê de tê ceribandin - û dibe ku qalibên xwe bibîne, têkiliyan saz bike û bi vî rengî xweser biryaran bide. Bê perwerdekirin, Fêrbûna Machine algorîtmayan nikarin tu çalakiyê pêk bînin. Ji ber vê yekê, daneyên perwerdehiyê çêtirîn, dê modela çêtir çêtir bikin. Ji bo ku databasek ji projeyê re bikêr be, ew ne li ser mîqdarê ye: ew di heman demê de li ser dabeşkirinê ye.
Bi îdeal, divê dane baş bêne nîşankirin. Li ser rewşa chatbotan bifikire: xistina ziman girîng e, lê divê analîza hevoksazî ya baldar were kirin da ku algorîtmaya hatî afirandin fêm bike dema ku hevpeyivîn zargotinê bikar tîne. Tenê wê hingê dê arîkarê virtual bikaribe li gorî tiştê ku ji hêla bikarhêner ve hatî xwestin bersivê bide destpêkirin.
Daneyên daneyan dikarin ji anketan, daneyên kirîna bikarhêner, nirxandinên ku li ser karûbaran hiştin, û bi gelek awayên din ên ku destûrê didin berhevkirina agahdariya kêrhatî di pelek CSV de di stûn û rêzan de têne organîze kirin, bêne çêkirin.
Berî ku hûn dest bi lêgerîna daneheva bêkêmasî bikin, girîng e ku hûn armanca projeya xwe zanibin, nemaze heke ew ji deverek taybetî be, wek hewa, darayî, tenduristî, hwd. database.
Daneyên ji bo ML
Perwerdehiya Chatbot
Chatbotek bandorker pêdivî ye ku hejmareke mezin a daneya perwerdehiyê hewce bike da ku bi lez lêpirsînên bikarhêner bêyî destwerdana mirovî çareser bike. Lêbelê, kêşeya bingehîn di pêşkeftina chatbot de bidestxistina daneya diyalogê ya rastîn, peywirdar e ku van pergalên bingehîn ên Fêrbûna Makîneyê perwerde bike.
Daneyên danûstendinê di forma pirs û bersivê de daneyan berhev dike. Ew ji bo perwerdekirina chatbotên ku dê bersivên otomatîkî bide temaşevanan îdeal e. Bêyî van daneyan, chatbot dê nikaribe zû lêpirsînên bikarhêner çareser bike an bersivên pirsên bikarhêner bêyî hewcedariya destwerdana mirovî bide.
Bi karanîna van danehevan, karsazî dikarin amûrek biafirînin ku 24/7 bersivên bilez ji xerîdaran re peyda dike û ji bûna tîmek mirovên ku piştgiriya xerîdar dikin pir erzantir e.
1. Daneyên Pirs-Bersiv
Ev danehev komek gotarên Wîkîpediya, pirs û bersivên wan ên bi destan hatine çêkirin peyda dike. Ew danehevek e ku di navbera 2008 û 2010-an de ji bo karanîna tê berhev kirin lêkolînek akademîk.
2. Daneyên Ziman
Daneyên Ziman danegehek e ku ji hêla Yahoo ve tê rêve kirin û agahdariya ku ji hin karûbarên pargîdaniyê têne hilberandin, mîna Yahoo! Bersiv, ku wekî civakek vekirî dixebite ku bikarhêner pirs û bersivan bişînin.
3. WikiQA
Korpusa WikiQA jî ji komek pirs û bersivan pêk tê. Çavkaniya pirsan Bing e, dema ku bersiv bi rûpelek Wîkîpediya ve girêdayî ye ku potansiyela çareserkirina pirsa destpêkê heye.
Bi tevayî, zêdetirî 3,000 pirs û komek ji 29,258 hevokan hene, ku ji wan nêzîkê 1,400 wekî bersivên pirsek têkildar hatine kategorîze kirin.
Daneyên hikûmetê
Daneyên ku ji hêla hukûmetan ve têne hilberandin daneyên demografîk vedigirin, ku ji bo projeyên têkildarî têgihîştina meylên civakî, afirandina polîtîkayên gelemperî, û başkirina civakê de têketinên girîng in. Ev dikare ji bo kampanyayên siyasî, reklamên armanckirî, an analîzên bazarê kêrhatî be.
Van daneyan bi gelemperî daneyên nenaskirî dihewîne, ji ber vê yekê dema ku model dikarin bigihîjin daneyên xav, binpêkirina nepeniya kesane tune.
4. Data.gov
Di 2009-an de hate destpêkirin, Data.gov çavkaniya daneya Amerîkaya Bakur e. Kataloga wê bi heybet e: Zêdetirî 218,000 danûstendinên ku destûrê didin dabeşkirinê li gorî format, etîket, celeb û mijaran.
5. Portala Daneyên Vekirî ya YE
Portala Daneyên Vekirî yên Yekîtiya Ewropî gihîştina daneyên vekirî yên ku ji hêla saziyên Yekîtiya Ewropî ve têne parve kirin peyda dike. Ev daneyên ku dikarin ji bo karanîna bazirganî û ne-bazirganî bêne armanc kirin. Di destê bikarhêner de zêdetirî 15.5 hezar databas hene, ku mijarên wekî tenduristî, enerjî, jîngeh, çand û perwerdehiyê vedihewîne.
Daneyên tenduristiyê
Li dû qeyrana tenduristiyê ya domdar li çaraliyê cîhanê, databasên ku ji hêla rêxistinên tenduristiyê ve têne hilberandin ji bo pêşxistina çareseriyên bi bandor ji bo rizgarkirina jiyanê girîng in. Van danûstendinan dikarin bibin alîkar ku faktorên xetereyê nas bikin, şêwazên veguheztina nexweşiyê bixebitin û tespîtê bilez bikin.
Van daneyan ji tomarên tenduristiyê, demografîkên nexweşan, belavbûna nexweşiyê, karanîna derman, nirxên xwarinê, û hêj bêtir pêk tê.
6. Çavdêriya Tenduristiya Cîhanî
Ev berhevoka daneyan înîsiyatîfa Rêxistina Tenduristiyê ya Cîhanê (WHO) ye. Ew daneyên gelemperî yên girêdayî qadên cihêreng ên tenduristiyê, ku ji hêla mijarên wekî pergalên tenduristiyê, kontrolkirina karanîna titûnê, zikmakî, HIV/AIDS, hwd ve têne organîzekirin, peyda dike. Di heman demê de vebijarka şêwirmendiya daneyên li ser COVID-19 jî heye.
7. CORD-19
CORD-19 korpusek weşanên akademîk ên li ser COVID-19 û gotarên din ên di derbarê coronavirusê nû de ye. Ew danehevek vekirî ye ku ji bo afirandina têgihîştina nû li ser COVID-19 tête armanc kirin.
Daneyên aborî
Daneyên ku bi hawîrdora darayî ve girêdayî ne bi gelemperî gelek agahdarî berhev dikin, ji ber ku gelemperî ye ku ew ji bo demek dirêj ve hatine berhev kirin. Ew ji bo afirandina pêşbîniyên aborî an damezrandina meylên veberhênanê îdeal in.
Bi daneyên darayî yên rast, a Modela Fêrbûna Makîneyê dibe ku bikaribe tevgera malzemeyek diyar pêşbîn bike. Ji ber vê yekê sektora darayî her tiştê ku di destê xwe de ye dike da ku modelek ML-ya bi bandor biafirîne, ji ber ku her tiştê ku bi rengek maqûl pêşbîn bike jî potansiyela hilberîna bi mîlyonan dolar heye. Fêrbûna Makîneyê jixwe tevgera welatiyan pêşbîn dike, ku bandorê li awayê ku siyasetmedar karên xwe dikin dike.
8. Fona Funda Navnetewî
Daneyên IMF rêzek nîşaneyên aborî û darayî, statîstîkên welatên endam, û daneyên din ên deyn û rêjeya danûstendinê digire.
9. Banka Cîhanê
Di depoya Banka Cîhanî de danehevên cihêreng ên bi agahdariya aborî ji welatên cihê dihewîne. Zêdetirî 17,000 danehev hene ku li gorî parzemînan hatine dabeş kirin.
Nirxandinên hilber û karûbaran
Analîza hestyariyê sepanên xwe di warên cihêreng de dîtiye ku naha alîkariya pargîdaniyan dikin ku ji xerîdar an xerîdarên xwe rast texmîn bikin û fêr bibin. Analîza hestê her ku diçe ji bo şopandina medyaya civakî, şopandina marqe, dengê xerîdar (VoC), karûbarê xerîdar, û lêkolîna bazarê zêde tê bikar anîn.
Analîziya hestyarî NLP bikar tîne Rêbaz û algorîtmayên (bernamesaziya neuro-zimannasî) ku an li ser bingehê qaîdeyê ne, an jî hîbrîd in, an jî xwe dispêrin teknîkên Fêrbûna Makîneyê da ku daneyan ji berhevokan fêr bibin.
Daneyên ku di analîza hestyarî de hewce ne divê pispor bin û bi mîqdarên mezin hewce ne. Beşa herî dijwar a di derbarê pêvajoya perwerdehiya analîzkirina hestê de ne dîtina daneyan bi mîqdarên mezin e; li şûna wê, ew e ku daneyên têkildar bibînin. Pêdivî ye ku ev berhevokên daneyê qadek berfireh a sepanên analîzkirina hestê û dozên bikar bînin vehewînin.
10. Amûrên Amazon
Ev danehev nêzî 35 mîlyon nirxandinên Amazon-ê vedihewîne, ku serdemek 18-salî ya agahdariya berhevkirî vedihewîne. Ew daneyên hilber, bikarhêner, û naveroka nirxandinê ye.
11. Yelp Reviews
Yelp di heman demê de li ser bingeha agahdariya ku ji karûbarê xwe hatî berhev kirin databasek pêşkêşî dike. Zêdetirî 8 mîlyon nirxandin, 1 mîlyon serişte, zêdeyî 1.5 mîlyon taybetmendiyên ku bi karsaziyê ve girêdayî ne, wek demjimêrên vekirinê û hebûna hene.
12. Nirxandinên imdb
Di vê databasê de komek ji zêdetirî 25 hezar nirxandinên fîlimê ji bo perwerdehiyê û 25 hezarên din jî ji bo ceribandinên ku ne fermî ji rûpela IMDB-ê hatine girtin, di nirxandinên fîlimê de pispor in, vedihewîne. Di heman demê de ew daneyên bêlabelkirî wekî pêvek jî pêşkêşî dike.
Daneyên ji bo gavên yekem di ML de
13. Dataset Quality Wine
Ev databas agahdariya ku bi şeraba sor û kesk ve girêdayî ye, ku li bakurê Portekîzê hatî hilberandin, peyda dike. Armanc ew e ku li ser bingeha ceribandinên fizîkî-kîmyayî qalîteya şerabê were destnîşankirin. Balkêş e ji bo kesên ku dixwazin praktîzekirina afirandina pergalek pêşbîniyê bikin.
14. Daneyên Titanic
Ev danehev daneyên 887 rêwiyên rastîn ên Titanic tîne, ku her stûn diyar dike ka ew sax mane, temenê wan, çîna rêwiyan, zayenda wan, û heqê siwarbûnê ku wan dane diyar dike. Ev danûstendin beşek ji dijwariyek bû ku ji hêla platforma Kaggle ve hatî destpêkirin, armanc ew bû ku modelek biafirîne ku bikaribe pêşbîn bike ka kîjan rêwiyan ji binavbûna Tîtanic xilas bûne.
Platformên Ji bo Dîtina Daneyên Din
Ger hûn dixwazin bêtir biçin û databasa xwe bibînin, awayê çêtirîn ev e ku hûn li depoyên herî navdar ên gerînendeyê bigerin. Fêrbûna Machine ezman:
Kaggle
Kaggle, şaxek Google LLC, civakek serhêl a zanyarên daneyê û pisporên Fêrbûna Makîneyê ye. Kaggle destûrê dide bikarhêneran ku di hawîrdorek zanistiya daneya-based web-ê de danehevan bibînin û biweşînin, modelan bigerin û biafirînin; kar bi din zanyarên daneyan û Endezyarên Fêrbûna Makîneyê, û beşdarî pêşbaziyan bibin da ku pirsgirêkên zanistiya daneyê çareser bikin.
Kaggle di sala 2010-an de bi pêşkêşkirina pêşbaziyên Fêrbûna Makîneyê dest pê kir û naha jî gelemperî pêşkêşî dike platforma daneyan, ji bo zanistiya daneyê û perwerdehiya îstîxbarata hunerî ji bo xebata bingehîn a ewr.
Lêgerîna Dataset
Lêgerîna Dataset motorek lêgerînê ya Google-ê ye ku ji lêkolîneran re dibe alîkar ku daneyên serhêl ên ku ji bo karanîna belaş têne peyda kirin bibînin. Li seranserê tevneyê, bi mîlyonan danehev hene li ser hema hema her mijarek ku we eleqedar dike.
Ger hûn lê digerin ku kuçikek bikirin, hûn dikarin daneyên danûstendinê bibînin ku giliyên kirrûbirên kûçikan an lêkolînên li ser zanîna kûçikan berhev dikin. An jî heke hûn ji skikirinê hez dikin, hûn dikarin daneyan li ser dahata seyrangehên skiyan an rêjeyên zirarê û hejmarên beşdarbûnê bibînin. Lêgerîna Dataset hema hema 25 mîlyon ji van danehevan navnîş kiriye, cîhek yekane dide we ku hûn li berhevokan bigerin û lînkên ku dane lê ne bibînin.
Depoya Fêrbûna Makîneyê ya UCI
Depoya Fêrbûna Makîneyê ya UCI berhevokek databas, teoriyên domainê, û hilberînerên daneyê ye ku ji hêla civata Fêrbûna Makîneyê ve ji bo analîza ampîrîkî ya algorîtmayên Fêrbûna Makîneyê têne bikar anîn. Arşîv di 1987-an de ji hêla David Aha û hevalên xwendekarên mezûn ên UC Irvine ve wekî arşîvek ftp-ê hate afirandin.
Ji wê demê ve, ew ji hêla xwendekar, perwerdekar û lêkolîneran ve li çaraliyê cîhanê wekî çavkaniyek bingehîn a daneyên ML-ê bi berfirehî tê bikar anîn. Wekî nîşanek bandora arşîvê, ew zêdetirî 1000 carî hatiye behs kirin, ku ew dike yek ji 100 "kaxezên" herî zêde di hemî zanistiya komputerê de.
Quandl
Quandl platformek e ku daneyên aborî, darayî û alternatîf ji bikarhênerên xwe re peyda dike. Bikarhêner dikarin daneya belaş dakêşin, daneya drav bikirin an daneyan bifroşin Quandl. Ew dikare ji bo pêşveçûnê amûrek kêrhatî be algorîtmayên bazirganî, mînakî.
Xelasî
Bi keşfkirina van amûran, hûn bê guman ji bo projeyên xwe têketinên mezin bibînin. Bawer bikin ku databasa ku ji bo hewcedariyên we yên taybetî herî guncaw e hilbijêrin û her gav ji bîr mekin: ew ne tenê li ser hejmarê ye, lê di heman demê de kalîteyê jî ye. Danegeh bingeha her yekê ye Projeya Fêrbûna Makîneyê û pêdivî ye ku meriv li ser daneyên kalîteyê were avakirin da ku ji xetereya gihîştina encamên xelet dûr bisekine.
Leave a Reply