Բառը[Թաքցնել][Ցուցադրում]
Մեքենայի ուսուցման յուրաքանչյուր նախագիծ հիմնված է լավ տվյալների բազայի վրա: Հենց այս մեծ տվյալների բազան թույլ կտա ձեզ վերապատրաստել և վավերացնել ձեր ML մոդելը: Այսպիսով, ML նախագծում աշխատանքի մեծ մասը ձեր կարիքների համար կատարյալ տվյալների հավաքագրումն է: Այնուամենայնիվ, միշտ չէ, որ հնարավոր է գտնել այնպիսի տարբերակ, որը համապատասխանում է ձեր հավակնություններին, քանի որ շատ ֆայլեր, որոնք հետաքրքիր տեսք ունեն, ի վերջո, չեն:
Դա կարող է վախեցնել ժամանակ վատնելը ներբեռնելու անհամար տվյալների հավաքածուներ, մինչև հասնեք իդեալական հավաքածուի: Հաշվի առնելով դա՝ մենք հավաքել ենք մի քանի տարբերակներ, որոնք հետաքրքիր են թվում և կարող են օգնել ձեզ զարգացնել ձեր ML նախագիծը: Նկատի ունեցեք, որ որոշները նախատեսված են անձնական օգտագործման համար, այլ ոչ թե կոմերցիոն օգտագործման համար, այնպես որ նայեք այս տարբերակներին որպես ML տիեզերքում փորձ ձեռք բերելու միջոց:
Տվյալների հավաքածուների հիմունքները
Նախքան տվյալների հավաքածուները նշելը, մենք պետք է սահմանենք որոշ տերմիններ: Արհեստական ինտելեկտի նախագծերում, հատկապես Machine Learning, պահանջվում է մեծ քանակությամբ տվյալներ, որոնք կօգտագործվեն ալգորիթմի ուսուցման համար։ Տվյալների այս քանակությունը հավաքվում է տվյալների բազայում, որը չափազանց օգտակար է ալգորիթմ սովորեցնելու համար:
Այս տվյալների հիման վրա ալգորիթմը վերապատրաստվում է, ինչպես նաև փորձարկվում, և կարողանում է գտնել օրինաչափություններ, հարաբերություններ հաստատել և այդպիսով ինքնուրույն որոշումներ կայացնել: Առանց մարզումների, Machine Learning ալգորիթմները չեն կարողանում որևէ գործողություն կատարել: Հետևաբար, որքան լավ են ուսուցման տվյալները, այնքան ավելի լավ կգործի մոդելը: Որպեսզի տվյալների բազան օգտակար լինի նախագծին, խոսքը քանակի մասին չէ, այլ նաև դասակարգման:
Իդեալում, տվյալները պետք է լավ պիտակավորված լինեն: Մտածեք չաթ-բոտերի մասին. լեզվի ներդրումը կարևոր է, բայց պետք է զգույշ շարահյուսական վերլուծություն անել, որպեսզի ստեղծված ալգորիթմը հասկանա, թե երբ է զրուցակիցը օգտագործում ժարգոն: Միայն դրանից հետո վիրտուալ օգնականը կկարողանա գործարկել պատասխանն ըստ օգտատիրոջ պահանջածի:
Տվյալների հավաքածուները կարող են ստեղծվել հարցումներից, օգտատերերի գնումների տվյալներից, ծառայությունների վրա թողնված գնահատումներից և շատ այլ եղանակներով, որոնք թույլ են տալիս հավաքել օգտակար տեղեկատվություն CSV ֆայլի սյունակներում և տողերում:
Նախքան կատարյալ տվյալների հավաքագրման որոնման մեկնելը, կարևոր է, որ դուք իմանաք ձեր նախագծի նպատակը, հատկապես, եթե այն կոնկրետ տարածքից է, ինչպիսիք են եղանակը, ֆինանսները, առողջապահությունը և այլն: Սա կթելադրի աղբյուրը, որտեղից դուք կստանաք ձեր տվյալների բազա։
Տվյալների հավաքածուներ ML-ի համար
Չաթբոտի ուսուցում
Արդյունավետ չաթբոտը պահանջում է հսկայական քանակությամբ ուսուցման տվյալներ՝ առանց մարդու միջամտության օգտատերերի հարցումներն արագ լուծելու համար: Այնուամենայնիվ, չաթ-բոտի մշակման առաջնային խոչընդոտը իրատեսական, առաջադրանքների վրա հիմնված երկխոսության տվյալներ ստանալն է՝ մեքենայական ուսուցման վրա հիմնված այս համակարգերը մարզելու համար:
Խոսակցական տվյալների հավաքածուն տվյալներ է հավաքում հարց ու պատասխանի ձևաչափով: Այն իդեալական է չաթ-բոտերի պատրաստման համար, որոնք ավտոմատացված պատասխաններ կտան հանդիսատեսին: Առանց այս տվյալների՝ չաթբոտը չի կարողանա արագ լուծել օգտատերերի հարցումները կամ պատասխանել օգտատերերի հարցերին՝ առանց մարդու միջամտության:
Օգտագործելով այս տվյալների հավաքածուները՝ ձեռնարկությունները կարող են ստեղծել մի գործիք, որն արագ պատասխաններ է տալիս հաճախորդներին 24/7 և զգալիորեն ավելի էժան է, քան հաճախորդների սպասարկում իրականացնող մարդկանց թիմ ունենալը:
1. Հարց-պատասխան տվյալների հավաքածու
Այս տվյալների հավաքածուն ապահովում է Վիքիպեդիայի հոդվածների, հարցերի և դրանց համապատասխան ձեռքով ստեղծված պատասխանների մի շարք: Դա տվյալների հավաքածու է, որը հավաքվել է 2008-ից 2010 թվականներին՝ օգտագործելու համար գիտական հետազոտություններ.
2. Լեզվի տվյալներ
Լեզվի տվյալները Yahoo-ի կողմից կառավարվող տվյալների շտեմարան է՝ ընկերության որոշ ծառայություններից ստացված տեղեկություններով, օրինակ՝ Yahoo! Պատասխան, որն աշխատում է որպես բաց համայնք օգտատերերի համար հարցեր և պատասխաններ տեղադրելու համար:
3. WikiQA
WikiQA կորպուսը նույնպես բաղկացած է հարցերի և պատասխանների մի շարքից: Հարցերի աղբյուրը Bing-ն է, մինչդեռ պատասխանները կապված են Վիքիպեդիայի էջին, որն ունի նախնական հարցը լուծելու ներուժ:
Ընդհանուր առմամբ տվյալների շտեմարանում կա ավելի քան 3,000 հարց և 29,258 նախադասություն, որոնցից մոտ 1,400-ը դասակարգվել են որպես համապատասխան հարցի պատասխաններ:
Կառավարության տվյալները
Կառավարությունների կողմից ստեղծված տվյալների հավաքածուները բերում են ժողովրդագրական տվյալներ, որոնք մեծ ներդրում են սոցիալական միտումների ըմբռնման, հանրային քաղաքականության ստեղծման և հասարակության բարելավման հետ կապված նախագծերի համար: Սա կարող է օգտակար լինել քաղաքական արշավների, նպատակային գովազդի կամ շուկայի վերլուծության համար:
Այս տվյալների շտեմարանները սովորաբար պարունակում են անանուն տվյալներ, այնպես որ, թեև մոդելները կարող են մուտք գործել չմշակված տվյալներ, անձնական գաղտնիության խախտումներ չկան:
4. Data.gov
Data.gov-ը, որը գործարկվել է 2009 թվականին, Հյուսիսային Ամերիկայի տվյալների աղբյուրն է: Դրա կատալոգը տպավորիչ է. ավելի քան 218,000 տվյալների հավաքածուներ, որոնք թույլ են տալիս բաժանել ըստ ձևաչափի, պիտակների, տեսակների և թեմաների:
5. ԵՄ բաց տվյալների պորտալ
ԵՄ բաց տվյալների պորտալը ապահովում է մուտք դեպի բաց տվյալներ, որոնք կիսվում են Եվրամիության հաստատությունների կողմից: Սրանք տվյալներ են, որոնք կարող են նախատեսված լինել առևտրային և ոչ առևտրային օգտագործման համար: Օգտատիրոջ տրամադրության տակ են ավելի քան 15.5 հազար տվյալների հավաքածու, որոնք ընդգրկում են այնպիսի թեմաներ, ինչպիսիք են առողջությունը, էներգիան, շրջակա միջավայրը, մշակույթը և կրթությունը:
Առողջության տվյալներ
Ամբողջ աշխարհում շարունակվող առողջապահական ճգնաժամի հետևանքով առողջապահական կազմակերպությունների կողմից ստեղծված տվյալների հավաքածուները կարևոր նշանակություն ունեն կյանքեր փրկելու արդյունավետ լուծումներ մշակելու համար: Այս տվյալների հավաքածուները կարող են օգնել բացահայտել ռիսկի գործոնները, մշակել հիվանդության փոխանցման օրինաչափությունները և արագացնել ախտորոշումը:
Այս տվյալների հավաքածուները բաղկացած են առողջապահական գրառումներից, հիվանդների ժողովրդագրությունից, հիվանդությունների տարածվածությունից, դեղամիջոցներից, սննդային արժեքներից և շատ ավելին:
6. Առողջության համաշխարհային աստղադիտարան
Տվյալների այս հավաքածուն Առողջապահության համաշխարհային կազմակերպության (ԱՀԿ) նախաձեռնությունն է: Այն տրամադրում է հանրային տվյալներ՝ կապված առողջության տարբեր ոլորտների հետ՝ կազմակերպված թեմաներով, ինչպիսիք են՝ առողջապահական համակարգերը, ծխախոտի օգտագործման վերահսկումը, մայրությունը, ՄԻԱՎ/ՁԻԱՀ-ը և այլն։ Կա նաև COVID-19-ի վերաբերյալ տվյալների հետ ծանոթանալու հնարավորություն։
7. CORD-19
CORD-19-ը Covid-19-ի և նոր կորոնավիրուսի մասին այլ հոդվածների ակադեմիական հրապարակումների հավաքածու է: Դա բաց տվյալների հավաքածու է, որը նախատեսված է COVID-19-ի վերաբերյալ նոր պատկերացումներ ստեղծելու համար:
Տնտեսագիտական տվյալներ
Ֆինանսական միջավայրի հետ կապված տվյալների հավաքածուները սովորաբար հավաքում են հսկայական քանակությամբ տեղեկատվություն, քանի որ սովորական է, որ դրանք հավաքվել են երկար ժամանակ: Դրանք իդեալական են տնտեսական կանխատեսումներ ստեղծելու կամ ներդրումային միտումներ հաստատելու համար:
Ճիշտ ֆինանսական տվյալների հավաքածուներով, ա Մեքենայի ուսուցման մոդել կարող է կանխատեսել տվյալ ակտիվի վարքագիծը: Ահա թե ինչու ֆինանսական հատվածն անում է ամեն ինչ, որպեսզի ստեղծի ՓԼ արդյունավետ մոդել, քանի որ այն ամենը, ինչը կարող է նույնիսկ ողջամտորեն լավ կանխատեսել, միլիոնավոր դոլարներ ստեղծելու ներուժ ունի: Մեքենայական ուսուցումն արդեն կանխատեսում է քաղաքացիների վարքագիծը, որն ազդում է այն ձևի վրա, թե ինչպես են քաղաքականություն մշակողները կատարում իրենց աշխատանքը:
8. Արժույթի միջազգային հիմնադրամի
ԱՄՀ տվյալների բազան պարունակում է մի շարք տնտեսական և ֆինանսական ցուցանիշներ, անդամ երկրների վիճակագրություն և վարկերի և փոխարժեքի այլ տվյալներ:
9. Համաշխարհային բանկը
Համաշխարհային բանկի շտեմարանը պարունակում է տարբեր տվյալների հավաքածուներ՝ տարբեր երկրների տնտեսական տեղեկություններով: Կան ավելի քան 17,000 տվյալների հավաքածու՝ բաժանված ըստ մայրցամաքների:
Ապրանքների և ծառայությունների ակնարկներ
Զգացմունքների վերլուծությունը գտել է իր կիրառությունները տարբեր ոլորտներում, որոնք այժմ օգնում են ձեռնարկություններին ճիշտ գնահատել և սովորել իրենց հաճախորդներից կամ հաճախորդներից: Զգացմունքների վերլուծությունն ավելի ու ավելի է օգտագործվում սոցիալական մեդիայի մոնիտորինգի, ապրանքանիշի մոնիտորինգի, հաճախորդի ձայնի (VoC), հաճախորդների սպասարկման և շուկայի հետազոտության համար:
Զգացմունքների վերլուծությունը օգտագործում է NLP (նեյրո-լեզվաբանական ծրագրավորում) մեթոդներ և ալգորիթմներ, որոնք կա՛մ կանոնների վրա հիմնված են, կա՛մ հիբրիդային, կա՛մ հիմնվում են մեքենայական ուսուցման տեխնիկայի վրա՝ տվյալների հավաքածուներից տվյալներ սովորելու համար:
Զգացմունքների վերլուծության համար անհրաժեշտ տվյալները պետք է լինեն մասնագիտացված և պահանջվեն մեծ քանակությամբ: Զգացմունքների վերլուծության վերապատրաստման գործընթացի ամենադժվարը մեծ քանակությամբ տվյալներ գտնելը չէ. փոխարենը պետք է գտնել համապատասխան տվյալների հավաքածուներ: Այս տվյալների հավաքածուները պետք է ընդգրկեն տրամադրությունների վերլուծության կիրառությունների և օգտագործման դեպքերի լայն ոլորտ:
10: Amazon ակնարկներ
Այս տվյալների հավաքածուն պարունակում է մոտ 35 միլիոն Amazon-ի ակնարկներ, որոնք ընդգրկում են հավաքագրված տեղեկատվության 18-ամյա ժամանակահատվածը: Դա արտադրանքի, օգտագործողի և վերանայման բովանդակության տվյալների հավաքածու է:
11: Yelp Reviews
Yelp-ը նաև առաջարկում է տվյալների բազա՝ հիմնված իր ծառայությունից հավաքված տեղեկատվության վրա: Կան ավելի քան 8 միլիոն ակնարկներ, 1 միլիոն հուշումներ, գումարած գրեթե 1.5 միլիոն ատրիբուտներ՝ կապված բիզնեսի հետ, ինչպիսիք են բացման ժամերը և հասանելիությունը:
12: IMDB ակնարկներ
Այս տվյալների բազան պարունակում է ավելի քան 25 հազար ֆիլմերի ակնարկներ վերապատրաստման համար և ևս 25 հազարը թեստերի համար, որոնք վերցված են ոչ պաշտոնական IMDB էջից, որը մասնագիտացված է ֆիլմերի վարկանիշների մեջ: Այն նաև առաջարկում է չպիտակավորված տվյալներ որպես լրացուցիչ:
Տվյալների հավաքածուներ ML-ի առաջին քայլերի համար
13: Գինու որակի տվյալների հավաքածու
Այս տվյալների հավաքածուն տեղեկատվություն է տրամադրում հյուսիսային Պորտուգալիայում արտադրվող գինու՝ և՛ կարմիր, և՛ կանաչ գինու հետ: Նպատակը ֆիզիկաքիմիական թեստերի հիման վրա գինու որակի սահմանումն է: Հետաքրքիր է նրանց համար, ովքեր ցանկանում են զբաղվել կանխատեսման համակարգ ստեղծելով:
14: Titanic Dataset
Այս տվյալների բազան բերում է Տիտանիկից 887 իրական ուղևորների տվյալները, որոնցից յուրաքանչյուրը սահմանում է, թե արդյոք նրանք ողջ են մնացել, նրանց տարիքը, ուղևորի դասը, սեռը և նստեցման վճարը, որը նրանք վճարել են: Այս տվյալների բազան եղել է Kaggle պլատֆորմի կողմից գործարկված մարտահրավերի մի մասը, որի նպատակն էր ստեղծել մոդել, որը կարող էր կանխատեսել, թե որ ուղևորներն են ողջ մնացել Տիտանիկի խորտակումից:
Այլ տվյալների հավաքածուներ գտնելու հարթակներ
Եթե ցանկանում եք ավելի հեռուն գնալ և գտնել ձեր սեփական տվյալների բազան, լավագույն միջոցը թերթելն է ամենահայտնի պահոցները: Machine Learning տիեզերք:
Կաղգլ
Kaggle-ը՝ Google LLC-ի դուստր ձեռնարկությունը, տվյալների գիտնականների և մեքենայական ուսուցման մասնագետների առցանց համայնք է: Kaggle-ն օգտատերերին թույլ է տալիս գտնել և հրապարակել տվյալների հավաքածուներ, ուսումնասիրել և ստեղծել մոդելներ վեբ վրա հիմնված տվյալների գիտության միջավայրում. աշխատել այլ տվյալների գիտնականների հետ և Մեքենաների ուսուցման ինժեներներև մասնակցել մրցույթներին տվյալների գիտության մարտահրավերները լուծելու համար:
Kaggle-ը սկսել է 2010 թվականին՝ առաջարկելով մեքենայական ուսուցման մրցույթներ և այժմ առաջարկում է նաև հանրությանը տվյալների հարթակ, տվյալների գիտության և արհեստական ինտելեկտի կրթության համար ամպի վրա հիմնված աշխատանքային սեղան:
Տվյալների հավաքածուի որոնում
Dataset Search-ը Google-ի որոնողական համակարգ է, որն օգնում է հետազոտողներին գտնել առցանց տվյալները, որոնք ազատորեն հասանելի են օգտագործման համար: Համացանցում կան միլիոնավոր տվյալների հավաքածուներ գրեթե ցանկացած թեմայի վերաբերյալ, որը ձեզ հետաքրքրում է:
Եթե դուք ցանկանում եք գնել լակոտ, կարող եք գտնել տվյալների հավաքածուներ, որոնք հավաքում են շան գնորդների բողոքները կամ լակոտների ճանաչողության վերաբերյալ ուսումնասիրությունները: Կամ եթե դուք սիրում եք դահուկներ, կարող եք գտնել տվյալներ լեռնադահուկային հանգստավայրերի եկամուտների կամ վնասվածքների և մասնակցության թվերի վերաբերյալ: Տվյալների հավաքածուի որոնումը ինդեքսավորել է այս տվյալների հավաքածուներից գրեթե 25 միլիոնը, ինչը ձեզ տալիս է տվյալների հավաքածուներ փնտրելու և հղումներ գտնելու համար, որտեղ գտնվում են տվյալները:
UCI Machine Learning Repository
UCI Machine Learning Repository-ը տվյալների բազաների, տիրույթի տեսությունների և տվյալների գեներատորների հավաքածու է, որոնք օգտագործվում են Machine Learning համայնքի կողմից մեքենայական ուսուցման ալգորիթմների էմպիրիկ վերլուծության համար: Արխիվը ստեղծվել է որպես ftp արխիվ 1987 թվականին Դեյվիդ Ահայի և UC Irvine-ի ասպիրանտների կողմից:
Այդ ժամանակվանից այն լայնորեն օգտագործվում է ուսանողների, մանկավարժների և հետազոտողների կողմից ամբողջ աշխարհում՝ որպես ML տվյալների հավաքածուների հիմնական աղբյուր: Որպես արխիվի ազդեցության ցուցիչ՝ այն մեջբերվել է ավելի քան 1000 անգամ՝ դարձնելով այն 100 ամենաշատ մեջբերված «թղթերի» մեջ ամբողջ համակարգչային գիտության մեջ:
Քվանդ
Quandl-ը հարթակ է, որն իր օգտատերերին տրամադրում է տնտեսական, ֆինանսական և այլընտրանքային տվյալների հավաքածուներ: Օգտագործողները կարող են անվճար ներբեռնել տվյալներ, գնել վճարովի տվյալներ կամ վաճառել տվյալներ Quandl-ին: Այն կարող է օգտակար գործիք լինել զարգացման համար առևտրային ալգորիթմներ, օրինակ.
Եզրափակում
Ուսումնասիրելով այս գործիքները, դուք, անկասկած, հիանալի միջոցներ կգտնեք ձեր նախագծերի համար: Համոզվեք, որ ընտրեք տվյալների բազան, որն առավել հարմար է ձեր հատուկ կարիքներին և միշտ հիշեք. դա ոչ միայն քանակի, այլ նաև որակի մասին է: Տվյալների հավաքածուն ցանկացածի հիմքն է Մեքենայի ուսուցման նախագիծ և կարևոր է հիմնվել որակյալ տվյալների վրա՝ սխալ եզրակացությունների հանգելու վտանգից խուսափելու համար:
Թողնել գրառում