14 Լավագույն տվյալների հավաքածուներ մեքենայական ուսուցման համար

Բառը[Թաքցնել][Ցուցադրում]

Տվյալների հավաքածուների հիմունքները
Տվյալների հավաքածուներ ML-ի համար+-
Այլ տվյալների հավաքածուներ գտնելու հարթակներ+-
Եզրափակում

Մեքենայի ուսուցման յուրաքանչյուր նախագիծ հիմնված է լավ տվյալների բազայի վրա: Հենց այս մեծ տվյալների բազան թույլ կտա ձեզ վերապատրաստել և վավերացնել ձեր ML մոդելը: Այսպիսով, ML նախագծում աշխատանքի մեծ մասը ձեր կարիքների համար կատարյալ տվյալների հավաքագրումն է: Այնուամենայնիվ, միշտ չէ, որ հնարավոր է գտնել այնպիսի տարբերակ, որը համապատասխանում է ձեր հավակնություններին, քանի որ շատ ֆայլեր, որոնք հետաքրքիր տեսք ունեն, ի վերջո, չեն:

Դա կարող է վախեցնել ժամանակ վատնելը ներբեռնելու անհամար տվյալների հավաքածուներ, մինչև հասնեք իդեալական հավաքածուի: Հաշվի առնելով դա՝ մենք հավաքել ենք մի քանի տարբերակներ, որոնք հետաքրքիր են թվում և կարող են օգնել ձեզ զարգացնել ձեր ML նախագիծը: Նկատի ունեցեք, որ որոշները նախատեսված են անձնական օգտագործման համար, այլ ոչ թե կոմերցիոն օգտագործման համար, այնպես որ նայեք այս տարբերակներին որպես ML տիեզերքում փորձ ձեռք բերելու միջոց:

Տվյալների հավաքածուների հիմունքները

Նախքան տվյալների հավաքածուները նշելը, մենք պետք է սահմանենք որոշ տերմիններ: Արհեստական ինտելեկտի նախագծերում, հատկապես Machine Learning, պահանջվում է մեծ քանակությամբ տվյալներ, որոնք կօգտագործվեն ալգորիթմի ուսուցման համար։ Տվյալների այս քանակությունը հավաքվում է տվյալների բազայում, որը չափազանց օգտակար է ալգորիթմ սովորեցնելու համար:

Այս տվյալների հիման վրա ալգորիթմը վերապատրաստվում է, ինչպես նաև փորձարկվում, և կարողանում է գտնել օրինաչափություններ, հարաբերություններ հաստատել և այդպիսով ինքնուրույն որոշումներ կայացնել: Առանց մարզումների, Machine Learning ալգորիթմները չեն կարողանում որևէ գործողություն կատարել: Հետևաբար, որքան լավ են ուսուցման տվյալները, այնքան ավելի լավ կգործի մոդելը: Որպեսզի տվյալների բազան օգտակար լինի նախագծին, խոսքը քանակի մասին չէ, այլ նաև դասակարգման:

Իդեալում, տվյալները պետք է լավ պիտակավորված լինեն: Մտածեք չաթ-բոտերի մասին. լեզվի ներդրումը կարևոր է, բայց պետք է զգույշ շարահյուսական վերլուծություն անել, որպեսզի ստեղծված ալգորիթմը հասկանա, թե երբ է զրուցակիցը օգտագործում ժարգոն: Միայն դրանից հետո վիրտուալ օգնականը կկարողանա գործարկել պատասխանն ըստ օգտատիրոջ պահանջածի:

Տվյալների հավաքածուները կարող են ստեղծվել հարցումներից, օգտատերերի գնումների տվյալներից, ծառայությունների վրա թողնված գնահատումներից և շատ այլ եղանակներով, որոնք թույլ են տալիս հավաքել օգտակար տեղեկատվություն CSV ֆայլի սյունակներում և տողերում:

Նախքան կատարյալ տվյալների հավաքագրման որոնման մեկնելը, կարևոր է, որ դուք իմանաք ձեր նախագծի նպատակը, հատկապես, եթե այն կոնկրետ տարածքից է, ինչպիսիք են եղանակը, ֆինանսները, առողջապահությունը և այլն: Սա կթելադրի աղբյուրը, որտեղից դուք կստանաք ձեր տվյալների բազա։

Տվյալների հավաքածուներ ML-ի համար

Չաթբոտի ուսուցում

Արդյունավետ չաթբոտը պահանջում է հսկայական քանակությամբ ուսուցման տվյալներ՝ առանց մարդու միջամտության օգտատերերի հարցումներն արագ լուծելու համար: Այնուամենայնիվ, չաթ-բոտի մշակման առաջնային խոչընդոտը իրատեսական, առաջադրանքների վրա հիմնված երկխոսության տվյալներ ստանալն է՝ մեքենայական ուսուցման վրա հիմնված այս համակարգերը մարզելու համար:

Խոսակցական տվյալների հավաքածուն տվյալներ է հավաքում հարց ու պատասխանի ձևաչափով: Այն իդեալական է չաթ-բոտերի պատրաստման համար, որոնք ավտոմատացված պատասխաններ կտան հանդիսատեսին: Առանց այս տվյալների՝ չաթբոտը չի կարողանա արագ լուծել օգտատերերի հարցումները կամ պատասխանել օգտատերերի հարցերին՝ առանց մարդու միջամտության:

Օգտագործելով այս տվյալների հավաքածուները՝ ձեռնարկությունները կարող են ստեղծել մի գործիք, որն արագ պատասխաններ է տալիս հաճախորդներին 24/7 և զգալիորեն ավելի էժան է, քան հաճախորդների սպասարկում իրականացնող մարդկանց թիմ ունենալը:

1. Հարց-պատասխան տվյալների հավաքածու

Այս տվյալների հավաքածուն ապահովում է Վիքիպեդիայի հոդվածների, հարցերի և դրանց համապատասխան ձեռքով ստեղծված պատասխանների մի շարք: Դա տվյալների հավաքածու է, որը հավաքվել է 2008-ից 2010 թվականներին՝ օգտագործելու համար գիտական հետազոտություններ.

2. Լեզվի տվյալներ

Լեզվի տվյալները Yahoo-ի կողմից կառավարվող տվյալների շտեմարան է՝ ընկերության որոշ ծառայություններից ստացված տեղեկություններով, օրինակ՝ Yahoo! Պատասխան, որն աշխատում է որպես բաց համայնք օգտատերերի համար հարցեր և պատասխաններ տեղադրելու համար:

Տվյալների հավաքածուներ 1

3. WikiQA

WikiQA կորպուսը նույնպես բաղկացած է հարցերի և պատասխանների մի շարքից: Հարցերի աղբյուրը Bing-ն է, մինչդեռ պատասխանները կապված են Վիքիպեդիայի էջին, որն ունի նախնական հարցը լուծելու ներուժ:

Տվյալների հավաքածուներ 2 Ընդհանուր առմամբ տվյալների շտեմարանում կա ավելի քան 3,000 հարց և 29,258 նախադասություն, որոնցից մոտ 1,400-ը դասակարգվել են որպես համապատասխան հարցի պատասխաններ:

Կառավարության տվյալները

Կառավարությունների կողմից ստեղծված տվյալների հավաքածուները բերում են ժողովրդագրական տվյալներ, որոնք մեծ ներդրում են սոցիալական միտումների ըմբռնման, հանրային քաղաքականության ստեղծման և հասարակության բարելավման հետ կապված նախագծերի համար: Սա կարող է օգտակար լինել քաղաքական արշավների, նպատակային գովազդի կամ շուկայի վերլուծության համար:

Այս տվյալների շտեմարանները սովորաբար պարունակում են անանուն տվյալներ, այնպես որ, թեև մոդելները կարող են մուտք գործել չմշակված տվյալներ, անձնական գաղտնիության խախտումներ չկան:

4. Data.gov

Data.gov-ը, որը գործարկվել է 2009 թվականին, Հյուսիսային Ամերիկայի տվյալների աղբյուրն է: Դրա կատալոգը տպավորիչ է. ավելի քան 218,000 տվյալների հավաքածուներ, որոնք թույլ են տալիս բաժանել ըստ ձևաչափի, պիտակների, տեսակների և թեմաների:

5. ԵՄ բաց տվյալների պորտալ

ԵՄ բաց տվյալների պորտալը ապահովում է մուտք դեպի բաց տվյալներ, որոնք կիսվում են Եվրամիության հաստատությունների կողմից: Սրանք տվյալներ են, որոնք կարող են նախատեսված լինել առևտրային և ոչ առևտրային օգտագործման համար: Օգտատիրոջ տրամադրության տակ են ավելի քան 15.5 հազար տվյալների հավաքածու, որոնք ընդգրկում են այնպիսի թեմաներ, ինչպիսիք են առողջությունը, էներգիան, շրջակա միջավայրը, մշակույթը և կրթությունը:

Առողջության տվյալներ

Ամբողջ աշխարհում շարունակվող առողջապահական ճգնաժամի հետևանքով առողջապահական կազմակերպությունների կողմից ստեղծված տվյալների հավաքածուները կարևոր նշանակություն ունեն կյանքեր փրկելու արդյունավետ լուծումներ մշակելու համար: Այս տվյալների հավաքածուները կարող են օգնել բացահայտել ռիսկի գործոնները, մշակել հիվանդության փոխանցման օրինաչափությունները և արագացնել ախտորոշումը:

Այս տվյալների հավաքածուները բաղկացած են առողջապահական գրառումներից, հիվանդների ժողովրդագրությունից, հիվանդությունների տարածվածությունից, դեղամիջոցներից, սննդային արժեքներից և շատ ավելին:

6. Առողջության համաշխարհային աստղադիտարան

Տվյալների այս հավաքածուն Առողջապահության համաշխարհային կազմակերպության (ԱՀԿ) նախաձեռնությունն է: Այն տրամադրում է հանրային տվյալներ՝ կապված առողջության տարբեր ոլորտների հետ՝ կազմակերպված թեմաներով, ինչպիսիք են՝ առողջապահական համակարգերը, ծխախոտի օգտագործման վերահսկումը, մայրությունը, ՄԻԱՎ/ՁԻԱՀ-ը և այլն։ Կա նաև COVID-19-ի վերաբերյալ տվյալների հետ ծանոթանալու հնարավորություն։

7. CORD-19

CORD-19-ը Covid-19-ի և նոր կորոնավիրուսի մասին այլ հոդվածների ակադեմիական հրապարակումների հավաքածու է: Դա բաց տվյալների հավաքածու է, որը նախատեսված է COVID-19-ի վերաբերյալ նոր պատկերացումներ ստեղծելու համար:

Տվյալների հավաքածուներ 7

Տնտեսագիտական տվյալներ

Ֆինանսական միջավայրի հետ կապված տվյալների հավաքածուները սովորաբար հավաքում են հսկայական քանակությամբ տեղեկատվություն, քանի որ սովորական է, որ դրանք հավաքվել են երկար ժամանակ: Դրանք իդեալական են տնտեսական կանխատեսումներ ստեղծելու կամ ներդրումային միտումներ հաստատելու համար:

Ճիշտ ֆինանսական տվյալների հավաքածուներով, ա Մեքենայի ուսուցման մոդել կարող է կանխատեսել տվյալ ակտիվի վարքագիծը: Ահա թե ինչու ֆինանսական հատվածն անում է ամեն ինչ, որպեսզի ստեղծի ՓԼ արդյունավետ մոդել, քանի որ այն ամենը, ինչը կարող է նույնիսկ ողջամտորեն լավ կանխատեսել, միլիոնավոր դոլարներ ստեղծելու ներուժ ունի: Մեքենայական ուսուցումն արդեն կանխատեսում է քաղաքացիների վարքագիծը, որն ազդում է այն ձևի վրա, թե ինչպես են քաղաքականություն մշակողները կատարում իրենց աշխատանքը:

8. Արժույթի միջազգային հիմնադրամի

ԱՄՀ տվյալների բազան պարունակում է մի շարք տնտեսական և ֆինանսական ցուցանիշներ, անդամ երկրների վիճակագրություն և վարկերի և փոխարժեքի այլ տվյալներ:

9. Համաշխարհային բանկը

Համաշխարհային բանկի շտեմարանը պարունակում է տարբեր տվյալների հավաքածուներ՝ տարբեր երկրների տնտեսական տեղեկություններով: Կան ավելի քան 17,000 տվյալների հավաքածու՝ բաժանված ըստ մայրցամաքների:

88 տվյալների հավաքածուներ7

Ապրանքների և ծառայությունների ակնարկներ

Զգացմունքների վերլուծությունը գտել է իր կիրառությունները տարբեր ոլորտներում, որոնք այժմ օգնում են ձեռնարկություններին ճիշտ գնահատել և սովորել իրենց հաճախորդներից կամ հաճախորդներից: Զգացմունքների վերլուծությունն ավելի ու ավելի է օգտագործվում սոցիալական մեդիայի մոնիտորինգի, ապրանքանիշի մոնիտորինգի, հաճախորդի ձայնի (VoC), հաճախորդների սպասարկման և շուկայի հետազոտության համար:

Զգացմունքների վերլուծությունը օգտագործում է NLP (նեյրո-լեզվաբանական ծրագրավորում) մեթոդներ և ալգորիթմներ, որոնք կա՛մ կանոնների վրա հիմնված են, կա՛մ հիբրիդային, կա՛մ հիմնվում են մեքենայական ուսուցման տեխնիկայի վրա՝ տվյալների հավաքածուներից տվյալներ սովորելու համար:

Զգացմունքների վերլուծության համար անհրաժեշտ տվյալները պետք է լինեն մասնագիտացված և պահանջվեն մեծ քանակությամբ: Զգացմունքների վերլուծության վերապատրաստման գործընթացի ամենադժվարը մեծ քանակությամբ տվյալներ գտնելը չէ. փոխարենը պետք է գտնել համապատասխան տվյալների հավաքածուներ: Այս տվյալների հավաքածուները պետք է ընդգրկեն տրամադրությունների վերլուծության կիրառությունների և օգտագործման դեպքերի լայն ոլորտ:

10: Amazon ակնարկներ

Այս տվյալների հավաքածուն պարունակում է մոտ 35 միլիոն Amazon-ի ակնարկներ, որոնք ընդգրկում են հավաքագրված տեղեկատվության 18-ամյա ժամանակահատվածը: Դա արտադրանքի, օգտագործողի և վերանայման բովանդակության տվյալների հավաքածու է:

11: Yelp Reviews

Yelp-ը նաև առաջարկում է տվյալների բազա՝ հիմնված իր ծառայությունից հավաքված տեղեկատվության վրա: Կան ավելի քան 8 միլիոն ակնարկներ, 1 միլիոն հուշումներ, գումարած գրեթե 1.5 միլիոն ատրիբուտներ՝ կապված բիզնեսի հետ, ինչպիսիք են բացման ժամերը և հասանելիությունը:

12: IMDB ակնարկներ

Այս տվյալների բազան պարունակում է ավելի քան 25 հազար ֆիլմերի ակնարկներ վերապատրաստման համար և ևս 25 հազարը թեստերի համար, որոնք վերցված են ոչ պաշտոնական IMDB էջից, որը մասնագիտացված է ֆիլմերի վարկանիշների մեջ: Այն նաև առաջարկում է չպիտակավորված տվյալներ որպես լրացուցիչ:

Տվյալների հավաքածուներ ML-ի առաջին քայլերի համար

13: Գինու որակի տվյալների հավաքածու

Այս տվյալների հավաքածուն տեղեկատվություն է տրամադրում հյուսիսային Պորտուգալիայում արտադրվող գինու՝ և՛ կարմիր, և՛ կանաչ գինու հետ: Նպատակը ֆիզիկաքիմիական թեստերի հիման վրա գինու որակի սահմանումն է: Հետաքրքիր է նրանց համար, ովքեր ցանկանում են զբաղվել կանխատեսման համակարգ ստեղծելով:

14: Titanic Dataset

Այս տվյալների բազան բերում է Տիտանիկից 887 իրական ուղևորների տվյալները, որոնցից յուրաքանչյուրը սահմանում է, թե արդյոք նրանք ողջ են մնացել, նրանց տարիքը, ուղևորի դասը, սեռը և նստեցման վճարը, որը նրանք վճարել են: Այս տվյալների բազան եղել է Kaggle պլատֆորմի կողմից գործարկված մարտահրավերի մի մասը, որի նպատակն էր ստեղծել մոդել, որը կարող էր կանխատեսել, թե որ ուղևորներն են ողջ մնացել Տիտանիկի խորտակումից:

Այլ տվյալների հավաքածուներ գտնելու հարթակներ

Եթե ցանկանում եք ավելի հեռուն գնալ և գտնել ձեր սեփական տվյալների բազան, լավագույն միջոցը թերթելն է ամենահայտնի պահոցները: Machine Learning տիեզերք:

Կաղգլ

Kaggle-ը՝ Google LLC-ի դուստր ձեռնարկությունը, տվյալների գիտնականների և մեքենայական ուսուցման մասնագետների առցանց համայնք է: Kaggle-ն օգտատերերին թույլ է տալիս գտնել և հրապարակել տվյալների հավաքածուներ, ուսումնասիրել և ստեղծել մոդելներ վեբ վրա հիմնված տվյալների գիտության միջավայրում. աշխատել այլ տվյալների գիտնականների հետ և Մեքենաների ուսուցման ինժեներներև մասնակցել մրցույթներին տվյալների գիտության մարտահրավերները լուծելու համար:

Kaggle-ը սկսել է 2010 թվականին՝ առաջարկելով մեքենայական ուսուցման մրցույթներ և այժմ առաջարկում է նաև հանրությանը տվյալների հարթակ, տվյալների գիտության և արհեստական ինտելեկտի կրթության համար ամպի վրա հիմնված աշխատանքային սեղան:

Տվյալների հավաքածուի որոնում

Dataset Search-ը Google-ի որոնողական համակարգ է, որն օգնում է հետազոտողներին գտնել առցանց տվյալները, որոնք ազատորեն հասանելի են օգտագործման համար: Համացանցում կան միլիոնավոր տվյալների հավաքածուներ գրեթե ցանկացած թեմայի վերաբերյալ, որը ձեզ հետաքրքրում է:

Եթե դուք ցանկանում եք գնել լակոտ, կարող եք գտնել տվյալների հավաքածուներ, որոնք հավաքում են շան գնորդների բողոքները կամ լակոտների ճանաչողության վերաբերյալ ուսումնասիրությունները: Կամ եթե դուք սիրում եք դահուկներ, կարող եք գտնել տվյալներ լեռնադահուկային հանգստավայրերի եկամուտների կամ վնասվածքների և մասնակցության թվերի վերաբերյալ: Տվյալների հավաքածուի որոնումը ինդեքսավորել է այս տվյալների հավաքածուներից գրեթե 25 միլիոնը, ինչը ձեզ տալիս է տվյալների հավաքածուներ փնտրելու և հղումներ գտնելու համար, որտեղ գտնվում են տվյալները:

UCI Machine Learning Repository

UCI Machine Learning Repository-ը տվյալների բազաների, տիրույթի տեսությունների և տվյալների գեներատորների հավաքածու է, որոնք օգտագործվում են Machine Learning համայնքի կողմից մեքենայական ուսուցման ալգորիթմների էմպիրիկ վերլուծության համար: Արխիվը ստեղծվել է որպես ftp արխիվ 1987 թվականին Դեյվիդ Ահայի և UC Irvine-ի ասպիրանտների կողմից:

Այդ ժամանակվանից այն լայնորեն օգտագործվում է ուսանողների, մանկավարժների և հետազոտողների կողմից ամբողջ աշխարհում՝ որպես ML տվյալների հավաքածուների հիմնական աղբյուր: Որպես արխիվի ազդեցության ցուցիչ՝ այն մեջբերվել է ավելի քան 1000 անգամ՝ դարձնելով այն 100 ամենաշատ մեջբերված «թղթերի» մեջ ամբողջ համակարգչային գիտության մեջ:

Քվանդ

Quandl-ը հարթակ է, որն իր օգտատերերին տրամադրում է տնտեսական, ֆինանսական և այլընտրանքային տվյալների հավաքածուներ: Օգտագործողները կարող են անվճար ներբեռնել տվյալներ, գնել վճարովի տվյալներ կամ վաճառել տվյալներ Quandl-ին: Այն կարող է օգտակար գործիք լինել զարգացման համար առևտրային ալգորիթմներ, օրինակ.

Եզրափակում

Ուսումնասիրելով այս գործիքները, դուք, անկասկած, հիանալի միջոցներ կգտնեք ձեր նախագծերի համար: Համոզվեք, որ ընտրեք տվյալների բազան, որն առավել հարմար է ձեր հատուկ կարիքներին և միշտ հիշեք. դա ոչ միայն քանակի, այլ նաև որակի մասին է: Տվյալների հավաքածուն ցանկացածի հիմքն է Մեքենայի ուսուցման նախագիծ և կարևոր է հիմնվել որակյալ տվյալների վրա՝ սխալ եզրակացությունների հանգելու վտանգից խուսափելու համար:

Լավագույն տվյալների հավաքածուներ մեքենայական ուսուցման համար

14 Լավագույն տվյալների հավաքածուներ մեքենայական ուսուցման համար

Տվյալների հավաքածուների հիմունքները