25 լավագույն այլընտրանքային AI ուսուցման տվյալների հավաքածուներ (2024)

Բառը[Թաքցնել][Ցուցադրում]

1. CelebFaces Attributes Dataset
2. DOTA
3. Google-ի դեմքի արտահայտությունների համեմատական տվյալների հավաքածու
4. Տեսողական գենոմ
5. LibriSpeech
6. Քաղաքային տարածքները
7. Կինետիկ տվյալների հավաքածու
8. CelebAMask-HQ
9. Penn Treebank
10. VoxCeleb
11. SIXray
12. ԱՄՆ դժբախտ պատահարներ
13. Աչքի հիվանդությունների ճանաչում
14. Սրտի հիվանդություն
15. CLEVR
16. Համընդհանուր կախվածություններ
17. KITTI – 360
18. MOT (Բազմաթիվ օբյեկտների հետևում)
19. PASCAL 3D+
20. Կենդանիների դեմքի դեֆորմացվող մոդելներ
21. MPII Human Post Dataset
22. UCF101
23. Audioset
24. Ստենֆորդի բնական լեզվի եզրակացություն
25. Տեսողական հարցի պատասխան
Եզրափակում

Մեր օրերում մեզանից շատերը կենտրոնացած են մեքենայական ուսուցման և AI մոդելների մշակման և ընթացիկ տվյալների հավաքածուների միջոցով խնդիրների լուծման վրա: Բայց նախ, մենք պետք է սահմանենք տվյալների բազան, դրա նշանակությունը և նրա դերը AI և ML ուժեղ լուծումներ մշակելու գործում:

Այսօր մենք ունենք բազմաթիվ բաց կոդով տվյալների հավաքածուներ, որոնց վրա կարող ենք հետազոտություններ անցկացնել կամ մշակել հավելվածներ՝ տարբեր ոլորտներում իրական աշխարհի խնդիրները լուծելու համար:

Այնուամենայնիվ, բարձրորակ քանակական տվյալների հավաքածուների սակավությունը անհանգստության աղբյուր է: Տվյալներն անսահմանորեն աճել են և ապագայում կշարունակեն ընդլայնվել ավելի արագ տեմպերով:

Այս գրառման մեջ մենք կանդրադառնանք ազատ հասանելի տվյալների հավաքածուներին, որոնք դուք կարող եք օգտագործել՝ զարգացնելու ձեր հաջորդ AI նախագիծը:

1. CelebFaces Attributes Dataset

CelebFaces Attributes Dataset (CelebA) պարունակում է ավելի քան 200K հայտնի մարդկանց լուսանկարներ և 40 հատկանիշի ծանոթագրություններ յուրաքանչյուր նկարի համար, ինչը այն դարձնում է հիանալի մեկնարկային կետ այնպիսի նախագծերի համար, ինչպիսիք են դեմքի ճանաչում, դեմքի հայտնաբերում, ուղենիշի (կամ դեմքի բաղադրիչի) տեղայնացում և դեմքի խմբագրում և սինթեզ: Ավելին, այս հավաքածուի լուսանկարները պարունակում են դիրքի տարբերակների լայն տեսականի և ֆոնային խառնաշփոթ:

2. DOTA

DOTA (տվյալների հավաքածու Օբյեկտի հայտնաբերում Օդային լուսանկարներում) օբյեկտների հայտնաբերման լայնածավալ տվյալների բազա է, որը ներառում է 15 ընդհանուր կատեգորիաներ (օրինակ՝ նավ, ինքնաթիռ, մեքենա և այլն), 1411 պատկեր՝ մարզումների համար և 458 պատկեր՝ վավերացման համար:

3. Google Դեմքի արտահայտությունների համեմատական տվյալների բազա

Google-ի դեմքի արտահայտությունների համեմատական տվյալների հավաքածուն պարունակում է մոտ 500,000 նկարների եռյակ, այդ թվում՝ 156,000 դեմքի լուսանկար: Հարկ է նշել, որ այս տվյալների բազայի յուրաքանչյուր եռյակը ծանոթագրվել է առնվազն վեց մարդ գնահատողների կողմից:

Այս տվյալների հավաքածուն օգտակար է դեմքի արտահայտությունների վերլուծություն պարունակող նախագծերի համար, ինչպիսիք են արտահայտության վրա հիմնված նկարների որոնումը, զգացմունքների դասակարգումը, արտահայտությունների սինթեզը և այլն: Տվյալների հավաքածուին հասանելիություն ստանալու համար պետք է լրացվի համառոտ ձև:

4. Տեսողական գենոմ

Visual Question Տվյալների պատասխանը բազմակի ընտրության միջավայրում հասանելի է Visual Genome-ում: Այն կազմված է 101,174 MSCOCO լուսանկարներից՝ 1.7 միլիոն QA զույգերով, միջինը 17 հարցով յուրաքանչյուր նկարում:

Տեսողական հարցերի պատասխանների տվյալների շտեմարանի համեմատ՝ Visual Genome տվյալների բազան ավելի արդար բաշխվածություն ունի վեց հարցերի միջև՝ ինչ, որտեղ, երբ, ով, ինչու և ինչպես:

Բացի այդ, Visual Genome տվյալների հավաքածուն ներառում է 108K լուսանկարներ, որոնք մեծապես պիտակված են առարկաներով, հատկություններով և կապերով:

5. LibriSpeech

LibriSpeech կորպուսը շուրջ 1,000 ժամ աուդիոգրքերի հավաքածու է LibriVox նախագծից: Աուդիոգրքերի մեծ մասը ծագում է Գուտենբերգ նախագծից:

Ուսուցման տվյալները բաժանված են երեք բաժինների՝ 100 ժամ, 360 ժամ և 500 ժամ, մինչդեռ մշակողի և թեստային տվյալները մոտավորապես 5 ժամ ձայնային երկարությամբ են:

6. Քաղաքային տարածքները

Քաղաքային տեսարաններով ստերեո տեսահոլովակների ամենահայտնի լայնածավալ տվյալների բազաներից մեկը կոչվում է Քաղաքային տեսարաններ:

Պիքսելային ճշգրիտ ծանոթագրություններով, որոնք ներառում են GPS-ի տեղադրությունները, դրսի ջերմաստիճանը, էգոյի շարժման տվյալները և ճիշտ ստերեո հեռանկարները, այն ներառում է ձայնագրություններ 50 տարբեր գերմանական քաղաքներից:

7. Կինետիկ տվյալների հավաքածու

Մարդկային գործունեությունը մեծ մասշտաբով և լավ որակով ճանաչելու ամենահայտնի վիդեո տվյալների հավաքածուներից մեկը Kinetics տվյալների հավաքածուն է: Մարդկային գործունեության 600 դասերից յուրաքանչյուրի համար կա առնվազն 600 տեսահոլովակ, որոնք ընդհանուր առմամբ կազմում են ավելի քան 500,000:

Ֆիլմերը հանվել են YouTube-ից. յուրաքանչյուրը մոտ 10 վայրկյան է և ունի միայն մեկ գործունեության դասակարգ:

8. CelebAMask-HQ

CelebAMask-HQ-ն 30,000 բարձր լուծաչափով դեմքի լուսանկարների հավաքածու է՝ խնամքով նկարագրված դիմակներով և 19 դասերով, որոնք ներառում են դեմքի բաղադրիչներ, ինչպիսիք են մաշկը, քիթը, աչքերը, հոնքերը, ականջները, բերանը, շրթունքները, մազերը, գլխարկը, ակնոցը, ականջօղը, վզնոցը, պարանոց, նյութ.

Տվյալների հավաքածուն կարող է օգտագործվել դեմքի ճանաչման, դեմքի վերլուծության և GAN-ների փորձարկման և ուսուցման համար՝ դեմքի ստեղծման և խմբագրման ալգորիթմների համար:

9. Penn Treebank

Հաջորդականության պիտակավորման մոդելների գնահատման համար առավել նշանավոր և հաճախ օգտագործվող կորպուսներից մեկը անգլերեն Penn Treebank (PTB) կորպուսն է, մասնավորապես Wall Street Journal-ի հոդվածներին համապատասխան կորպուսի մի մասը:

Յուրաքանչյուր բառի խոսքի իր մասը պետք է նշվի որպես առաջադրանքի բաղադրիչ: Նիշերի մակարդակ և բառի մակարդակ լեզվի մոդելավորում նաև հաճախակի օգտագործում է կորպուսը:

10: VoxCeleb

VoxCeleb-ը խոսքի նույնականացման լայնածավալ տվյալների հավաքածու է, որն ավտոմատ կերպով ստեղծվում է բաց կոդով մեդիա. VoxCeleb-ն ունի ավելի քան մեկ միլիոն խոսք ավելի քան 6 հազար խոսնակներից:

Քանի որ տվյալների հավաքածուն ներառում է աուդիո-վիզուալ, այն կարող է օգտագործվել մի շարք լրացուցիչ ծրագրերի համար, ներառյալ խոսքի տեսողական սինթեզը, խոսքի տարանջատումը, դեմքից ձայն կամ հակառակը խաչաձեւ մոդալ փոխանցում և տեսանյութից դեմքի ճանաչման ուսուցում` ընթացիկ դեմքի ճանաչման լրացման համար: տվյալների հավաքածուներ.

11: SIXray

SIXray տվյալների հավաքածուն ներառում է 1,059,231 ռենտգեն նկարներ, որոնք հավաքվել են մետրոյի կայարաններից և ծանոթագրվել մարդկային անվտանգության տեսուչների կողմից՝ հայտնաբերելու արգելված իրերի վեց հիմնական տեսակները՝ ատրճանակներ, դանակներ, բանալիներ, տափակաբերան աքցան, մկրատ և մուրճ: Ավելին, յուրաքանչյուր արգելված տարրի համար սահմանող տուփերը ձեռքով ավելացվել են փորձարկման հավաքածուներին՝ օբյեկտների տեղայնացման կատարումը գնահատելու համար:

12: ԱՄՆ դժբախտ պատահարներ

Ծրագրի էությունը արդեն իսկ բացահայտվում է տվյալների շտեմարանի անվանումով՝ ԱՄՆ պատահարներ: Համազգային ավտովթարների վերաբերյալ այս տվյալների բազան ներառում է տեղեկատվություն 2016 թվականի փետրվարից մինչև 2021 թվականի դեկտեմբերը և ներառում է ԱՄՆ-ի 49 նահանգ:

Մոտավորապես 1.5 միլիոն դժբախտ պատահարների գրառումներ այժմ առկա են այս հավաքածուում: Այն հավաքվել է իրական ժամանակում՝ օգտագործելով մի քանի երթևեկության API-ներ:

Այս API-ները փոխանցում են երթևեկության մասին տեղեկատվությունը, որը հավաքվել է տարբեր աղբյուրներից, այդ թվում՝ ճանապարհային տեսախցիկներից, իրավապահ կազմակերպություններից և ԱՄՆ-ի և նահանգային տրանսպորտի վարչություններից:

13: Աչքի հիվանդությունների ճանաչում

Կազմակերպված ակնաբուժական տվյալների բազան Ocular Disease Intelligent Recognition (ODIR) պարունակում է տեղեկատվություն 5,000 հիվանդի մասին, ներառյալ նրանց տարիքը, ձախ և աջ աչքերի ֆոնի գույնը և բժիշկների ախտորոշիչ հիմնաբառերը:

Այս տվյալների հավաքածուն Չինաստանի տարբեր հիվանդանոցներից և բժշկական հաստատություններից հիվանդների տվյալների փաստացի հավաքածու է, որը ձեռք է բերել Shanggong Medical Technology Co., Ltd.-ն: Հետ որակի վերահսկման կառավարում, ծանոթագրությունները հատկորոշվել են հմուտ մարդկային ընթերցողների կողմից:

14: Սրտի հիվանդություն

Սրտի հիվանդության այս տվյալների հավաքածուն օգնում է հիվանդի մոտ սրտի հիվանդության առկայության բացահայտմանը` հիմնվելով 76 պարամետրերի վրա, ինչպիսիք են տարիքը, սեռը, կրծքավանդակի ցավի տեսակը, հանգստի արյան ճնշումը և այլն:

303 դեպքով տվյալների բազան փորձում է պարզապես տարբերակել հիվանդության առկայությունը (արժեքը 1,2,3,4) դրա բացակայությունից (արժեք 0):

15: CLEVR

CLEVR տվյալների բազան (Compositional Language and Elementary Visual Reasoning) ընդօրինակում է տեսողական հարցերի պատասխանը: Այն բաղկացած է 3D-արտադրված օբյեկտների լուսանկարներից, որոնցից յուրաքանչյուրը ուղեկցվում է մի քանի կատեգորիաների բաժանված բարձր կոմպոզիցիոն հարցերի շարքով:

Բոլոր գնացքների և վավերացման նկարների և հարցերի համար տվյալների հավաքածուն ներառում է 70,000 լուսանկար և 700,000 հարց ուսուցման համար, 15,000 պատկեր և 150,000 հարց վավերացման համար, և 15,000 պատկեր և 150,000 հարց՝ առարկաների, պատասխանների և ֆունկցիոնալ ծրագրերի փորձարկման համար:

16: Համընդհանուր կախվածություններ

Universal Dependencies (UD) նախագիծը նպատակ ունի ստեղծել միջլեզվական միատեսակ մորֆոլոգիա և շարահյուսական ծանոթագրություն շատ լեզուների համար: 2.7 տարբերակը, որը թողարկվել է 2020 թվականին, ունի 183 ծառի ափ՝ 104 լեզուներով։

Անոտացիան կազմված է համընդհանուր POW պիտակներից, կախվածության գլխիկներից և համընդհանուր կախվածության պիտակներից:

17: KITTI – 360

Շարժական ռոբոտների համար ամենահաճախ օգտագործվող տվյալների հավաքածուներից մեկը և ինքնավար վարում KITTI-ն է (Կարլսրուեի տեխնոլոգիական ինստիտուտ և Toyota տեխնոլոգիական ինստիտուտ):

Այն բաղկացած է ժամերի տեւողությամբ երթևեկության սցենարներից, որոնք նկարահանվել են մի շարք սենսորային եղանակների միջոցով, ինչպիսիք են բարձր լուծաչափով RGB, մոխրագույն ստերեո և 3D լազերային սկաների տեսախցիկներ: Տվյալների հավաքածուն ժամանակի ընթացքում բարելավվել է մի քանի հետազոտողների կողմից, ովքեր ձեռքով նշում էին դրա տարբեր հատվածները՝ իրենց կարիքներին համապատասխան:

18: MOT (Բազմաթիվ օբյեկտների հետևում)

MOT-ը (Multiple Object Tracking) բազմակի օբյեկտների հետագծման տվյալների հավաքածու է, որը ներառում է հանրային վայրերի ներքին և դրսի տեսարաններ, որոնք ներառում են հետիոտներին որպես հետաքրքրության օբյեկտ: Յուրաքանչյուր տեսարանի տեսահոլովակը բաժանված է երկու մասի, մեկը՝ ուսուցման, իսկ մյուսը՝ փորձարկման:

Տվյալների հավաքածուն ներառում է օբյեկտների հայտնաբերում վիդեո շրջանակներում՝ օգտագործելով երեք դետեկտորներ՝ SDP, Faster-RCNN և DPM:

19: PASCAL 3D+

Pascal3D+ բազմատեսակ տվյալների հավաքածուն կազմված է վայրի բնության մեջ հավաքված լուսանկարներից, այսինքն՝ բարձր փոփոխականությամբ իրերի կատեգորիաների պատկերներից, որոնք արվել են չվերահսկվող հանգամանքներում, մարդաշատ միջավայրերում և տարբեր դիրքերում: Pascal3D+-ը ներառում է 12 կոշտ օբյեկտների կատեգորիաներ, որոնք կազմված են PASCAL VOC 2012 տվյալների բազայից:

Այս իրերի վրա նշված է կեցվածքի մասին տեղեկություն (ազիմուտ, բարձրություն և տեսախցիկի հեռավորությունը): Pascal3D+-ը այս 12 կատեգորիաներում լրացուցիչ ներառում է պատկերներով ծանոթագրված լուսանկարներ ImageNet հավաքածուից:

20: Կենդանիների դեմքի դեֆորմացվող մոդելներ

Կենդանիների դեմքի դեֆորմացվող մոդելներ (FDMA) նախագծի նպատակն է մարտահրավեր նետել մարդու դեմքի ուղենիշների նույնականացման և հետևելու ներկայիս մեթոդաբանություններին և մշակել նոր ալգորիթմներ, որոնք կարող են լուծել կենդանիների դեմքի բնութագրերին բնորոշ զգալիորեն ավելի մեծ փոփոխականությունը:

Ծրագրի ալգորիթմները ցույց տվեցին մարդու դեմքերի վրա գտնվող ուղենիշները ճանաչելու և հետևելու կարողությունը՝ միաժամանակ գործ ունենալով դեմքի հույզերի կամ դիրքերի, մասնակի խցանումների և լուսավորության փոփոխություններով պայմանավորված շեղումների հետ:

21: MPII Human Post Dataset

MPII Human Pose Dataset-ը պարունակում է մոտ 25K լուսանկար, որոնցից 15K-ը ուսումնական նմուշներ են, որոնցից 3K-ը՝ վավերացման նմուշներ, իսկ 7K-ը՝ փորձարկման նմուշներ:

Դիրքերը ձեռքով պիտակավորված են մինչև 16 մարմնի հոդերով, իսկ լուսանկարները վերցված են YouTube ֆիլմերից, որոնք ընդգրկում են մարդկային 410 տարբեր գործողություններ:

22: UCF101

UCF101 տվյալների բազան պարունակում է 13,320 տեսահոլովակ՝ կազմակերպված 101 կատեգորիաներով: Այս 101 կատեգորիաները բաժանված են հինգ կատեգորիաների՝ մարմնական շարժումներ, մարդ-մարդ փոխազդեցություն, մարդ-օբյեկտ փոխազդեցություն, երաժշտական գործիքներ նվագել և սպորտ:

Տեսանյութերը YouTube-ից են և տևում են 27 ժամ:

23: Audioset

Audioset-ը աուդիո իրադարձությունների հավաքածու է, որը կազմված է ավելի քան 2 միլիոն մարդու կողմից ծանոթագրված 10 վայրկյան տևողությամբ տեսանյութերի հատվածներից: Այս տվյալները ծանոթագրելու համար օգտագործվում է հիերարխիկ գոյաբանություն, որը ներառում է իրադարձությունների 632 տեսակներ, ինչը ենթադրում է, որ նույն ձայնը կարող է տարբեր կերպ պիտակվել:

24: Ստենֆորդի բնական լեզվի եզրակացություն

SNLI տվյալների բազան (Stanford Natural Language Inference) պարունակում է 570 հազար նախադասության զուգավորում, որոնք ձեռքով դասակարգվել են որպես պատճառ, հակասություն կամ չեզոք:

Տարածքները Flickr30k նկարների նկարագրություններն են, մինչդեռ վարկածները մշակվել են ամբոխից ստացված ծանոթագրողների կողմից, որոնց տրամադրվել է նախադրյալ և հանձնարարվել է առաջացնել ուղեկցող, հակասող և չեզոք հայտարարություններ:

25: Տեսողական հարցի պատասխան

Տեսողական հարցերի պատասխանը (VQA) տվյալների հավաքածու է, որը պարունակում է նկարների վերաբերյալ բաց հարցեր: Այս հարցերին պատասխանելու համար դուք պետք է ըմբռնեք տեսլականը, լեզուն և ողջախոհությունը:

Եզրափակում

Քանի որ մեքենայական ուսուցումը և արհեստական ինտելեկտը (AI) դառնում են ավելի տարածված գործնականում յուրաքանչյուր բիզնեսում և մեր առօրյա կյանքում, այնքան մեծանում է թեմայի վերաբերյալ հասանելի ռեսուրսների և տեղեկատվության քանակը:

Պատրաստի հանրային տվյալների հավաքածուները հիանալի մեկնարկային կետ են AI մոդելներ մշակելու համար, միաժամանակ թույլ տալով փորձառու ML ծրագրավորողներին խնայել ժամանակը և կենտրոնանալ իրենց նախագծերի այլ տարրերի վրա:

Լավագույն այլընտրանքային AI ուսուցման տվյալների հավաքածուներ

25 լավագույն այլընտրանքային AI ուսուցման տվյալների հավաքածուներ

1. CelebFaces Attributes Dataset

2. DOTA

3. Google Դեմքի արտահայտությունների համեմատական տվյալների բազա

4. Տեսողական գենոմ

5. LibriSpeech

6. Քաղաքային տարածքները

7. Կինետիկ տվյալների հավաքածու

8. CelebAMask-HQ

9. Penn Treebank

10: VoxCeleb

11: SIXray

12: ԱՄՆ դժբախտ պատահարներ

13: Աչքի հիվանդությունների ճանաչում

14: Սրտի հիվանդություն

15: CLEVR

16: Համընդհանուր կախվածություններ

17: KITTI – 360

18: MOT (Բազմաթիվ օբյեկտների հետևում)

19: PASCAL 3D+

20: Կենդանիների դեմքի դեֆորմացվող մոդելներ

21: MPII Human Post Dataset

22: UCF101

23: Audioset

24: Ստենֆորդի բնական լեզվի եզրակացություն

25: Տեսողական հարցի պատասխան

Եզրափակում

Մեր Մասին ճայ

Լրացուցիչ հոդվածներ HashDork-ում.

Ինչպես նվազեցնել հալյուցինացիաները ձեր AI-ում

Կոլոսյան vs Հեյգեն

Այս ապագա տեխնոլոգիական տեղեկագիրը չի ծծում

25 լավագույն այլընտրանքային AI ուսուցման տվյալների հավաքածուներ

1. CelebFaces Attributes Dataset

2. DOTA

3. Google Դեմքի արտահայտությունների համեմատական ​​տվյալների բազա

4. Տեսողական գենոմ

5. LibriSpeech

6. Քաղաքային տարածքները

7. Կինետիկ տվյալների հավաքածու

8. CelebAMask-HQ

9. Penn Treebank

10: VoxCeleb

11: SIXray

12: ԱՄՆ դժբախտ պատահարներ

13: Աչքի հիվանդությունների ճանաչում

14: Սրտի հիվանդություն

15: CLEVR

16: Համընդհանուր կախվածություններ

17: KITTI – 360

18: MOT (Բազմաթիվ օբյեկտների հետևում)

19: PASCAL 3D+

20: Կենդանիների դեմքի դեֆորմացվող մոդելներ

21: MPII Human Post Dataset

22: UCF101

23: Audioset

24: Ստենֆորդի բնական լեզվի եզրակացություն

25: Տեսողական հարցի պատասխան

Եզրափակում

Մեր Մասին ճայ

Լրացուցիչ հոդվածներ HashDork-ում.

Ինչպես նվազեցնել հալյուցինացիաները ձեր AI-ում

10 լավագույն AI գործիքներ սոցիալական մեդիայի համար

Կոլոսյան vs Հեյգեն

10 լավագույն AI անիմացիոն վիդեո ստեղծող գործիքներ

Reader փոխազդեցությունների

Թողնել գրառում Ավելացնել կարծիք Չեղարկել պատասխանել

Այս ապագա տեխնոլոգիական տեղեկագիրը չի ծծում

3. Google Դեմքի արտահայտությունների համեմատական տվյալների բազա

Թողնել գրառում