Բառը[Թաքցնել][Ցուցադրում]
- 1. CelebFaces Attributes Dataset
- 2. DOTA
- 3. Google-ի դեմքի արտահայտությունների համեմատական տվյալների հավաքածու
- 4. Տեսողական գենոմ
- 5. LibriSpeech
- 6. Քաղաքային տարածքները
- 7. Կինետիկ տվյալների հավաքածու
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. ԱՄՆ դժբախտ պատահարներ
- 13. Աչքի հիվանդությունների ճանաչում
- 14. Սրտի հիվանդություն
- 15. CLEVR
- 16. Համընդհանուր կախվածություններ
- 17. KITTI – 360
- 18. MOT (Բազմաթիվ օբյեկտների հետևում)
- 19. PASCAL 3D+
- 20. Կենդանիների դեմքի դեֆորմացվող մոդելներ
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. Audioset
- 24. Ստենֆորդի բնական լեզվի եզրակացություն
- 25. Տեսողական հարցի պատասխան
- Եզրափակում
Մեր օրերում մեզանից շատերը կենտրոնացած են մեքենայական ուսուցման և AI մոդելների մշակման և ընթացիկ տվյալների հավաքածուների միջոցով խնդիրների լուծման վրա: Բայց նախ, մենք պետք է սահմանենք տվյալների բազան, դրա նշանակությունը և նրա դերը AI և ML ուժեղ լուծումներ մշակելու գործում:
Այսօր մենք ունենք բազմաթիվ բաց կոդով տվյալների հավաքածուներ, որոնց վրա կարող ենք հետազոտություններ անցկացնել կամ մշակել հավելվածներ՝ տարբեր ոլորտներում իրական աշխարհի խնդիրները լուծելու համար:
Այնուամենայնիվ, բարձրորակ քանակական տվյալների հավաքածուների սակավությունը անհանգստության աղբյուր է: Տվյալներն անսահմանորեն աճել են և ապագայում կշարունակեն ընդլայնվել ավելի արագ տեմպերով:
Այս գրառման մեջ մենք կանդրադառնանք ազատ հասանելի տվյալների հավաքածուներին, որոնք դուք կարող եք օգտագործել՝ զարգացնելու ձեր հաջորդ AI նախագիծը:
1. CelebFaces Attributes Dataset
CelebFaces Attributes Dataset (CelebA) պարունակում է ավելի քան 200K հայտնի մարդկանց լուսանկարներ և 40 հատկանիշի ծանոթագրություններ յուրաքանչյուր նկարի համար, ինչը այն դարձնում է հիանալի մեկնարկային կետ այնպիսի նախագծերի համար, ինչպիսիք են դեմքի ճանաչում, դեմքի հայտնաբերում, ուղենիշի (կամ դեմքի բաղադրիչի) տեղայնացում և դեմքի խմբագրում և սինթեզ: Ավելին, այս հավաքածուի լուսանկարները պարունակում են դիրքի տարբերակների լայն տեսականի և ֆոնային խառնաշփոթ:
2. DOTA
DOTA (տվյալների հավաքածու Օբյեկտի հայտնաբերում Օդային լուսանկարներում) օբյեկտների հայտնաբերման լայնածավալ տվյալների բազա է, որը ներառում է 15 ընդհանուր կատեգորիաներ (օրինակ՝ նավ, ինքնաթիռ, մեքենա և այլն), 1411 պատկեր՝ մարզումների համար և 458 պատկեր՝ վավերացման համար:
3. Google Դեմքի արտահայտությունների համեմատական տվյալների բազա
Google-ի դեմքի արտահայտությունների համեմատական տվյալների հավաքածուն պարունակում է մոտ 500,000 նկարների եռյակ, այդ թվում՝ 156,000 դեմքի լուսանկար: Հարկ է նշել, որ այս տվյալների բազայի յուրաքանչյուր եռյակը ծանոթագրվել է առնվազն վեց մարդ գնահատողների կողմից:
Այս տվյալների հավաքածուն օգտակար է դեմքի արտահայտությունների վերլուծություն պարունակող նախագծերի համար, ինչպիսիք են արտահայտության վրա հիմնված նկարների որոնումը, զգացմունքների դասակարգումը, արտահայտությունների սինթեզը և այլն: Տվյալների հավաքածուին հասանելիություն ստանալու համար պետք է լրացվի համառոտ ձև:
4. Տեսողական գենոմ
Visual Question Տվյալների պատասխանը բազմակի ընտրության միջավայրում հասանելի է Visual Genome-ում: Այն կազմված է 101,174 MSCOCO լուսանկարներից՝ 1.7 միլիոն QA զույգերով, միջինը 17 հարցով յուրաքանչյուր նկարում:
Տեսողական հարցերի պատասխանների տվյալների շտեմարանի համեմատ՝ Visual Genome տվյալների բազան ավելի արդար բաշխվածություն ունի վեց հարցերի միջև՝ ինչ, որտեղ, երբ, ով, ինչու և ինչպես:
Բացի այդ, Visual Genome տվյալների հավաքածուն ներառում է 108K լուսանկարներ, որոնք մեծապես պիտակված են առարկաներով, հատկություններով և կապերով:
5. LibriSpeech
LibriSpeech կորպուսը շուրջ 1,000 ժամ աուդիոգրքերի հավաքածու է LibriVox նախագծից: Աուդիոգրքերի մեծ մասը ծագում է Գուտենբերգ նախագծից:
Ուսուցման տվյալները բաժանված են երեք բաժինների՝ 100 ժամ, 360 ժամ և 500 ժամ, մինչդեռ մշակողի և թեստային տվյալները մոտավորապես 5 ժամ ձայնային երկարությամբ են:
6. Քաղաքային տարածքները
Քաղաքային տեսարաններով ստերեո տեսահոլովակների ամենահայտնի լայնածավալ տվյալների բազաներից մեկը կոչվում է Քաղաքային տեսարաններ:
Պիքսելային ճշգրիտ ծանոթագրություններով, որոնք ներառում են GPS-ի տեղադրությունները, դրսի ջերմաստիճանը, էգոյի շարժման տվյալները և ճիշտ ստերեո հեռանկարները, այն ներառում է ձայնագրություններ 50 տարբեր գերմանական քաղաքներից:
7. Կինետիկ տվյալների հավաքածու
Մարդկային գործունեությունը մեծ մասշտաբով և լավ որակով ճանաչելու ամենահայտնի վիդեո տվյալների հավաքածուներից մեկը Kinetics տվյալների հավաքածուն է: Մարդկային գործունեության 600 դասերից յուրաքանչյուրի համար կա առնվազն 600 տեսահոլովակ, որոնք ընդհանուր առմամբ կազմում են ավելի քան 500,000:
Ֆիլմերը հանվել են YouTube-ից. յուրաքանչյուրը մոտ 10 վայրկյան է և ունի միայն մեկ գործունեության դասակարգ:
8. CelebAMask-HQ
CelebAMask-HQ-ն 30,000 բարձր լուծաչափով դեմքի լուսանկարների հավաքածու է՝ խնամքով նկարագրված դիմակներով և 19 դասերով, որոնք ներառում են դեմքի բաղադրիչներ, ինչպիսիք են մաշկը, քիթը, աչքերը, հոնքերը, ականջները, բերանը, շրթունքները, մազերը, գլխարկը, ակնոցը, ականջօղը, վզնոցը, պարանոց, նյութ.
Տվյալների հավաքածուն կարող է օգտագործվել դեմքի ճանաչման, դեմքի վերլուծության և GAN-ների փորձարկման և ուսուցման համար՝ դեմքի ստեղծման և խմբագրման ալգորիթմների համար:
9. Penn Treebank
Հաջորդականության պիտակավորման մոդելների գնահատման համար առավել նշանավոր և հաճախ օգտագործվող կորպուսներից մեկը անգլերեն Penn Treebank (PTB) կորպուսն է, մասնավորապես Wall Street Journal-ի հոդվածներին համապատասխան կորպուսի մի մասը:
Յուրաքանչյուր բառի խոսքի իր մասը պետք է նշվի որպես առաջադրանքի բաղադրիչ: Նիշերի մակարդակ և բառի մակարդակ լեզվի մոդելավորում նաև հաճախակի օգտագործում է կորպուսը:
10: VoxCeleb
VoxCeleb-ը խոսքի նույնականացման լայնածավալ տվյալների հավաքածու է, որն ավտոմատ կերպով ստեղծվում է բաց կոդով մեդիա. VoxCeleb-ն ունի ավելի քան մեկ միլիոն խոսք ավելի քան 6 հազար խոսնակներից:
Քանի որ տվյալների հավաքածուն ներառում է աուդիո-վիզուալ, այն կարող է օգտագործվել մի շարք լրացուցիչ ծրագրերի համար, ներառյալ խոսքի տեսողական սինթեզը, խոսքի տարանջատումը, դեմքից ձայն կամ հակառակը խաչաձեւ մոդալ փոխանցում և տեսանյութից դեմքի ճանաչման ուսուցում` ընթացիկ դեմքի ճանաչման լրացման համար: տվյալների հավաքածուներ.
11: SIXray
SIXray տվյալների հավաքածուն ներառում է 1,059,231 ռենտգեն նկարներ, որոնք հավաքվել են մետրոյի կայարաններից և ծանոթագրվել մարդկային անվտանգության տեսուչների կողմից՝ հայտնաբերելու արգելված իրերի վեց հիմնական տեսակները՝ ատրճանակներ, դանակներ, բանալիներ, տափակաբերան աքցան, մկրատ և մուրճ: Ավելին, յուրաքանչյուր արգելված տարրի համար սահմանող տուփերը ձեռքով ավելացվել են փորձարկման հավաքածուներին՝ օբյեկտների տեղայնացման կատարումը գնահատելու համար:
12: ԱՄՆ դժբախտ պատահարներ
Ծրագրի էությունը արդեն իսկ բացահայտվում է տվյալների շտեմարանի անվանումով՝ ԱՄՆ պատահարներ: Համազգային ավտովթարների վերաբերյալ այս տվյալների բազան ներառում է տեղեկատվություն 2016 թվականի փետրվարից մինչև 2021 թվականի դեկտեմբերը և ներառում է ԱՄՆ-ի 49 նահանգ:
Մոտավորապես 1.5 միլիոն դժբախտ պատահարների գրառումներ այժմ առկա են այս հավաքածուում: Այն հավաքվել է իրական ժամանակում՝ օգտագործելով մի քանի երթևեկության API-ներ:
Այս API-ները փոխանցում են երթևեկության մասին տեղեկատվությունը, որը հավաքվել է տարբեր աղբյուրներից, այդ թվում՝ ճանապարհային տեսախցիկներից, իրավապահ կազմակերպություններից և ԱՄՆ-ի և նահանգային տրանսպորտի վարչություններից:
13: Աչքի հիվանդությունների ճանաչում
Կազմակերպված ակնաբուժական տվյալների բազան Ocular Disease Intelligent Recognition (ODIR) պարունակում է տեղեկատվություն 5,000 հիվանդի մասին, ներառյալ նրանց տարիքը, ձախ և աջ աչքերի ֆոնի գույնը և բժիշկների ախտորոշիչ հիմնաբառերը:
Այս տվյալների հավաքածուն Չինաստանի տարբեր հիվանդանոցներից և բժշկական հաստատություններից հիվանդների տվյալների փաստացի հավաքածու է, որը ձեռք է բերել Shanggong Medical Technology Co., Ltd.-ն: Հետ որակի վերահսկման կառավարում, ծանոթագրությունները հատկորոշվել են հմուտ մարդկային ընթերցողների կողմից:
14: Սրտի հիվանդություն
Սրտի հիվանդության այս տվյալների հավաքածուն օգնում է հիվանդի մոտ սրտի հիվանդության առկայության բացահայտմանը` հիմնվելով 76 պարամետրերի վրա, ինչպիսիք են տարիքը, սեռը, կրծքավանդակի ցավի տեսակը, հանգստի արյան ճնշումը և այլն:
303 դեպքով տվյալների բազան փորձում է պարզապես տարբերակել հիվանդության առկայությունը (արժեքը 1,2,3,4) դրա բացակայությունից (արժեք 0):
15: CLEVR
CLEVR տվյալների բազան (Compositional Language and Elementary Visual Reasoning) ընդօրինակում է տեսողական հարցերի պատասխանը: Այն բաղկացած է 3D-արտադրված օբյեկտների լուսանկարներից, որոնցից յուրաքանչյուրը ուղեկցվում է մի քանի կատեգորիաների բաժանված բարձր կոմպոզիցիոն հարցերի շարքով:
Բոլոր գնացքների և վավերացման նկարների և հարցերի համար տվյալների հավաքածուն ներառում է 70,000 լուսանկար և 700,000 հարց ուսուցման համար, 15,000 պատկեր և 150,000 հարց վավերացման համար, և 15,000 պատկեր և 150,000 հարց՝ առարկաների, պատասխանների և ֆունկցիոնալ ծրագրերի փորձարկման համար:
16: Համընդհանուր կախվածություններ
Universal Dependencies (UD) նախագիծը նպատակ ունի ստեղծել միջլեզվական միատեսակ մորֆոլոգիա և շարահյուսական ծանոթագրություն շատ լեզուների համար: 2.7 տարբերակը, որը թողարկվել է 2020 թվականին, ունի 183 ծառի ափ՝ 104 լեզուներով։
Անոտացիան կազմված է համընդհանուր POW պիտակներից, կախվածության գլխիկներից և համընդհանուր կախվածության պիտակներից:
17: KITTI – 360
Շարժական ռոբոտների համար ամենահաճախ օգտագործվող տվյալների հավաքածուներից մեկը և ինքնավար վարում KITTI-ն է (Կարլսրուեի տեխնոլոգիական ինստիտուտ և Toyota տեխնոլոգիական ինստիտուտ):
Այն բաղկացած է ժամերի տեւողությամբ երթևեկության սցենարներից, որոնք նկարահանվել են մի շարք սենսորային եղանակների միջոցով, ինչպիսիք են բարձր լուծաչափով RGB, մոխրագույն ստերեո և 3D լազերային սկաների տեսախցիկներ: Տվյալների հավաքածուն ժամանակի ընթացքում բարելավվել է մի քանի հետազոտողների կողմից, ովքեր ձեռքով նշում էին դրա տարբեր հատվածները՝ իրենց կարիքներին համապատասխան:
18: MOT (Բազմաթիվ օբյեկտների հետևում)
MOT-ը (Multiple Object Tracking) բազմակի օբյեկտների հետագծման տվյալների հավաքածու է, որը ներառում է հանրային վայրերի ներքին և դրսի տեսարաններ, որոնք ներառում են հետիոտներին որպես հետաքրքրության օբյեկտ: Յուրաքանչյուր տեսարանի տեսահոլովակը բաժանված է երկու մասի, մեկը՝ ուսուցման, իսկ մյուսը՝ փորձարկման:
Տվյալների հավաքածուն ներառում է օբյեկտների հայտնաբերում վիդեո շրջանակներում՝ օգտագործելով երեք դետեկտորներ՝ SDP, Faster-RCNN և DPM:
19: PASCAL 3D+
Pascal3D+ բազմատեսակ տվյալների հավաքածուն կազմված է վայրի բնության մեջ հավաքված լուսանկարներից, այսինքն՝ բարձր փոփոխականությամբ իրերի կատեգորիաների պատկերներից, որոնք արվել են չվերահսկվող հանգամանքներում, մարդաշատ միջավայրերում և տարբեր դիրքերում: Pascal3D+-ը ներառում է 12 կոշտ օբյեկտների կատեգորիաներ, որոնք կազմված են PASCAL VOC 2012 տվյալների բազայից:
Այս իրերի վրա նշված է կեցվածքի մասին տեղեկություն (ազիմուտ, բարձրություն և տեսախցիկի հեռավորությունը): Pascal3D+-ը այս 12 կատեգորիաներում լրացուցիչ ներառում է պատկերներով ծանոթագրված լուսանկարներ ImageNet հավաքածուից:
20: Կենդանիների դեմքի դեֆորմացվող մոդելներ
Կենդանիների դեմքի դեֆորմացվող մոդելներ (FDMA) նախագծի նպատակն է մարտահրավեր նետել մարդու դեմքի ուղենիշների նույնականացման և հետևելու ներկայիս մեթոդաբանություններին և մշակել նոր ալգորիթմներ, որոնք կարող են լուծել կենդանիների դեմքի բնութագրերին բնորոշ զգալիորեն ավելի մեծ փոփոխականությունը:
Ծրագրի ալգորիթմները ցույց տվեցին մարդու դեմքերի վրա գտնվող ուղենիշները ճանաչելու և հետևելու կարողությունը՝ միաժամանակ գործ ունենալով դեմքի հույզերի կամ դիրքերի, մասնակի խցանումների և լուսավորության փոփոխություններով պայմանավորված շեղումների հետ:
21: MPII Human Post Dataset
MPII Human Pose Dataset-ը պարունակում է մոտ 25K լուսանկար, որոնցից 15K-ը ուսումնական նմուշներ են, որոնցից 3K-ը՝ վավերացման նմուշներ, իսկ 7K-ը՝ փորձարկման նմուշներ:
Դիրքերը ձեռքով պիտակավորված են մինչև 16 մարմնի հոդերով, իսկ լուսանկարները վերցված են YouTube ֆիլմերից, որոնք ընդգրկում են մարդկային 410 տարբեր գործողություններ:
22: UCF101
UCF101 տվյալների բազան պարունակում է 13,320 տեսահոլովակ՝ կազմակերպված 101 կատեգորիաներով: Այս 101 կատեգորիաները բաժանված են հինգ կատեգորիաների՝ մարմնական շարժումներ, մարդ-մարդ փոխազդեցություն, մարդ-օբյեկտ փոխազդեցություն, երաժշտական գործիքներ նվագել և սպորտ:
Տեսանյութերը YouTube-ից են և տևում են 27 ժամ:
23: Audioset
Audioset-ը աուդիո իրադարձությունների հավաքածու է, որը կազմված է ավելի քան 2 միլիոն մարդու կողմից ծանոթագրված 10 վայրկյան տևողությամբ տեսանյութերի հատվածներից: Այս տվյալները ծանոթագրելու համար օգտագործվում է հիերարխիկ գոյաբանություն, որը ներառում է իրադարձությունների 632 տեսակներ, ինչը ենթադրում է, որ նույն ձայնը կարող է տարբեր կերպ պիտակվել:
24: Ստենֆորդի բնական լեզվի եզրակացություն
SNLI տվյալների բազան (Stanford Natural Language Inference) պարունակում է 570 հազար նախադասության զուգավորում, որոնք ձեռքով դասակարգվել են որպես պատճառ, հակասություն կամ չեզոք:
Տարածքները Flickr30k նկարների նկարագրություններն են, մինչդեռ վարկածները մշակվել են ամբոխից ստացված ծանոթագրողների կողմից, որոնց տրամադրվել է նախադրյալ և հանձնարարվել է առաջացնել ուղեկցող, հակասող և չեզոք հայտարարություններ:
25: Տեսողական հարցի պատասխան
Տեսողական հարցերի պատասխանը (VQA) տվյալների հավաքածու է, որը պարունակում է նկարների վերաբերյալ բաց հարցեր: Այս հարցերին պատասխանելու համար դուք պետք է ըմբռնեք տեսլականը, լեզուն և ողջախոհությունը:
Եզրափակում
Քանի որ մեքենայական ուսուցումը և արհեստական ինտելեկտը (AI) դառնում են ավելի տարածված գործնականում յուրաքանչյուր բիզնեսում և մեր առօրյա կյանքում, այնքան մեծանում է թեմայի վերաբերյալ հասանելի ռեսուրսների և տեղեկատվության քանակը:
Պատրաստի հանրային տվյալների հավաքածուները հիանալի մեկնարկային կետ են AI մոդելներ մշակելու համար, միաժամանակ թույլ տալով փորձառու ML ծրագրավորողներին խնայել ժամանակը և կենտրոնանալ իրենց նախագծերի այլ տարրերի վրա:
Թողնել գրառում