Përmbajtje[Fshih][Shfaqje]
- 1. CelebFaces Atributet e të dhënave
- 2. DOTA
- 3. Të dhënat e krahasimit të shprehjeve të fytyrës në Google
- 4. Gjenomi vizual
- 5. LibriFjalimi
- 6. Hapësirat e qytetit
- 7. Kompleti i të dhënave kinetike
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. GJASHTËRreze
- 12. Aksidentet në SHBA
- 13. Njohja e Sëmundjeve Okulare
- 14. Sëmundja e zemrës
- 15. CLEVR
- 16. Varësitë universale
- 17. KITTI – 360
- 18. MOT (Gjurmimi i shumë objekteve)
- 19. PASCAL 3D+
- 20. Modele të deformueshme të fytyrës të kafshëve
- 21. Grupi i të dhënave të Postës Njerëzore MPII
- 22. UCF101
- 23. Audioset
- 24. Konkluzioni i gjuhës natyrore të Stanfordit
- 25. Përgjigje e pyetjeve vizuale
- Përfundim
Në ditët e sotme, shumica prej nesh janë të përqendruar në zhvillimin e modeleve të mësimit të makinerive dhe AI dhe adresimin e çështjeve duke përdorur grupet aktuale të të dhënave. Por së pari, ne duhet të përcaktojmë një grup të dhënash, rëndësinë e tij dhe rolin e tij në zhvillimin e zgjidhjeve të forta të AI dhe ML.
Sot, ne kemi një bollëk të dhënash me burim të hapur mbi të cilat mund të kryejmë kërkime ose të zhvillojmë aplikacione për të trajtuar çështjet e botës reale në një sërë sektorësh.
Megjithatë, mungesa e grupeve të të dhënave sasiore me cilësi të lartë është një burim shqetësimi. Të dhënat janë rritur jashtëzakonisht dhe do të vazhdojnë të zgjerohen me një ritëm më të shpejtë në të ardhmen.
Në këtë postim, ne do të mbulojmë grupet e të dhënave të disponueshme lirisht që mund t'i përdorni për të zhvilluar projektin tuaj të ardhshëm të AI.
1. CelebFaces Atributet e të dhënave
CelebFaces Attributes Dataset (CelebA) përmban mbi 200 mijë foto të famshëm dhe 40 shënime të atributeve për çdo imazh, duke e bërë atë një pikënisje të shkëlqyer për projekte si p.sh. njohja e fytyrës, zbulimi i fytyrës, lokalizimi i pikës referimi (ose komponenti i fytyrës) dhe redaktimi dhe sinteza e fytyrës. Për më tepër, fotot në këtë koleksion përmbajnë një gamë të gjerë variantesh pozicionesh dhe rrëmujë në sfond.
2. DOTA
DOTA (Grupi i të dhënave të Zbulimi i objekteve në Aerial Photos) është një grup të dhënash në shkallë të gjerë për zbulimin e objekteve që përfshin 15 kategori të zakonshme (p.sh., anije, aeroplan, makinë, etj.), 1411 imazhe për stërvitje dhe 458 imazhe për vërtetim.
3. Të dhënat e krahasimit të shprehjeve të fytyrës së Google
Të dhënat e krahasimit të shprehjeve të fytyrës së Google përmban rreth 500,000 treshe figurash, duke përfshirë 156,000 foto fytyrash. Vlen të përmendet se çdo treshe në këtë grup të dhënash u shënua nga të paktën gjashtë vlerësues njerëzorë.
Ky grup të dhënash është i dobishëm për projektet që përfshijnë analizën e shprehjes së fytyrës, të tilla si gjetja e figurës së bazuar në shprehje, kategorizimi i emocioneve, sinteza e shprehjeve, etj. Për të fituar akses në grupin e të dhënave, duhet të plotësohet një formular i shkurtër.
4. Gjenomi vizual
Pyetje vizuale Përgjigjja e të dhënave në një mjedis me shumë zgjedhje është e disponueshme në Visual Genome. Ai përbëhet nga 101,174 foto MSCOCO me 1.7 milion çifte QA, me një mesatare prej 17 pyetjesh për imazh.
Në krahasim me grupin e të dhënave Visual Question Answering, grupi i të dhënave Visual Genome ka një shpërndarje më të drejtë në gjashtë lloje pyetjesh: Çfarë, Ku, Kur, Kush, Pse dhe Si.
Përveç kësaj, grupi i të dhënave Visual Genome përfshin 108K foto që janë etiketuar shumë me objekte, veti dhe lidhje.
5. LibriFjalimi
Korpusi LibriSpeech është një koleksion prej rreth 1,000 orësh audiolibrash nga projekti LibriVox. Shumica e librave audio e kanë origjinën nga Projekti Gutenberg.
Të dhënat e trajnimit ndahen në tre ndarje me grupe 100 orë, 360 orë dhe 500 orë, ndërsa të dhënat e zhvillimit dhe testimit janë afërsisht 5 orë në gjatësi audio.
6. Hapësirat e qytetit
Një nga bazat e të dhënave më të njohura në shkallë të gjerë të videove stereo me pamje urbane quhet The Cityscapes.
Me shënime të sakta në pixel që përfshijnë vendndodhjet GPS, temperaturën e jashtme, të dhënat e ego-lëvizjes dhe perspektivat e duhura stereo, ai përfshin regjistrime nga 50 qytete të veçanta gjermane.
7. Kompleti i të dhënave kinetike
Një nga grupet e të dhënave më të njohura të videove për njohjen e aktivitetit njerëzor në një shkallë të madhe dhe me cilësi të mirë është grupi i të dhënave Kinetics. Ka të paktën 600 videoklipe për secilën nga 600 klasat e aktivitetit njerëzor, në total mbi 500,000.
Filmat u tërhoqën nga YouTube; secila prej tyre është rreth 10 sekonda dhe ka vetëm një klasë aktiviteti të listuar.
8. CelebAMask-HQ
CelebAMask-HQ është një koleksion prej 30,000 fotografish fytyre me rezolucion të lartë me maska të shënuara me kujdes dhe 19 klasa që përfshijnë komponentë të fytyrës si lëkurë, hundë, sy, vetulla, veshë, gojë, buzë, flokë, kapele, syze, vathë, gjerdan, qafa, materiali.
Të dhënat e të dhënave mund të përdoren për të testuar dhe trajnuar njohjen e fytyrave, analizimin e fytyrave dhe GAN për algoritmet e gjenerimit dhe modifikimit të fytyrave.
9. Penn Treebank
Një nga korpuset më të shquara dhe më të përdorura për vlerësimin e modeleve për etiketimin e sekuencave është korpusi Penn Treebank (PTB), në veçanti pjesa e korpusit që korrespondon me artikujt e Wall Street Journal.
Çdo fjalë duhet të ketë pjesën e saj të të folurit të etiketuar si një komponent i detyrës. Niveli i karakterit dhe niveli i fjalës modelimi i gjuhës gjithashtu përdor shpesh korpusin.
10. VoxCeleb
VoxCeleb është një grup të dhënash për identifikimin e të folurit në shkallë të gjerë i krijuar automatikisht nga media me burim të hapur. VoxCeleb ka mbi një milion thënie nga mbi 6 mijë folës.
Duke qenë se grupi i të dhënave përfshin audio-vizuale, ai mund të përdoret për një sërë aplikacionesh shtesë, duke përfshirë sintezën vizuale të të folurit, ndarjen e të folurit, transferimin ndër-modal nga fytyra në zë ose anasjelltas, dhe trajnimin e njohjes së fytyrës nga video për të plotësuar njohjen aktuale të fytyrës grupet e të dhënave.
11. SIXray
Të dhënat e SIXray përfshin 1,059,231 fotografi me rreze X të mbledhura nga stacionet e metrosë dhe të shënuara nga inspektorët e sigurisë njerëzore për të zbuluar gjashtë lloje kryesore të sendeve të ndaluara: pistoleta, thika, çelësa, pincë, gërshërë dhe çekiç. Për më tepër, kutitë kufizuese për çdo artikull të ndaluar janë shtuar manualisht në grupet e testimit për të vlerësuar performancën e lokalizimit të objektit.
12. Aksidentet në SHBA
Substanca e projektit zbulohet tashmë nga emri i grupit të të dhënave, Aksidentet në SHBA. Ky grup të dhënash për aksidentet automobilistike në mbarë vendin përfshin informacion nga shkurti 2016 deri në dhjetor 2021 dhe mbulon 49 shtete në SHBA.
Përafërsisht 1.5 milion të dhëna aksidentesh janë tani të pranishme në këtë koleksion. Ai u mblodh në kohë reale duke përdorur disa API të trafikut.
Këto API transmetojnë informacion mbi trafikun e mbledhur nga një sërë burimesh, duke përfshirë kamerat e trafikut, organizatat e zbatimit të ligjit dhe departamentet e transportit të SHBA-së dhe shtetit.
13. Njohja e Sëmundjeve Okulare
Baza e të dhënave të organizuara oftalmike Njohja Inteligjente e Sëmundjeve të Okut (ODIR) përmban informacion për 5,000 pacientë, duke përfshirë moshën e tyre, ngjyrën e fundusit në sytë e tyre të majtë dhe të djathtë dhe fjalë kyçe diagnostikuese të profesionistëve mjekësorë.
Ky grup të dhënash është një koleksion aktual i të dhënave të pacientëve nga spitale dhe objekte të ndryshme mjekësore në Kinë që ka marrë Shanggong Medical Technology Co., Ltd. Me menaxhimin e kontrollit të cilësisë, shënimet u etiketuan nga lexues njerëz të aftë.
14. Sëmundje zemre
Ky grup i të dhënave për sëmundjet e zemrës ndihmon në identifikimin e ekzistencës së sëmundjeve të zemrës tek një pacient bazuar në 76 parametra të tillë si mosha, gjinia, lloji i dhimbjes në gjoks, presioni i gjakut në pushim, etj.
Me 303 raste, baza e të dhënave kërkon thjesht të diferencojë ekzistencën e një sëmundjeje (vlera 1,2,3,4) nga mungesa e saj (vlera 0).
15. CLEVR
Të dhënat e CLEVR (Gjuha kompozicionale dhe arsyetimi vizual elementar) imitojnë përgjigjet vizuale të pyetjeve. Ai përbëhet nga fotografi të objekteve të paraqitura në 3D, me secilën fotografi të shoqëruar nga një seri pyetjesh me përbërje të lartë të ndara në disa kategori.
Për të gjitha fotografitë dhe pyetjet e trenit dhe të vërtetimit, grupi i të dhënave përfshin 70,000 fotografi dhe 700,000 pyetje për trajnim, 15,000 imazhe dhe 150,000 pyetje për vërtetim, dhe 15,000 imazhe dhe 150,000 pyetje për testimin që përfshijnë objekte, përgjigje dhe programe funksionale.
16. Varësitë universale
Projekti Universal Dependencies (UD) synon të krijojë morfologji të njëtrajtshme ndërgjuhësore dhe shënime sintaksore të brigjeve të pemëve për shumë gjuhë. Versioni 2.7, i cili u lëshua në vitin 2020, ka 183 brigje pemësh në 104 gjuhë.
Shënimi përbëhet nga etiketa universale POW, koka të varësisë dhe etiketa universale të varësisë.
17. KITTI – 360
Një nga grupet e të dhënave më të përdorura për robotët celularë dhe ngarje autonome është KITTI (Instituti i Teknologjisë në Karlsruhe dhe Instituti Teknologjik Toyota).
Ai përbëhet nga skenarë trafiku me vlerë prej orëve që janë kapur duke përdorur një sërë modalitetesh sensorësh, të tilla si kamerat RGB me rezolucion të lartë, stereo në shkallë gri dhe skaner lazer 3D. Të dhënat e të dhënave janë përmirësuar me kalimin e kohës nga disa studiues të cilët shënuan manualisht pjesë të ndryshme të tij për t'iu përshtatur nevojave të tyre.
18. MOT (Gjurmimi i shumë objekteve)
MOT (Multiple Object Tracking) është një grup të dhënash për gjurmimin e shumë objekteve që përfshin peizazhe të brendshme dhe të jashtme të vendeve publike që përfshijnë këmbësorët si objekte me interes. Videoja e secilës skenë është e ndarë në dy pjesë, njëra për stërvitje dhe tjetra për testim.
Të dhënat përfshijnë zbulimet e objekteve në korniza video duke përdorur tre detektorë: SDP, Faster-RCNN dhe DPM.
19. PASCAL 3D+
Të dhënat me shumë pamje Pascal3D+ përbëhet nga fotografi të mbledhura në natyrë, dmth., imazhe të kategorive të artikujve me ndryshueshmëri të lartë, të kapura në rrethana të pakontrolluara, në mjedise të mbushura me njerëz dhe në pozicione të ndryshme. Pascal3D+ përfshin 12 kategori objektesh të ngurtë të nxjerra nga grupi i të dhënave PASCAL VOC 2012.
Këto artikuj kanë informacion mbi qëndrimin e shënuar (azimut, lartësi dhe distancë nga kamera). Pascal3D+ përfshin gjithashtu foto të shënuara me poza nga koleksioni ImageNet në këto 12 kategori.
20. Modele të deformueshme të fytyrës të kafshëve
Qëllimi i projektit Modelet e Kafshëve të Deformueshme të Fytyrës (FDMA) është të sfidojë metodologjitë aktuale në identifikimin dhe gjurmimin e shenjave të fytyrës njerëzore dhe të zhvillojë algoritme të reja që mund të merren me ndryshueshmërinë dukshëm më të madhe që është karakteristikë e karakteristikave të fytyrës së kafshëve.
Algoritmet e projektit demonstruan aftësinë për të njohur dhe gjurmuar pikat referuese në fytyrat e njeriut ndërsa merren me variancat e shkaktuara nga ndryshimet në emocionet ose pozicionet e fytyrës, mbylljet e pjesshme dhe ndriçimi.
21. Grupi i të dhënave MPII Human Post
Grupi i të dhënave MPII Human Pose përmban rreth 25 mijë foto, 15 mijë prej të cilave janë mostra trajnimi, 3 mijë prej të cilave janë mostra vërtetimi dhe 7 mijë prej të cilave janë mostra testimi.
Pozicionet janë etiketuar manualisht me deri në 16 nyje trupore, dhe fotografitë janë marrë nga filmat në YouTube që mbulojnë 410 aktivitete të ndryshme njerëzore.
22. UCF101
Të dhënat e UCF101 përmbajnë 13,320 videoklipe të organizuara në 101 kategori. Këto 101 kategori ndahen në pesë kategori: lëvizjet trupore, ndërveprimet njeri-njeri, ndërveprimet njeri-objekt, luajtja e instrumenteve muzikore dhe sportet.
Videot janë nga YouTube dhe zgjasin 27 orë.
23. Audioset
Audioset është një grup grupi i ngjarjeve audio, i përbërë nga mbi 2 milionë segmente video 10 sekondash të shënuara nga njeriu. Për të shënuar këto të dhëna, përdoret një ontologji hierarkike që përfshin 632 lloje ngjarjesh, që nënkupton se i njëjti tingull mund të etiketohet ndryshe.
24. Konkluzioni i gjuhës natyrore të Stanfordit
Të dhënat e SNLI (Stanford Natural Language Inference) përmban 570 mijë çifte fjalish që janë kategorizuar manualisht si pasojë, kontradiktë ose neutrale.
Premisat janë përshkrime të fotografive të Flickr30k, ndërsa hipotezat u zhvilluan nga annotues me burim nga turma, të cilëve iu dha një premisë dhe u udhëzuan të gjeneronin deklarata shoqëruese, kundërshtuese dhe neutrale.
25. Përgjigje vizuale në pyetje
Përgjigja e pyetjeve vizuale (VQA) është një grup të dhënash që përmban pyetje të hapura në lidhje me fotot. Për t'iu përgjigjur këtyre pyetjeve, ju duhet të kuptoni vizionin, gjuhën dhe sensin e përbashkët.
Përfundim
Ndërsa mësimi i makinerive dhe inteligjenca artificiale (AI) bëhen më të përhapura në pothuajse çdo biznes dhe në jetën tonë të përditshme, po kështu rritet edhe numri i burimeve dhe informacionit të disponueshëm për këtë temë.
Të dhënat publike të gatshme ofrojnë një pikënisje të shkëlqyeshme për të zhvilluar modele të AI, duke lejuar gjithashtu programuesit me përvojë të ML të kursejnë kohë dhe të fokusohen në elementë të tjerë të projekteve të tyre.
Lini një Përgjigju