မာတိကာ[ဖျောက်][ရှိုး]
- 1. CelebFaces Attributes ဒေတာအတွဲ
- 2. DOTA
- 3. Google Facial Expression နှိုင်းယှဉ်မှုဒေတာအတွဲ
- 4. Visual Genome
- 5. LibriSpeech
- 6. မြို့ကွက်များ
- 7. Kinetics ဒေတာအတွဲ
- 8. CelebAMask-HQ
- 9. Penn Treebank
- 10. VoxCeleb
- 11. SIXray
- 12. US မတော်တဆမှုများ
- 13. မျက်စိရောဂါ အသိအမှတ်ပြုခြင်း။
- 14. နှလုံးရောဂါ
- 15. CLEVR
- 16. Universal မှီခိုမှု
- ၁၇။ KITTI – ၃၆၀
- 18. MOT (အရာဝတ္ထုအများအပြား ခြေရာခံခြင်း)
- 19. PASCAL 3D+
- 20. တိရစ္ဆာန်များ၏ မျက်နှာပုံသဏ္ဍာန်ပုံစံများ
- 21. MPII Human Post Dataset
- 22. UCF101
- 23. Audioset
- 24. Stanford Natural Language Inference
- 25. Visual Question ဖြေဆိုခြင်း။
- ကောက်ချက်
ယနေ့ခေတ်တွင်၊ ကျွန်ုပ်တို့အများစုသည် စက်သင်ယူမှုနှင့် AI မော်ဒယ်များကို တီထွင်ရန်နှင့် လက်ရှိဒေတာအတွဲများကို အသုံးပြု၍ ပြဿနာများကို ဖြေရှင်းရန် အာရုံစိုက်နေကြသည်။ သို့သော် ဦးစွာ၊ ကျွန်ုပ်တို့သည် ဒေတာအစုံ၊ ၎င်း၏ အရေးပါမှုနှင့် ခိုင်မာသော AI နှင့် ML ဖြေရှင်းချက်များကို ဖော်ဆောင်ရာတွင် ၎င်း၏အခန်းကဏ္ဍကို သတ်မှတ်ရပါမည်။
ယနေ့တွင်၊ ကဏ္ဍအမျိုးမျိုးတွင် လက်တွေ့ကမ္ဘာပြဿနာများကို ကိုင်တွယ်ဖြေရှင်းရန် သုတေသနပြုလုပ်ရန် သို့မဟုတ် အက်ပ်လီကေးရှင်းများ ဖော်ထုတ်ရန်အတွက် ပွင့်လင်းမြင်သာသောဒေတာအတွဲများစွာရှိသည်။
သို့သော်လည်း အရည်အသွေးမြင့် အရေအတွက် ဒေတာအတွဲများ ရှားပါးလာမှုသည် စိုးရိမ်စရာ အရင်းအမြစ်တစ်ခုဖြစ်သည်။ ဒေတာများ အလွန်မြင့်တက်လာပြီး အနာဂတ်တွင် ပိုမိုမြန်ဆန်သောနှုန်းဖြင့် ဆက်လက်တိုးချဲ့သွားမည်ဖြစ်သည်။
ဤပို့စ်တွင်၊ သင်၏နောက်ထပ် AI ပရောဂျက်ကို ဖွံ့ဖြိုးတိုးတက်ရန်အတွက် သင်အသုံးပြုနိုင်သည့် လွတ်လပ်စွာရရှိနိုင်သည့်ဒေတာအတွဲများကို အကျုံးဝင်ပါမည်။
1. CelebFaces Attributes ဒေတာအတွဲ
CelebFaces Attributes Dataset (CelebA) တွင် နာမည်ကြီးဓာတ်ပုံ 200K ကျော်နှင့် တစ်ပုံချင်းစီအတွက် ရည်ညွှန်းချက် 40 ပါ၀င်သောကြောင့် ၎င်းသည် ပရောဂျက်များကဲ့သို့သော ပရောဂျက်များအတွက် အထူးကောင်းမွန်သော အစမှတ်တစ်ခု ဖြစ်စေသည်။ မျက်နှာအသိအမှတ်ပြုမှု၊ မျက်နှာသိရှိခြင်း ၊ အထင်ကရနေရာ (သို့မဟုတ် မျက်နှာအစိတ်အပိုင်း) ကို ဒေသသတ်မှတ်ခြင်း၊ နှင့် မျက်နှာပြုပြင်ခြင်းနှင့် ပေါင်းစပ်ခြင်း။ ထို့အပြင်၊ ဤစုစည်းမှုရှိ ဓာတ်ပုံများတွင် ကျယ်ပြန့်သော အနေအထားမျိုးကွဲများနှင့် နောက်ခံကား ရှုပ်ပွနေပါသည်။
2. ဒိုတာ
DOTA (ဒေတာအစုံ object ထောက်လှမ်းခြင်း Aerial Photos တွင်) သည် ဘုံအမျိုးအစား 15 ခု (ဥပမာ၊ သင်္ဘော၊ လေယာဉ်၊ ကားစသည်ဖြင့်)၊ လေ့ကျင့်မှုအတွက် ရုပ်ပုံ 1411 ပုံနှင့် အတည်ပြုရန်အတွက် 458 ပုံများ ပါဝင်သည့် အရာဝတ္ထုကို ထောက်လှမ်းရန်အတွက် ကြီးမားသောဒေတာအတွဲတစ်ခုဖြစ်သည်။
3. Google Facial Expression နှိုင်းယှဉ်မှုဒေတာအတွဲ
Google မျက်နှာအမူအရာ နှိုင်းယှဉ်မှုဒေတာအတွဲတွင် မျက်နှာဓာတ်ပုံ 500,000 အပါအဝင် ရုပ်ပုံသုံးပုံသုံးပုံ 156,000 ခန့် ပါရှိသည်။ ဤဒေတာအတွဲရှိ triplet တစ်ခုစီကို အနည်းဆုံး လူသားအဆင့်သတ်မှတ်သူ ခြောက်ဦးဖြင့် အမှတ်အသားပြုထားသည်ကို သတိပြုသင့်သည်။
ဤဒေတာအတွဲသည် မျက်နှာအမူအရာခွဲခြမ်းစိတ်ဖြာမှုဆိုင်ရာ ပရောဂျက်များအတွက် အသုံးဝင်သည်၊ ဥပမာ- စကားရပ်-ရုပ်ပုံလွှာပြန်လည်ရယူခြင်း၊ စိတ်ခံစားမှုအမျိုးအစားခွဲခြင်း၊ ထုတ်ဖော်ပြောဆိုမှုပေါင်းစပ်ခြင်းစသည်ဖြင့် ပါဝင်သည်။ ဒေတာအတွဲသို့ ဝင်ရောက်ခွင့်ရရန်၊ ဖောင်အကျဉ်းကို ဖြည့်သွင်းရပါမည်။
4. အမြင်အာရုံဂျီနိုအာ
Visual Question သည် ရွေးချယ်မှုအများအပြားရှိသော ပတ်ဝန်းကျင်တွင် ဒေတာဖြေဆိုခြင်းကို Visual Genome တွင် ရနိုင်ပါသည်။ ၎င်းကို QA အတွဲပေါင်း 101,174 သန်းဖြင့် MSCOCO ဓာတ်ပုံ 1.7 ပုံဖြင့် ပြုလုပ်ထားပြီး ပုံတစ်ပုံလျှင် ပျမ်းမျှမေးခွန်း 17 ခုရှိသည်။
Visual Question Answering dataset နှင့် နှိုင်းယှဉ်ပါက Visual Genome dataset သည် မေးခွန်းအမျိုးအစားခြောက်မျိုးတွင် မည်သည်၊ ဘယ်မှာ၊ ဘယ်အချိန်၊ ဘယ်သူ၊ ဘာကြောင့် နှင့် How တို့တွင် ပိုမိုတရားမျှတသော ဖြန့်ဖြူးမှုရှိပါသည်။
ထို့အပြင်၊ Visual Genome ဒေတာအတွဲတွင် အရာဝတ္ထုများ၊ ဂုဏ်သတ္တိများနှင့် ချိတ်ဆက်မှုများဖြင့် ကြီးကြီးမားမား တဂ်ခံထားရသည့် 108K ဓာတ်ပုံများ ပါဝင်သည်။
5. LibriSpeech
LibriSpeech corpus သည် LibriVox ပရောဂျက်မှ နာရီပေါင်း 1,000 ခန့်ရှိသော အော်ဒီယိုစာအုပ်များ စုစည်းမှုတစ်ခုဖြစ်သည်။ အော်ဒီယိုစာအုပ်အများစုသည် Project Gutenberg မှအစပြုသည်။
လေ့ကျင့်ရေးဒေတာကို 100hr၊ 360hr နှင့် 500hr sets ၏ အပိုင်းသုံးပိုင်းခွဲထားပြီး dev နှင့် test data သည် အကြမ်းဖျင်းအားဖြင့် 5hr ကြာမြင့်ပါသည်။
6. မြို့ကွက်များ
မြို့ပြကြည့်ရှုမှုများရှိသည့် စတီရီယိုဗီဒီယိုများ၏ အကျော်ကြားဆုံးဒေတာဘေ့စ်များထဲမှ တစ်ခုကို The Cityscapes ဟုခေါ်သည်။
GPS တည်နေရာများ၊ ပြင်ပအပူချိန်၊ အတ္တလှုပ်ရှားမှုဒေတာနှင့် မှန်ကန်သောစတီရီယိုအမြင်များပါ၀င်သည့် pixel-တိကျသောမှတ်ချက်များနှင့်အတူ၊ ၎င်းတွင် ကွဲပြားသောဂျာမန်မြို့ကြီး 50 မှ အသံသွင်းမှုများပါဝင်သည်။
7. Kinetics ဒေတာအတွဲ
ကြီးမားသောအတိုင်းအတာနှင့် အရည်အသွေးကောင်းဖြင့် လူ့လှုပ်ရှားမှုကို အသိအမှတ်ပြုရန်အတွက် လူသိအများဆုံး ဗီဒီယိုဒေတာအတွဲများထဲမှ တစ်ခုမှာ Kinetics ဒေတာအတွဲဖြစ်သည်။ လူ့လှုပ်ရှားမှုအတန်း 600 တစ်ခုစီအတွက် အနည်းဆုံး ဗီဒီယိုကလစ် 600 ရှိပြီး စုစုပေါင်း 500,000 ကျော်ရှိသည်။
ရုပ်ရှင်များကို YouTube မှ ဆွဲထုတ်ခဲ့သည်။ တစ်ခုစီသည် 10 စက္ကန့်ခန့်ကြာပြီး လှုပ်ရှားမှုအတန်းတစ်ခုသာ ပါဝင်ပါသည်။
8. CelebAMask-HQ
CelebAMask-HQ သည် အရေပြား၊ နှာခေါင်း၊ မျက်လုံး၊ နား၊ ပါးစပ်၊ နှုတ်ခမ်း၊ ဆံပင်၊ ဦးထုပ်၊ မျက်မှန်၊ နားကပ်၊ လည်ဆွဲ အစရှိသည့် မျက်နှာအစိတ်အပိုင်းများပါဝင်သည့် အရည်အသွေးမြင့် မျက်နှာဓာတ်ပုံ 30,000 စုစည်းမှုတစ်ခုဖြစ်သည်။ လည်ပင်း၊ ပစ္စည်း။
မျက်နှာမှတ်သားမှု၊ မျက်နှာခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် မျက်နှာဖန်တီးခြင်းနှင့် တည်းဖြတ်ခြင်းဆိုင်ရာ အယ်လဂိုရီသမ်များအတွက် GAN များကို စမ်းသပ်ရန်နှင့် လေ့ကျင့်ရန် ဒေတာအတွဲကို အသုံးချနိုင်သည်။
9. Penn Treebank
အထူးသ ဖြင့် Wall Street Journal ဆောင်းပါးများနှင့် သက်ဆိုင်သည့် ကော်ပိုရေးရှင်း၏ အစိတ်အပိုင်းဖြစ်သော English Penn Treebank (PTB) ၏ မော်ဒယ်များကို အကဲဖြတ်ရန် အကဲဖြတ်ရာတွင် အထင်ရှားဆုံးနှင့် မကြာခဏ အသုံးပြုလေ့ရှိသော corpora သည် တစ်ခုဖြစ်သည်။
စကားလုံးတစ်ခုစီတိုင်းသည် လုပ်ငန်းဆောင်တာ၏ အစိတ်အပိုင်းတစ်ခုအဖြစ် အပြောအဆို၏ အစိတ်အပိုင်းတစ်ခုရှိရပါမည်။ ဇာတ်ကောင်အဆင့်နှင့် စကားလုံးအဆင့် ဘာသာစကားမော်ဒယ်လ် မကြာခဏ corpus ကိုအသုံးပြုသည်။
10 ။ VoxCeleb
VoxCeleb သည် အလိုအလျောက် ထုတ်ပေးသည့် ကြီးမားသော စကားပြော အထောက်အထား ဒေတာအတွဲတစ်ခု ဖြစ်သည်။ open-source မီဒီယာ. VoxCeleb တွင် စပီကာပေါင်း 6k ကျော်ထံမှ စကားတစ်သန်းကျော်ရှိသည်။
ဒေတာအတွဲတွင် အသံ-ရုပ်မြင်သံကြားပါ၀င်သောကြောင့်၊ ၎င်းကို ရုပ်မြင်သောစကားပြောပေါင်းစပ်မှု၊ စကားသံခွဲခြားမှု၊ မျက်နှာမှအသံတစ်ခုသို့ အပြန်အလှန်လွှဲပြောင်းခြင်းနှင့် ဗီဒီယိုမှမျက်နှာမှတ်မိခြင်းတို့ကို လေ့ကျင့်ပေးခြင်းအပါအဝင် နောက်ထပ်အပလီကေးရှင်းများစွာအတွက် ၎င်းကို အသုံးပြုနိုင်သည်။ ဒေတာအတွဲများ
11 ။ SIXray
SIXray ဒေတာအတွဲတွင် မြေအောက်ရထားဘူတာရုံများမှ စုဆောင်းထားသော X-ray ဓာတ်ပုံပေါင်း 1,059,231 ပုံများ ပါဝင်ပြီး အဓိက တားမြစ်ထားသော ပစ္စည်းခြောက်မျိုးဖြစ်သည့် ပစ္စတို၊ ဓားများ၊ လက်ကိုင်တုတ်များ၊ ပလာယာများ၊ ကတ်ကြေးနှင့် တူများကို ရှာဖွေရန် လူ့လုံခြုံရေးစစ်ဆေးရေးမှူးများက မှတ်သားထားသည်။ ထို့အပြင်၊ ခွင့်မပြုထားသော အရာတစ်ခုစီအတွက် အကန့်အကွက်များကို အရာဝတ္ထုဒေသအလိုက် ပြောင်းလဲခြင်း၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်အတွက် စမ်းသပ်မှုအစုများတွင် ကိုယ်တိုင်ထည့်သွင်းထားသည်။
12 ။ အမေရိကန် မတော်တဆမှုများ
ပရောဂျက်၏ အကြောင်းအရာကို ဒေတာအတွဲ၊ US Accidents အမည်ဖြင့် ဖော်ပြထားပြီးဖြစ်သည်။ တစ်နိုင်ငံလုံး မော်တော် ယာဉ်မတော်တဆမှုဆိုင်ရာ ဤဒေတာအတွဲတွင် 2016 ဖေဖော်ဝါရီမှ 2021 ခုနှစ် ဒီဇင်ဘာလအထိ အချက်အလက်များပါဝင်ပြီး USA တွင် ပြည်နယ် 49 ခု ပါဝင်သည်။
ခန့်မှန်းခြေအားဖြင့် မတော်တဆမှုမှတ်တမ်းပေါင်း 1.5 သန်းသည် ယခုစုစည်းမှုတွင် ရှိနေပါသည်။ အသွားအလာ API အများအပြားကို အသုံးပြုခြင်းဖြင့် ၎င်းကို အချိန်နှင့်တပြေးညီ စုစည်းထားပါသည်။
ဤ API များသည် ယာဉ်ကြောအသွားအလာကင်မရာများ၊ ဥပဒေစိုးမိုးရေးအဖွဲ့အစည်းများ၊ နှင့် US နှင့် ပြည်နယ်သယ်ယူပို့ဆောင်ရေးဌာနများအပါအဝင် ရင်းမြစ်အမျိုးမျိုးမှ စုဆောင်းထားသော ယာဉ်ကြောအသွားအလာအချက်အလက်များကို ပေးပို့ပါသည်။
13 ။ မျက်စိရောဂါ အသိအမှတ်ပြုခြင်း။
ဖွဲ့စည်းထားသည့် မျက်စိဆိုင်ရာဒေတာဘေ့စ်တွင် Ocular Disease Intelligent Recognition (ODIR) တွင် လူနာ 5,000 ၏ အသက်၊ ၎င်းတို့၏ ဘယ်ညာမျက်လုံးများ၏ အရောင်နှင့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်ပညာရှင်များ၏ ရောဂါရှာဖွေရေးသော့ချက်စာလုံးများ အပါအဝင် လူနာ XNUMX ၏ အချက်အလက်များပါရှိသည်။
ဤဒေတာအတွဲသည် Shanggong Medical Technology Co., Ltd. မှ ၀ယ်ယူထားသော တရုတ်နိုင်ငံရှိ ဆေးရုံများနှင့် ဆေးဘက်ဆိုင်ရာ အဆောက်အဦများမှ လူနာဒေတာများကို အမှန်တကယ် စုစည်းထားခြင်း ဖြစ်သည်။ အတူ အရည်အသွေးထိန်းချုပ်မှုစီမံခန့်ခွဲမှု၊ မှတ်သားချက်များကို ကျွမ်းကျင်သော လူသားစာဖတ်သူများမှ တဂ်ထားသည်။
14 ။ နှလုံးရောဂါ
ဤနှလုံးရောဂါဒေတာအတွဲသည် အသက်၊ ကျား၊ မ၊ ရင်ဘတ်အောင့်ခြင်းအမျိုးအစား၊ သွေးပေါင်ချိန် အနားယူခြင်းစသည်ဖြင့် ကန့်သတ်ချက် ၇၆ မျိုးကို အခြေခံ၍ လူနာတစ်ဦးတွင် နှလုံးရောဂါရှိကြောင်း ခွဲခြားသတ်မှတ်ရာတွင် ကူညီပေးသည်။
အမှုပေါင်း 303 ဖြင့်၊ ဒေတာဘေ့စ်သည် ရောဂါတစ်ခု၏တည်ရှိမှု (တန်ဖိုး 1,2,3,4) ကို ၎င်း၏မရှိခြင်း (တန်ဖိုး 0) နှင့် ရိုးရှင်းစွာခွဲခြားရန် ကြိုးပမ်းသည်။
15 ။ CLEVR
CLEVR ဒေတာအတွဲ (ဖွဲ့စည်းပုံဘာသာစကားနှင့် မူလတန်းမြင်နိုင်သော ကျိုးကြောင်းဆင်ခြင်ခြင်း) သည် Visual Question Answering ကို တုပထားသည်။ ၎င်းတွင် ဓာတ်ပုံတစ်ပုံချင်းစီတွင် အမျိုးအစားများစွာ ခွဲခြားထားသော အလွန်ပေါင်းစပ်ဖွဲ့စည်းမှုမေးခွန်းများစွာဖြင့် ပါ၀င်သည့် ဓာတ်ပုံတစ်ပုံစီတွင် 3D-ပြန်ဆိုထားသည့် အရာဝတ္ထုများ၏ ဓာတ်ပုံများ ပါဝင်ပါသည်။
ရထားနှင့်တရားဝင်ပုံများနှင့်မေးခွန်းများအားလုံးအတွက်၊ ဒေတာအစုံတွင် ဓာတ်ပုံ 70,000 နှင့် လေ့ကျင့်ရေးအတွက်မေးခွန်း 700,000၊ 15,000 ပုံများနှင့် validation အတွက်မေးခွန်း 150,000 နှင့် 15,000 ပုံများနှင့် အရာဝတ္ထုများ၊ ပြန်ကြားမှုများ၊ လုပ်ဆောင်ချက်ဆိုင်ရာ ဂရပ်ဖစ်များပါ၀င်သော စမ်းသပ်မှုအတွက် မေးခွန်းပေါင်း 150,000 ပါဝင်သည်။
16 ။ Universal မှီခိုမှု
Universal Dependencies (UD) ပရောဂျက်သည် ဘာသာစကားများစွာအတွက် တူညီသောဘာသာစကားဖြင့် တူညီသောပုံစံသဏ္ဍာန်နှင့် အထားအသိုပုံစံသစ်ဘဏ်မှတ်ချက်များကို ဖန်တီးရန် ရည်ရွယ်သည်။ 2.7 တွင်ထွက်ရှိခဲ့သော ဗားရှင်း 2020 တွင် ဘာသာစကား 183 ခုဖြင့် သစ်ပင်ဘဏ် 104 ခုရှိသည်။
မှတ်ချက်ကို universal POW တဂ်များ၊ မှီခိုမှုခေါင်းများနှင့် universal dependency တံဆိပ်များဖြင့် ဖွဲ့စည်းထားသည်။
17 ။ KITTI – ၃၆၀
မိုဘိုင်းစက်ရုပ်များနှင့် အသုံးအများဆုံးဒေတာအတွဲများထဲမှတစ်ခု ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရကားမောင်း KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute) ဖြစ်သည်။
၎င်းကို အရည်အသွေးမြင့် RGB၊ မီးခိုးရောင်စတီရီယို၊ နှင့် 3D လေဆာစကင်နာကင်မရာများကဲ့သို့သော အာရုံခံကိရိယာပုံစံအမျိုးမျိုးကို အသုံးပြု၍ ရိုက်ကူးထားသည့် နာရီပေါင်းများစွာ တန်ဖိုးရှိသော ယာဉ်အသွားအလာအခြေအနေများဖြင့် ဖွဲ့စည်းထားသည်။ ဒေတာအတွဲကို ၎င်းတို့၏လိုအပ်ချက်များနှင့် ကိုက်ညီစေရန် အပိုင်းအမျိုးမျိုးကို ကိုယ်တိုင်မှတ်စုများ ပြုလုပ်ပေးသည့် သုတေသီများစွာက အချိန်နှင့်အမျှ ပိုမိုကောင်းမွန်လာပါသည်။
18 ။ MOT (အရာဝတ္ထုအများအပြား ခြေရာခံခြင်း)
MOT (Multiple Object Tracking) သည် လမ်းသွားလမ်းလာများကို စိတ်ဝင်စားသည့်အရာများအဖြစ် လမ်းသွားလမ်းလာများပါ၀င်သည့် အများသူငှာနေရာများ၏ အတွင်းပိုင်းနှင့် အပြင်ဘက်မြင်ကွင်းများပါရှိသော အရာဝတ္ထုများကို ခြေရာခံခြင်းအတွက် ဒေတာအတွဲတစ်ခုဖြစ်သည်။ အခင်းအကျင်းတစ်ခုစီ၏ ဗီဒီယိုကို အပိုင်းနှစ်ပိုင်းခွဲထားပြီး၊ တစ်ခုသည် လေ့ကျင့်ရန်အတွက်နှင့် အခြားတစ်ခုကို စမ်းသပ်ရန်အတွက် ဖြစ်သည်။
ဒေတာအတွဲတွင် ပါဝင်သည်။ အရာဝတ္ထုများကို ထောက်လှမ်းခြင်း။ ထောက်လှမ်းကိရိယာသုံးခု- SDP၊ Faster-RCNN နှင့် DPM ကိုအသုံးပြုထားသော ဗီဒီယိုဘောင်များတွင်။
19 ။ PASCAL 3D+
Pascal3D+ multi-view dataset ကို သဘာဝတွင် စုဆောင်းထားသော ဓာတ်ပုံများ ၊ ဆိုလိုသည်မှာ ကွဲပြားမှု မြင့်မားသော အရာများ၏ အမျိုးအစားများ၏ ပုံများ ၊ ထိန်းချုပ်မရသော အခြေအနေများတွင် ၊ လူစည်ကားသော ပတ်ဝန်းကျင် နှင့် အနေအထား အမျိုးမျိုးတွင် ရိုက်ကူးထားသော ပုံများ နှင့် ဖွဲ့စည်းထားပါသည်။ Pascal3D+ တွင် PASCAL VOC 12 ဒေတာအတွဲမှ ရေးဆွဲထားသော တင်းကျပ်သော အရာဝတ္ထုအမျိုးအစား ၁၂ ခု ပါဝင်သည်။
ဤအရာများ တွင် ကိုယ်ဟန်အနေအထား အချက်အလက်များ ပါရှိသည် (အဇမ်မတ်၊ အမြင့်နှင့် ကင်မရာနှင့် အကွာအဝေး)။ Pascal3D+ တွင် ဤအမျိုးအစား 12 ခုရှိ ImageNet စုဆောင်းမှုမှ ပုံသဏ္ဍာန်ပုံ-မှတ်စုပုံများ ပါဝင်သည်။
20 ။ မျက်နှာပုံပျက်နိုင်သော တိရစ္ဆာန်များ၏ မော်ဒယ်များ
Facial Deformable Animals of Animals (FDMA) ပရောဂျက်၏ ရည်မှန်းချက်မှာ လူ့မျက်နှာအထင်ကရ အမှတ်အသားပြုခြင်းနှင့် ခြေရာခံခြင်းဆိုင်ရာ လက်ရှိနည်းစနစ်များကို စိန်ခေါ်ရန်နှင့် တိရစ္ဆာန်များ၏ မျက်နှာသွင်ပြင်လက္ခဏာများဖြစ်သည့် သိသိသာသာကြီးသော ကွဲပြားမှုကို ကိုင်တွယ်ဖြေရှင်းနိုင်သည့် အယ်လဂိုရီသမ်အသစ်များကို ဖော်ထုတ်ရန်ဖြစ်သည်။
ပရောဂျက်၏ အယ်လဂိုရီသမ်များသည် မျက်နှာရှိ စိတ်ခံစားမှု သို့မဟုတ် အနေအထား၊ တစ်စိတ်တစ်ပိုင်း ပိတ်ဆို့ခြင်းများနှင့် အလင်းရောင်ကြောင့် ဖြစ်ပေါ်လာသော ကွဲပြားမှုများကို ကိုင်တွယ်ဖြေရှင်းရာတွင် လူ့မျက်နှာပေါ်ရှိ အထင်ကရနေရာများကို မှတ်သားသိရှိနိုင်ပြီး ခြေရာခံနိုင်မှုကို သရုပ်ပြခဲ့သည်။
21 ။ MPII Human Post Dataset
MPII Human Pose Dataset တွင် ဓာတ်ပုံ 25K ဝန်းကျင် ပါဝင်ပြီး ၎င်းတို့အနက် 15K သည် လေ့ကျင့်ရေးနမူနာများဖြစ်ပြီး 3K သည် တရားဝင်နမူနာများနှင့် စမ်းသပ်နမူနာ 7K ပါဝင်သည်။
ရာထူးများကို ကိုယ်ခန္ဓာအဆစ် 16 ခုအထိဖြင့် ကိုယ်တိုင်တံဆိပ်တပ်ထားပြီး ဓာတ်ပုံများကို လူသားလှုပ်ရှားမှု 410 အကြောင်းကို YouTube ရုပ်ရှင်များမှ ရယူထားသည်။
22 ။ UCF101
UCF101 ဒေတာအတွဲတွင် အမျိုးအစား 13,320 ခုဖြင့် ဖွဲ့စည်းထားသော ဗီဒီယိုအပိုင်း 101 ပါရှိသည်။ ဤ 101 အမျိုးအစားများကို အမျိုးအစားငါးမျိုးဖြင့် ခွဲခြားထားသည်- ခန္ဓာကိုယ်လှုပ်ရှားမှုများ၊ လူ-လူအချင်းချင်း အပြန်အလှန်ဆက်သွယ်မှု၊ လူ-အရာဝတ္တု အပြန်အလှန်တုံ့ပြန်မှု၊ ဂီတတူရိယာတီးမှုတ်ခြင်းနှင့် အားကစား။
ဗီဒီယိုများသည် YouTube မှဖြစ်ပြီး ကြာချိန် 27 နာရီပါဝင်သည်။
23 ။ အသံဖိုင်
Audioset သည် လူ ၂ သန်းကျော်ဖြင့် မှတ်သားထားသော 2 စက္ကန့် ဗီဒီယိုအပိုင်းများဖြင့် ဖွဲ့စည်းထားသည့် အသံဖြစ်ရပ်ဒေတာအစုံဖြစ်သည်။ ဤဒေတာကို မှတ်သားရန်၊ ဖြစ်ရပ်အမျိုးအစား 10 ပါ၀င်သော အထက်အောက် နိမိတ်ဗေဒကို အသုံးပြုသည်၊ ဆိုလိုသည်မှာ တူညီသောအသံကို ကွဲပြားစွာ တံဆိပ်တပ်ခံရနိုင်သည်ဟု ဆိုလိုသည်။
24 ။ စတန်းဖို့ဒ် သဘာဝ ဘာသာစကား ကောက်ချက်
SNLI ဒေတာအတွဲ (Stanford Natural Language Inference) တွင် ဆက်စပ်မှု၊ ကွဲလွဲမှု သို့မဟုတ် ကြားနေအဖြစ် ကိုယ်တိုင် အမျိုးအစားခွဲခြားထားသည့် 570k ဝါကျတွဲများပါရှိသည်။
ပရဝုဏ်များသည် Flickr30k ရုပ်ပုံဖော်ပြချက်များဖြစ်ပြီး၊ အယူအဆများကို လူစုလူဝေးမှရင်းမြစ်မှတ်စုများမှ ဖော်ညွှန်းထားကာ ပေါင်းစပ်ပါဝင်မှု၊ ဆန့်ကျင်ဘက်နှင့် ကြားနေထုတ်ပြန်ချက်များကို ဖန်တီးရန် ညွှန်ကြားထားသည့် ပရဝုဏ်များကို ဖန်တီးထားသည်။
25 ။ Visual Question ဖြေဆိုခြင်း။
Visual Question Answering (VQA) သည် ရုပ်ပုံများနှင့် ပတ်သက်သော အဖွင့်မေးခွန်းများပါရှိသော ဒေတာအတွဲတစ်ခုဖြစ်သည်။ ဤမေးခွန်းများကိုဖြေဆိုရန်၊ အမြင်၊ ဘာသာစကားနှင့် ဘုံသဘောကို ဆုပ်ကိုင်ထားရန် လိုအပ်သည်။
ကောက်ချက်
စက်သင်ယူမှုနှင့် ဉာဏ်ရည်တု (AI) သည် လက်တွေ့အားဖြင့် လုပ်ငန်းတိုင်းနှင့် ကျွန်ုပ်တို့၏နေ့စဉ်ဘဝများတွင် ပိုမိုပျံ့နှံ့လာသည်နှင့်အမျှ ဘာသာရပ်တွင် ရရှိနိုင်သော အရင်းအမြစ်များနှင့် အချက်အလက်များ အများအပြားလည်း ရှိလာသည်။
အဆင်သင့်လုပ်ထားသော အများသူငှာဒေတာအတွဲများသည် AI မော်ဒယ်လ်များကို တီထွင်ရန်အတွက် ကောင်းမွန်သောအစမှတ်ကို ပေးစွမ်းနိုင်ပြီး ရာသီအလိုက် ML ပရိုဂရမ်မာများအား အချိန်ကုန်သက်သာစေပြီး ၎င်းတို့၏ပရောဂျက်များ၏ အခြားအစိတ်အပိုင်းများကို အာရုံစိုက်နိုင်ရန်လည်း ခွင့်ပြုပေးပါသည်။
တစ်ဦးစာပြန်ရန် Leave