အကောင်းဆုံး အစားထိုး AI လေ့ကျင့်ရေးဒေတာအတွဲ 25 (2024)

မာတိကာ[ဖျောက်][ရှိုး]

1. CelebFaces Attributes ဒေတာအတွဲ
2. DOTA
3. Google Facial Expression နှိုင်းယှဉ်မှုဒေတာအတွဲ
4. Visual Genome
5. LibriSpeech
6. မြို့ကွက်များ
7. Kinetics ဒေတာအတွဲ
8. CelebAMask-HQ
9. Penn Treebank
10. VoxCeleb
11. SIXray
12. US မတော်တဆမှုများ
13. မျက်စိရောဂါ အသိအမှတ်ပြုခြင်း။
14. နှလုံးရောဂါ
15. CLEVR
16. Universal မှီခိုမှု
၁၇။ KITTI – ၃၆၀
18. MOT (အရာဝတ္ထုအများအပြား ခြေရာခံခြင်း)
19. PASCAL 3D+
20. တိရစ္ဆာန်များ၏ မျက်နှာပုံသဏ္ဍာန်ပုံစံများ
21. MPII Human Post Dataset
22. UCF101
23. Audioset
24. Stanford Natural Language Inference
25. Visual Question ဖြေဆိုခြင်း။
ကောက်ချက်

ယနေ့ခေတ်တွင်၊ ကျွန်ုပ်တို့အများစုသည် စက်သင်ယူမှုနှင့် AI မော်ဒယ်များကို တီထွင်ရန်နှင့် လက်ရှိဒေတာအတွဲများကို အသုံးပြု၍ ပြဿနာများကို ဖြေရှင်းရန် အာရုံစိုက်နေကြသည်။ သို့သော် ဦးစွာ၊ ကျွန်ုပ်တို့သည် ဒေတာအစုံ၊ ၎င်း၏ အရေးပါမှုနှင့် ခိုင်မာသော AI နှင့် ML ဖြေရှင်းချက်များကို ဖော်ဆောင်ရာတွင် ၎င်း၏အခန်းကဏ္ဍကို သတ်မှတ်ရပါမည်။

ယနေ့တွင်၊ ကဏ္ဍအမျိုးမျိုးတွင် လက်တွေ့ကမ္ဘာပြဿနာများကို ကိုင်တွယ်ဖြေရှင်းရန် သုတေသနပြုလုပ်ရန် သို့မဟုတ် အက်ပ်လီကေးရှင်းများ ဖော်ထုတ်ရန်အတွက် ပွင့်လင်းမြင်သာသောဒေတာအတွဲများစွာရှိသည်။

သို့သော်လည်း အရည်အသွေးမြင့် အရေအတွက် ဒေတာအတွဲများ ရှားပါးလာမှုသည် စိုးရိမ်စရာ အရင်းအမြစ်တစ်ခုဖြစ်သည်။ ဒေတာများ အလွန်မြင့်တက်လာပြီး အနာဂတ်တွင် ပိုမိုမြန်ဆန်သောနှုန်းဖြင့် ဆက်လက်တိုးချဲ့သွားမည်ဖြစ်သည်။

ဤပို့စ်တွင်၊ သင်၏နောက်ထပ် AI ပရောဂျက်ကို ဖွံ့ဖြိုးတိုးတက်ရန်အတွက် သင်အသုံးပြုနိုင်သည့် လွတ်လပ်စွာရရှိနိုင်သည့်ဒေတာအတွဲများကို အကျုံးဝင်ပါမည်။

1. CelebFaces Attributes ဒေတာအတွဲ

CelebFaces Attributes Dataset (CelebA) တွင် နာမည်ကြီးဓာတ်ပုံ 200K ကျော်နှင့် တစ်ပုံချင်းစီအတွက် ရည်ညွှန်းချက် 40 ပါ၀င်သောကြောင့် ၎င်းသည် ပရောဂျက်များကဲ့သို့သော ပရောဂျက်များအတွက် အထူးကောင်းမွန်သော အစမှတ်တစ်ခု ဖြစ်စေသည်။ မျက်နှာအသိအမှတ်ပြုမှု၊ မျက်နှာသိရှိခြင်း ၊ အထင်ကရနေရာ (သို့မဟုတ် မျက်နှာအစိတ်အပိုင်း) ကို ဒေသသတ်မှတ်ခြင်း၊ နှင့် မျက်နှာပြုပြင်ခြင်းနှင့် ပေါင်းစပ်ခြင်း။ ထို့အပြင်၊ ဤစုစည်းမှုရှိ ဓာတ်ပုံများတွင် ကျယ်ပြန့်သော အနေအထားမျိုးကွဲများနှင့် နောက်ခံကား ရှုပ်ပွနေပါသည်။

2. ဒိုတာ

DOTA (ဒေတာအစုံ object ထောက်လှမ်းခြင်း Aerial Photos တွင်) သည် ဘုံအမျိုးအစား 15 ခု (ဥပမာ၊ သင်္ဘော၊ လေယာဉ်၊ ကားစသည်ဖြင့်)၊ လေ့ကျင့်မှုအတွက် ရုပ်ပုံ 1411 ပုံနှင့် အတည်ပြုရန်အတွက် 458 ပုံများ ပါဝင်သည့် အရာဝတ္ထုကို ထောက်လှမ်းရန်အတွက် ကြီးမားသောဒေတာအတွဲတစ်ခုဖြစ်သည်။

3. Google Facial Expression နှိုင်းယှဉ်မှုဒေတာအတွဲ

Google မျက်နှာအမူအရာ နှိုင်းယှဉ်မှုဒေတာအတွဲတွင် မျက်နှာဓာတ်ပုံ 500,000 အပါအဝင် ရုပ်ပုံသုံးပုံသုံးပုံ 156,000 ခန့် ပါရှိသည်။ ဤဒေတာအတွဲရှိ triplet တစ်ခုစီကို အနည်းဆုံး လူသားအဆင့်သတ်မှတ်သူ ခြောက်ဦးဖြင့် အမှတ်အသားပြုထားသည်ကို သတိပြုသင့်သည်။

ဤဒေတာအတွဲသည် မျက်နှာအမူအရာခွဲခြမ်းစိတ်ဖြာမှုဆိုင်ရာ ပရောဂျက်များအတွက် အသုံးဝင်သည်၊ ဥပမာ- စကားရပ်-ရုပ်ပုံလွှာပြန်လည်ရယူခြင်း၊ စိတ်ခံစားမှုအမျိုးအစားခွဲခြင်း၊ ထုတ်ဖော်ပြောဆိုမှုပေါင်းစပ်ခြင်းစသည်ဖြင့် ပါဝင်သည်။ ဒေတာအတွဲသို့ ဝင်ရောက်ခွင့်ရရန်၊ ဖောင်အကျဉ်းကို ဖြည့်သွင်းရပါမည်။

4. အမြင်အာရုံဂျီနိုအာ

Visual Question သည် ရွေးချယ်မှုအများအပြားရှိသော ပတ်ဝန်းကျင်တွင် ဒေတာဖြေဆိုခြင်းကို Visual Genome တွင် ရနိုင်ပါသည်။ ၎င်းကို QA အတွဲပေါင်း 101,174 သန်းဖြင့် MSCOCO ဓာတ်ပုံ 1.7 ပုံဖြင့် ပြုလုပ်ထားပြီး ပုံတစ်ပုံလျှင် ပျမ်းမျှမေးခွန်း 17 ခုရှိသည်။

Visual Question Answering dataset နှင့် နှိုင်းယှဉ်ပါက Visual Genome dataset သည် မေးခွန်းအမျိုးအစားခြောက်မျိုးတွင် မည်သည်၊ ဘယ်မှာ၊ ဘယ်အချိန်၊ ဘယ်သူ၊ ဘာကြောင့် နှင့် How တို့တွင် ပိုမိုတရားမျှတသော ဖြန့်ဖြူးမှုရှိပါသည်။

ထို့အပြင်၊ Visual Genome ဒေတာအတွဲတွင် အရာဝတ္ထုများ၊ ဂုဏ်သတ္တိများနှင့် ချိတ်ဆက်မှုများဖြင့် ကြီးကြီးမားမား တဂ်ခံထားရသည့် 108K ဓာတ်ပုံများ ပါဝင်သည်။

5. LibriSpeech

LibriSpeech corpus သည် LibriVox ပရောဂျက်မှ နာရီပေါင်း 1,000 ခန့်ရှိသော အော်ဒီယိုစာအုပ်များ စုစည်းမှုတစ်ခုဖြစ်သည်။ အော်ဒီယိုစာအုပ်အများစုသည် Project Gutenberg မှအစပြုသည်။

လေ့ကျင့်ရေးဒေတာကို 100hr၊ 360hr နှင့် 500hr sets ၏ အပိုင်းသုံးပိုင်းခွဲထားပြီး dev နှင့် test data သည် အကြမ်းဖျင်းအားဖြင့် 5hr ကြာမြင့်ပါသည်။

6. မြို့ကွက်များ

မြို့ပြကြည့်ရှုမှုများရှိသည့် စတီရီယိုဗီဒီယိုများ၏ အကျော်ကြားဆုံးဒေတာဘေ့စ်များထဲမှ တစ်ခုကို The Cityscapes ဟုခေါ်သည်။

GPS တည်နေရာများ၊ ပြင်ပအပူချိန်၊ အတ္တလှုပ်ရှားမှုဒေတာနှင့် မှန်ကန်သောစတီရီယိုအမြင်များပါ၀င်သည့် pixel-တိကျသောမှတ်ချက်များနှင့်အတူ၊ ၎င်းတွင် ကွဲပြားသောဂျာမန်မြို့ကြီး 50 မှ အသံသွင်းမှုများပါဝင်သည်။

7. Kinetics ဒေတာအတွဲ

ကြီးမားသောအတိုင်းအတာနှင့် အရည်အသွေးကောင်းဖြင့် လူ့လှုပ်ရှားမှုကို အသိအမှတ်ပြုရန်အတွက် လူသိအများဆုံး ဗီဒီယိုဒေတာအတွဲများထဲမှ တစ်ခုမှာ Kinetics ဒေတာအတွဲဖြစ်သည်။ လူ့လှုပ်ရှားမှုအတန်း 600 တစ်ခုစီအတွက် အနည်းဆုံး ဗီဒီယိုကလစ် 600 ရှိပြီး စုစုပေါင်း 500,000 ကျော်ရှိသည်။

ရုပ်ရှင်များကို YouTube မှ ဆွဲထုတ်ခဲ့သည်။ တစ်ခုစီသည် 10 စက္ကန့်ခန့်ကြာပြီး လှုပ်ရှားမှုအတန်းတစ်ခုသာ ပါဝင်ပါသည်။

8. CelebAMask-HQ

CelebAMask-HQ သည် အရေပြား၊ နှာခေါင်း၊ မျက်လုံး၊ နား၊ ပါးစပ်၊ နှုတ်ခမ်း၊ ဆံပင်၊ ဦးထုပ်၊ မျက်မှန်၊ နားကပ်၊ လည်ဆွဲ အစရှိသည့် မျက်နှာအစိတ်အပိုင်းများပါဝင်သည့် အရည်အသွေးမြင့် မျက်နှာဓာတ်ပုံ 30,000 စုစည်းမှုတစ်ခုဖြစ်သည်။ လည်ပင်း၊ ပစ္စည်း။

မျက်နှာမှတ်သားမှု၊ မျက်နှာခွဲခြမ်းစိတ်ဖြာခြင်းနှင့် မျက်နှာဖန်တီးခြင်းနှင့် တည်းဖြတ်ခြင်းဆိုင်ရာ အယ်လဂိုရီသမ်များအတွက် GAN များကို စမ်းသပ်ရန်နှင့် လေ့ကျင့်ရန် ဒေတာအတွဲကို အသုံးချနိုင်သည်။

9. Penn Treebank

အထူးသ ဖြင့် Wall Street Journal ဆောင်းပါးများနှင့် သက်ဆိုင်သည့် ကော်ပိုရေးရှင်း၏ အစိတ်အပိုင်းဖြစ်သော English Penn Treebank (PTB) ၏ မော်ဒယ်များကို အကဲဖြတ်ရန် အကဲဖြတ်ရာတွင် အထင်ရှားဆုံးနှင့် မကြာခဏ အသုံးပြုလေ့ရှိသော corpora သည် တစ်ခုဖြစ်သည်။

စကားလုံးတစ်ခုစီတိုင်းသည် လုပ်ငန်းဆောင်တာ၏ အစိတ်အပိုင်းတစ်ခုအဖြစ် အပြောအဆို၏ အစိတ်အပိုင်းတစ်ခုရှိရပါမည်။ ဇာတ်ကောင်အဆင့်နှင့် စကားလုံးအဆင့် ဘာသာစကားမော်ဒယ်လ် မကြာခဏ corpus ကိုအသုံးပြုသည်။

10 ။ VoxCeleb

VoxCeleb သည် အလိုအလျောက် ထုတ်ပေးသည့် ကြီးမားသော စကားပြော အထောက်အထား ဒေတာအတွဲတစ်ခု ဖြစ်သည်။ open-source မီဒီယာ. VoxCeleb တွင် စပီကာပေါင်း 6k ကျော်ထံမှ စကားတစ်သန်းကျော်ရှိသည်။

ဒေတာအတွဲတွင် အသံ-ရုပ်မြင်သံကြားပါ၀င်သောကြောင့်၊ ၎င်းကို ရုပ်မြင်သောစကားပြောပေါင်းစပ်မှု၊ စကားသံခွဲခြားမှု၊ မျက်နှာမှအသံတစ်ခုသို့ အပြန်အလှန်လွှဲပြောင်းခြင်းနှင့် ဗီဒီယိုမှမျက်နှာမှတ်မိခြင်းတို့ကို လေ့ကျင့်ပေးခြင်းအပါအဝင် နောက်ထပ်အပလီကေးရှင်းများစွာအတွက် ၎င်းကို အသုံးပြုနိုင်သည်။ ဒေတာအတွဲများ

11 ။ SIXray

SIXray ဒေတာအတွဲတွင် မြေအောက်ရထားဘူတာရုံများမှ စုဆောင်းထားသော X-ray ဓာတ်ပုံပေါင်း 1,059,231 ပုံများ ပါဝင်ပြီး အဓိက တားမြစ်ထားသော ပစ္စည်းခြောက်မျိုးဖြစ်သည့် ပစ္စတို၊ ဓားများ၊ လက်ကိုင်တုတ်များ၊ ပလာယာများ၊ ကတ်ကြေးနှင့် တူများကို ရှာဖွေရန် လူ့လုံခြုံရေးစစ်ဆေးရေးမှူးများက မှတ်သားထားသည်။ ထို့အပြင်၊ ခွင့်မပြုထားသော အရာတစ်ခုစီအတွက် အကန့်အကွက်များကို အရာဝတ္ထုဒေသအလိုက် ပြောင်းလဲခြင်း၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန်အတွက် စမ်းသပ်မှုအစုများတွင် ကိုယ်တိုင်ထည့်သွင်းထားသည်။

12 ။ အမေရိကန် မတော်တဆမှုများ

ပရောဂျက်၏ အကြောင်းအရာကို ဒေတာအတွဲ၊ US Accidents အမည်ဖြင့် ဖော်ပြထားပြီးဖြစ်သည်။ တစ်နိုင်ငံလုံး မော်တော် ယာဉ်မတော်တဆမှုဆိုင်ရာ ဤဒေတာအတွဲတွင် 2016 ဖေဖော်ဝါရီမှ 2021 ခုနှစ် ဒီဇင်ဘာလအထိ အချက်အလက်များပါဝင်ပြီး USA တွင် ပြည်နယ် 49 ခု ပါဝင်သည်။

ခန့်မှန်းခြေအားဖြင့် မတော်တဆမှုမှတ်တမ်းပေါင်း 1.5 သန်းသည် ယခုစုစည်းမှုတွင် ရှိနေပါသည်။ အသွားအလာ API အများအပြားကို အသုံးပြုခြင်းဖြင့် ၎င်းကို အချိန်နှင့်တပြေးညီ စုစည်းထားပါသည်။

ဤ API များသည် ယာဉ်ကြောအသွားအလာကင်မရာများ၊ ဥပဒေစိုးမိုးရေးအဖွဲ့အစည်းများ၊ နှင့် US နှင့် ပြည်နယ်သယ်ယူပို့ဆောင်ရေးဌာနများအပါအဝင် ရင်းမြစ်အမျိုးမျိုးမှ စုဆောင်းထားသော ယာဉ်ကြောအသွားအလာအချက်အလက်များကို ပေးပို့ပါသည်။

13 ။ မျက်စိရောဂါ အသိအမှတ်ပြုခြင်း။

ဖွဲ့စည်းထားသည့် မျက်စိဆိုင်ရာဒေတာဘေ့စ်တွင် Ocular Disease Intelligent Recognition (ODIR) တွင် လူနာ 5,000 ၏ အသက်၊ ၎င်းတို့၏ ဘယ်ညာမျက်လုံးများ၏ အရောင်နှင့် ဆေးဘက်ဆိုင်ရာ ကျွမ်းကျင်ပညာရှင်များ၏ ရောဂါရှာဖွေရေးသော့ချက်စာလုံးများ အပါအဝင် လူနာ XNUMX ၏ အချက်အလက်များပါရှိသည်။

ဤဒေတာအတွဲသည် Shanggong Medical Technology Co., Ltd. မှ ၀ယ်ယူထားသော တရုတ်နိုင်ငံရှိ ဆေးရုံများနှင့် ဆေးဘက်ဆိုင်ရာ အဆောက်အဦများမှ လူနာဒေတာများကို အမှန်တကယ် စုစည်းထားခြင်း ဖြစ်သည်။ အတူ အရည်အသွေးထိန်းချုပ်မှုစီမံခန့်ခွဲမှု၊ မှတ်သားချက်များကို ကျွမ်းကျင်သော လူသားစာဖတ်သူများမှ တဂ်ထားသည်။

14 ။ နှလုံးရောဂါ

ဤနှလုံးရောဂါဒေတာအတွဲသည် အသက်၊ ကျား၊ မ၊ ရင်ဘတ်အောင့်ခြင်းအမျိုးအစား၊ သွေးပေါင်ချိန် အနားယူခြင်းစသည်ဖြင့် ကန့်သတ်ချက် ၇၆ မျိုးကို အခြေခံ၍ လူနာတစ်ဦးတွင် နှလုံးရောဂါရှိကြောင်း ခွဲခြားသတ်မှတ်ရာတွင် ကူညီပေးသည်။

အမှုပေါင်း 303 ဖြင့်၊ ဒေတာဘေ့စ်သည် ရောဂါတစ်ခု၏တည်ရှိမှု (တန်ဖိုး 1,2,3,4) ကို ၎င်း၏မရှိခြင်း (တန်ဖိုး 0) နှင့် ရိုးရှင်းစွာခွဲခြားရန် ကြိုးပမ်းသည်။

15 ။ CLEVR

CLEVR ဒေတာအတွဲ (ဖွဲ့စည်းပုံဘာသာစကားနှင့် မူလတန်းမြင်နိုင်သော ကျိုးကြောင်းဆင်ခြင်ခြင်း) သည် Visual Question Answering ကို တုပထားသည်။ ၎င်းတွင် ဓာတ်ပုံတစ်ပုံချင်းစီတွင် အမျိုးအစားများစွာ ခွဲခြားထားသော အလွန်ပေါင်းစပ်ဖွဲ့စည်းမှုမေးခွန်းများစွာဖြင့် ပါ၀င်သည့် ဓာတ်ပုံတစ်ပုံစီတွင် 3D-ပြန်ဆိုထားသည့် အရာဝတ္ထုများ၏ ဓာတ်ပုံများ ပါဝင်ပါသည်။

ရထားနှင့်တရားဝင်ပုံများနှင့်မေးခွန်းများအားလုံးအတွက်၊ ဒေတာအစုံတွင် ဓာတ်ပုံ 70,000 နှင့် လေ့ကျင့်ရေးအတွက်မေးခွန်း 700,000၊ 15,000 ပုံများနှင့် validation အတွက်မေးခွန်း 150,000 နှင့် 15,000 ပုံများနှင့် အရာဝတ္ထုများ၊ ပြန်ကြားမှုများ၊ လုပ်ဆောင်ချက်ဆိုင်ရာ ဂရပ်ဖစ်များပါ၀င်သော စမ်းသပ်မှုအတွက် မေးခွန်းပေါင်း 150,000 ပါဝင်သည်။

16 ။ Universal မှီခိုမှု

Universal Dependencies (UD) ပရောဂျက်သည် ဘာသာစကားများစွာအတွက် တူညီသောဘာသာစကားဖြင့် တူညီသောပုံစံသဏ္ဍာန်နှင့် အထားအသိုပုံစံသစ်ဘဏ်မှတ်ချက်များကို ဖန်တီးရန် ရည်ရွယ်သည်။ 2.7 တွင်ထွက်ရှိခဲ့သော ဗားရှင်း 2020 တွင် ဘာသာစကား 183 ခုဖြင့် သစ်ပင်ဘဏ် 104 ခုရှိသည်။

မှတ်ချက်ကို universal POW တဂ်များ၊ မှီခိုမှုခေါင်းများနှင့် universal dependency တံဆိပ်များဖြင့် ဖွဲ့စည်းထားသည်။

17 ။ KITTI – ၃၆၀

မိုဘိုင်းစက်ရုပ်များနှင့် အသုံးအများဆုံးဒေတာအတွဲများထဲမှတစ်ခု ကိုယ်ပိုင်အုပ်ချုပ်ခွင့်ရကားမောင်း KITTI (Karlsruhe Institute of Technology and Toyota Technological Institute) ဖြစ်သည်။

၎င်းကို အရည်အသွေးမြင့် RGB၊ မီးခိုးရောင်စတီရီယို၊ နှင့် 3D လေဆာစကင်နာကင်မရာများကဲ့သို့သော အာရုံခံကိရိယာပုံစံအမျိုးမျိုးကို အသုံးပြု၍ ရိုက်ကူးထားသည့် နာရီပေါင်းများစွာ တန်ဖိုးရှိသော ယာဉ်အသွားအလာအခြေအနေများဖြင့် ဖွဲ့စည်းထားသည်။ ဒေတာအတွဲကို ၎င်းတို့၏လိုအပ်ချက်များနှင့် ကိုက်ညီစေရန် အပိုင်းအမျိုးမျိုးကို ကိုယ်တိုင်မှတ်စုများ ပြုလုပ်ပေးသည့် သုတေသီများစွာက အချိန်နှင့်အမျှ ပိုမိုကောင်းမွန်လာပါသည်။

18 ။ MOT (အရာဝတ္ထုအများအပြား ခြေရာခံခြင်း)

MOT (Multiple Object Tracking) သည် လမ်းသွားလမ်းလာများကို စိတ်ဝင်စားသည့်အရာများအဖြစ် လမ်းသွားလမ်းလာများပါ၀င်သည့် အများသူငှာနေရာများ၏ အတွင်းပိုင်းနှင့် အပြင်ဘက်မြင်ကွင်းများပါရှိသော အရာဝတ္ထုများကို ခြေရာခံခြင်းအတွက် ဒေတာအတွဲတစ်ခုဖြစ်သည်။ အခင်းအကျင်းတစ်ခုစီ၏ ဗီဒီယိုကို အပိုင်းနှစ်ပိုင်းခွဲထားပြီး၊ တစ်ခုသည် လေ့ကျင့်ရန်အတွက်နှင့် အခြားတစ်ခုကို စမ်းသပ်ရန်အတွက် ဖြစ်သည်။

ဒေတာအတွဲတွင် ပါဝင်သည်။ အရာဝတ္ထုများကို ထောက်လှမ်းခြင်း။ ထောက်လှမ်းကိရိယာသုံးခု- SDP၊ Faster-RCNN နှင့် DPM ကိုအသုံးပြုထားသော ဗီဒီယိုဘောင်များတွင်။

19 ။ PASCAL 3D+

Pascal3D+ multi-view dataset ကို သဘာဝတွင် စုဆောင်းထားသော ဓာတ်ပုံများ ၊ ဆိုလိုသည်မှာ ကွဲပြားမှု မြင့်မားသော အရာများ၏ အမျိုးအစားများ၏ ပုံများ ၊ ထိန်းချုပ်မရသော အခြေအနေများတွင် ၊ လူစည်ကားသော ပတ်ဝန်းကျင် နှင့် အနေအထား အမျိုးမျိုးတွင် ရိုက်ကူးထားသော ပုံများ နှင့် ဖွဲ့စည်းထားပါသည်။ Pascal3D+ တွင် PASCAL VOC 12 ဒေတာအတွဲမှ ရေးဆွဲထားသော တင်းကျပ်သော အရာဝတ္ထုအမျိုးအစား ၁၂ ခု ပါဝင်သည်။

ဤအရာများ တွင် ကိုယ်ဟန်အနေအထား အချက်အလက်များ ပါရှိသည် (အဇမ်မတ်၊ အမြင့်နှင့် ကင်မရာနှင့် အကွာအဝေး)။ Pascal3D+ တွင် ဤအမျိုးအစား 12 ခုရှိ ImageNet စုဆောင်းမှုမှ ပုံသဏ္ဍာန်ပုံ-မှတ်စုပုံများ ပါဝင်သည်။

20 ။ မျက်နှာပုံပျက်နိုင်သော တိရစ္ဆာန်များ၏ မော်ဒယ်များ

Facial Deformable Animals of Animals (FDMA) ပရောဂျက်၏ ရည်မှန်းချက်မှာ လူ့မျက်နှာအထင်ကရ အမှတ်အသားပြုခြင်းနှင့် ခြေရာခံခြင်းဆိုင်ရာ လက်ရှိနည်းစနစ်များကို စိန်ခေါ်ရန်နှင့် တိရစ္ဆာန်များ၏ မျက်နှာသွင်ပြင်လက္ခဏာများဖြစ်သည့် သိသိသာသာကြီးသော ကွဲပြားမှုကို ကိုင်တွယ်ဖြေရှင်းနိုင်သည့် အယ်လဂိုရီသမ်အသစ်များကို ဖော်ထုတ်ရန်ဖြစ်သည်။

ပရောဂျက်၏ အယ်လဂိုရီသမ်များသည် မျက်နှာရှိ စိတ်ခံစားမှု သို့မဟုတ် အနေအထား၊ တစ်စိတ်တစ်ပိုင်း ပိတ်ဆို့ခြင်းများနှင့် အလင်းရောင်ကြောင့် ဖြစ်ပေါ်လာသော ကွဲပြားမှုများကို ကိုင်တွယ်ဖြေရှင်းရာတွင် လူ့မျက်နှာပေါ်ရှိ အထင်ကရနေရာများကို မှတ်သားသိရှိနိုင်ပြီး ခြေရာခံနိုင်မှုကို သရုပ်ပြခဲ့သည်။

21 ။ MPII Human Post Dataset

MPII Human Pose Dataset တွင် ဓာတ်ပုံ 25K ဝန်းကျင် ပါဝင်ပြီး ၎င်းတို့အနက် 15K သည် လေ့ကျင့်ရေးနမူနာများဖြစ်ပြီး 3K သည် တရားဝင်နမူနာများနှင့် စမ်းသပ်နမူနာ 7K ပါဝင်သည်။

ရာထူးများကို ကိုယ်ခန္ဓာအဆစ် 16 ခုအထိဖြင့် ကိုယ်တိုင်တံဆိပ်တပ်ထားပြီး ဓာတ်ပုံများကို လူသားလှုပ်ရှားမှု 410 အကြောင်းကို YouTube ရုပ်ရှင်များမှ ရယူထားသည်။

22 ။ UCF101

UCF101 ဒေတာအတွဲတွင် အမျိုးအစား 13,320 ခုဖြင့် ဖွဲ့စည်းထားသော ဗီဒီယိုအပိုင်း 101 ပါရှိသည်။ ဤ 101 အမျိုးအစားများကို အမျိုးအစားငါးမျိုးဖြင့် ခွဲခြားထားသည်- ခန္ဓာကိုယ်လှုပ်ရှားမှုများ၊ လူ-လူအချင်းချင်း အပြန်အလှန်ဆက်သွယ်မှု၊ လူ-အရာဝတ္တု အပြန်အလှန်တုံ့ပြန်မှု၊ ဂီတတူရိယာတီးမှုတ်ခြင်းနှင့် အားကစား။

ဗီဒီယိုများသည် YouTube မှဖြစ်ပြီး ကြာချိန် 27 နာရီပါဝင်သည်။

23 ။ အသံဖိုင်

Audioset သည် လူ ၂ သန်းကျော်ဖြင့် မှတ်သားထားသော 2 စက္ကန့် ဗီဒီယိုအပိုင်းများဖြင့် ဖွဲ့စည်းထားသည့် အသံဖြစ်ရပ်ဒေတာအစုံဖြစ်သည်။ ဤဒေတာကို မှတ်သားရန်၊ ဖြစ်ရပ်အမျိုးအစား 10 ပါ၀င်သော အထက်အောက် နိမိတ်ဗေဒကို အသုံးပြုသည်၊ ဆိုလိုသည်မှာ တူညီသောအသံကို ကွဲပြားစွာ တံဆိပ်တပ်ခံရနိုင်သည်ဟု ဆိုလိုသည်။

24 ။ စတန်းဖို့ဒ် သဘာဝ ဘာသာစကား ကောက်ချက်

SNLI ဒေတာအတွဲ (Stanford Natural Language Inference) တွင် ဆက်စပ်မှု၊ ကွဲလွဲမှု သို့မဟုတ် ကြားနေအဖြစ် ကိုယ်တိုင် အမျိုးအစားခွဲခြားထားသည့် 570k ဝါကျတွဲများပါရှိသည်။

ပရဝုဏ်များသည် Flickr30k ရုပ်ပုံဖော်ပြချက်များဖြစ်ပြီး၊ အယူအဆများကို လူစုလူဝေးမှရင်းမြစ်မှတ်စုများမှ ဖော်ညွှန်းထားကာ ပေါင်းစပ်ပါဝင်မှု၊ ဆန့်ကျင်ဘက်နှင့် ကြားနေထုတ်ပြန်ချက်များကို ဖန်တီးရန် ညွှန်ကြားထားသည့် ပရဝုဏ်များကို ဖန်တီးထားသည်။

25 ။ Visual Question ဖြေဆိုခြင်း။

Visual Question Answering (VQA) သည် ရုပ်ပုံများနှင့် ပတ်သက်သော အဖွင့်မေးခွန်းများပါရှိသော ဒေတာအတွဲတစ်ခုဖြစ်သည်။ ဤမေးခွန်းများကိုဖြေဆိုရန်၊ အမြင်၊ ဘာသာစကားနှင့် ဘုံသဘောကို ဆုပ်ကိုင်ထားရန် လိုအပ်သည်။

ကောက်ချက်

စက်သင်ယူမှုနှင့် ဉာဏ်ရည်တု (AI) သည် လက်တွေ့အားဖြင့် လုပ်ငန်းတိုင်းနှင့် ကျွန်ုပ်တို့၏နေ့စဉ်ဘဝများတွင် ပိုမိုပျံ့နှံ့လာသည်နှင့်အမျှ ဘာသာရပ်တွင် ရရှိနိုင်သော အရင်းအမြစ်များနှင့် အချက်အလက်များ အများအပြားလည်း ရှိလာသည်။

အဆင်သင့်လုပ်ထားသော အများသူငှာဒေတာအတွဲများသည် AI မော်ဒယ်လ်များကို တီထွင်ရန်အတွက် ကောင်းမွန်သောအစမှတ်ကို ပေးစွမ်းနိုင်ပြီး ရာသီအလိုက် ML ပရိုဂရမ်မာများအား အချိန်ကုန်သက်သာစေပြီး ၎င်းတို့၏ပရောဂျက်များ၏ အခြားအစိတ်အပိုင်းများကို အာရုံစိုက်နိုင်ရန်လည်း ခွင့်ပြုပေးပါသည်။

အကောင်းဆုံး Alternative AI လေ့ကျင့်ရေးဒေတာအတွဲများ

အကောင်းဆုံး အစားထိုး AI လေ့ကျင့်ရေးဒေတာအတွဲ 25

1. CelebFaces Attributes ဒေတာအတွဲ

2. ဒိုတာ

3. Google Facial Expression နှိုင်းယှဉ်မှုဒေတာအတွဲ

4. အမြင်အာရုံဂျီနိုအာ

5. LibriSpeech

6. မြို့ကွက်များ

7. Kinetics ဒေတာအတွဲ

8. CelebAMask-HQ

9. Penn Treebank

10 ။ VoxCeleb

11 ။ SIXray

12 ။ အမေရိကန် မတော်တဆမှုများ

13 ။ မျက်စိရောဂါ အသိအမှတ်ပြုခြင်း။

14 ။ နှလုံးရောဂါ

15 ။ CLEVR

16 ။ Universal မှီခိုမှု

17 ။ KITTI – ၃၆၀

18 ။ MOT (အရာဝတ္ထုအများအပြား ခြေရာခံခြင်း)

19 ။ PASCAL 3D+

20 ။ မျက်နှာပုံပျက်နိုင်သော တိရစ္ဆာန်များ၏ မော်ဒယ်များ

21 ။ MPII Human Post Dataset

22 ။ UCF101

23 ။ အသံဖိုင်

24 ။ စတန်းဖို့ဒ် သဘာဝ ဘာသာစကား ကောက်ချက်

25 ။ Visual Question ဖြေဆိုခြင်း။

ကောက်ချက်

အကြောင်းအရာ ဂျေး

HashDork ၏ နောက်ထပ်ဆောင်းပါးများ

သင့် AI တွင် အာရုံစူးစိုက်မှုများအား လျှော့ချနည်း

Colossyan vs Heygen

ဤအနာဂတ်နည်းပညာသတင်းလွှာသည် အဆင်မပြေပါ။

အကောင်းဆုံး အစားထိုး AI လေ့ကျင့်ရေးဒေတာအတွဲ 25

1. CelebFaces Attributes ဒေတာအတွဲ

2. ဒိုတာ

3. Google Facial Expression နှိုင်းယှဉ်မှုဒေတာအတွဲ

4. အမြင်အာရုံဂျီနိုအာ

5. LibriSpeech

6. မြို့ကွက်များ

7. Kinetics ဒေတာအတွဲ

8. CelebAMask-HQ

9. Penn Treebank

10 ။ VoxCeleb

11 ။ SIXray

12 ။ အမေရိကန် မတော်တဆမှုများ

13 ။ မျက်စိရောဂါ အသိအမှတ်ပြုခြင်း။

14 ။ နှလုံးရောဂါ

15 ။ CLEVR

16 ။ Universal မှီခိုမှု

17 ။ KITTI – ၃၆၀

18 ။ MOT (အရာဝတ္ထုအများအပြား ခြေရာခံခြင်း)

19 ။ PASCAL 3D+

20 ။ မျက်နှာပုံပျက်နိုင်သော တိရစ္ဆာန်များ၏ မော်ဒယ်များ

21 ။ MPII Human Post Dataset

22 ။ UCF101

23 ။ အသံဖိုင်

24 ။ စတန်းဖို့ဒ် သဘာဝ ဘာသာစကား ကောက်ချက်

25 ။ Visual Question ဖြေဆိုခြင်း။

ကောက်ချက်

အကြောင်းအရာ ဂျေး

HashDork ၏ နောက်ထပ်ဆောင်းပါးများ

သင့် AI တွင် အာရုံစူးစိုက်မှုများအား လျှော့ချနည်း

ဆိုရှယ်မီဒီယာအတွက် အကောင်းဆုံး AI ကိရိယာ ၁၀ ခု

Colossyan vs Heygen

အကောင်းဆုံး AI Animated Video Maker Tools 10 ခု

Reader ကိုဆက်သွယ်မှုသည်

တစ်ဦးစာပြန်ရန် Leave ပြန်ကြားချက် Cancel

ဤအနာဂတ်နည်းပညာသတင်းလွှာသည် အဆင်မပြေပါ။

တစ်ဦးစာပြန်ရန် Leave