విషయ సూచిక[దాచు][చూపండి]
- 1. CelebFaces అట్రిబ్యూట్స్ డేటాసెట్
- 2. DOTA
- 3. గూగుల్ ఫేషియల్ ఎక్స్ప్రెషన్ కంపారిజన్ డేటాసెట్
- 4. విజువల్ జీనోమ్
- 5. లిబ్రిస్పీచ్
- 6. సిటీస్పేసెస్
- 7. కైనటిక్స్ డేటాసెట్
- 8. సెలెబామాస్క్-హెచ్క్యూ
- 9. పెన్ ట్రీబ్యాంక్
- 10. VoxCeleb
- 11. SIXray
- 12. US ప్రమాదాలు
- 13. కంటి వ్యాధి గుర్తింపు
- 14. గుండె వ్యాధి
- 15. CLEVR
- 16. యూనివర్సల్ డిపెండెన్సీలు
- 17. కిట్టి - 360
- 18. MOT(మల్టిపుల్ ఆబ్జెక్ట్ ట్రాకింగ్)
- 19. పాస్కల్ 3D+
- 20. జంతువుల ముఖ వికృతమైన నమూనాలు
- 21. MPII హ్యూమన్ పోస్ట్ డేటాసెట్
- 22. UCF101
- 23. ఆడియోసెట్
- 24. స్టాన్ఫోర్డ్ సహజ భాషా అనుమితి
- 25. విజువల్ ప్రశ్న సమాధానం
- ముగింపు
ఈ రోజుల్లో, మనలో చాలా మంది మెషీన్ లెర్నింగ్ మరియు AI మోడల్లను అభివృద్ధి చేయడం మరియు ప్రస్తుత డేటాసెట్లను ఉపయోగించి సమస్యలను పరిష్కరించడంపై దృష్టి సారించారు. అయితే ముందుగా, మనం తప్పనిసరిగా డేటాసెట్, దాని ప్రాముఖ్యత మరియు బలమైన AI మరియు ML పరిష్కారాలను అభివృద్ధి చేయడంలో దాని పాత్రను నిర్వచించాలి.
నేడు, వివిధ రంగాలలో వాస్తవ-ప్రపంచ సమస్యలను పరిష్కరించడానికి పరిశోధన లేదా అప్లికేషన్లను అభివృద్ధి చేయడానికి మేము అనేక ఓపెన్ సోర్స్ డేటాసెట్లను కలిగి ఉన్నాము.
అయినప్పటికీ, అధిక-నాణ్యత పరిమాణాత్మక డేటాసెట్ల కొరత ఆందోళనకు మూలం. డేటా విపరీతంగా పెరిగింది మరియు భవిష్యత్తులో మరింత వేగంగా విస్తరించడం కొనసాగుతుంది.
ఈ పోస్ట్లో, మీ తదుపరి AI ప్రాజెక్ట్ను అభివృద్ధి చేయడానికి మీరు ఉపయోగించగల ఉచితంగా లభించే డేటాసెట్లను మేము కవర్ చేస్తాము.
1. CelebFaces అట్రిబ్యూట్స్ డేటాసెట్
CelebFaces అట్రిబ్యూట్స్ డేటాసెట్ (CelebA) ప్రతి చిత్రానికి 200K పైగా ప్రముఖుల ఫోటోలు మరియు 40 అట్రిబ్యూట్ ఉల్లేఖనాలను కలిగి ఉంది, ఇది వంటి ప్రాజెక్ట్లకు అద్భుతమైన ప్రారంభ స్థానం ముఖ గుర్తింపు, ముఖ గుర్తింపు, ల్యాండ్మార్క్ (లేదా ముఖ భాగం) స్థానికీకరణ మరియు ముఖ సవరణ & సంశ్లేషణ. ఇంకా, ఈ సేకరణలోని ఫోటోలు విస్తృత శ్రేణి స్థాన వేరియంట్లు మరియు బ్యాక్డ్రాప్ అయోమయాన్ని కలిగి ఉన్నాయి.
2. DOTA
DOTA (డేటాసెట్ ఆబ్జెక్ట్ డిటెక్షన్ వైమానిక ఫోటోలలో) అనేది 15 సాధారణ వర్గాలను (ఉదా, ఓడ, విమానం, కారు మొదలైనవి), శిక్షణ కోసం 1411 చిత్రాలు మరియు ధ్రువీకరణ కోసం 458 చిత్రాలను కలిగి ఉన్న ఆబ్జెక్ట్ డిటెక్షన్ కోసం పెద్ద-స్థాయి డేటాసెట్.
3. Google ఫేషియల్ ఎక్స్ప్రెషన్ పోలిక డేటాసెట్
Google ముఖ కవళిక పోలిక డేటాసెట్లో 500,000 ముఖ ఫోటోలతో సహా దాదాపు 156,000 చిత్ర ట్రిపుల్లు ఉన్నాయి. ఈ డేటాసెట్లోని ప్రతి ట్రిపుల్ కనీసం ఆరుగురు మానవ రేటర్లచే ఉల్లేఖించబడిందని గమనించాలి.
వ్యక్తీకరణ-ఆధారిత చిత్ర పునరుద్ధరణ, భావోద్వేగ వర్గీకరణ, వ్యక్తీకరణ సంశ్లేషణ మొదలైన ముఖ వ్యక్తీకరణ విశ్లేషణతో కూడిన ప్రాజెక్ట్లకు ఈ డేటాసెట్ ఉపయోగపడుతుంది. డేటాసెట్కి యాక్సెస్ పొందడానికి, సంక్షిప్త ఫారమ్ను పూర్తి చేయాలి.
4. విజువల్ జీనోమ్
విజువల్ జీనోమ్లో బహుళ-ఎంపిక వాతావరణంలో దృశ్య ప్రశ్న సమాధానాల డేటా అందుబాటులో ఉంది. ఇది 101,174 మిలియన్ QA జతలతో 1.7 MSCOCO ఫోటోలతో రూపొందించబడింది, ప్రతి చిత్రానికి సగటున 17 ప్రశ్నలు ఉంటాయి.
విజువల్ క్వశ్చన్ ఆన్సరింగ్ డేటాసెట్తో పోల్చితే, విజువల్ జీనోమ్ డేటాసెట్ ఆరు ప్రశ్న రకాల్లో మరింత సరసమైన పంపిణీని కలిగి ఉంది: ఏమిటి, ఎక్కడ, ఎప్పుడు, ఎవరు, ఎందుకు మరియు ఎలా.
అదనంగా, విజువల్ జీనోమ్ డేటాసెట్లో వస్తువులు, లక్షణాలు మరియు కనెక్షన్లతో భారీగా ట్యాగ్ చేయబడిన 108K ఫోటోలు ఉంటాయి.
5. లిబ్రిస్పీచ్
LibriSpeech కార్పస్ అనేది LibriVox ప్రాజెక్ట్ నుండి దాదాపు 1,000 గంటల ఆడియోబుక్ల సేకరణ. ఆడియోబుక్లలో ఎక్కువ భాగం ప్రాజెక్ట్ గుటెన్బర్గ్ నుండి ఉద్భవించింది.
శిక్షణ డేటా 100hr, 360hr మరియు 500hr సెట్ల యొక్క మూడు విభజనలుగా విభజించబడింది, అయితే dev మరియు టెస్ట్ డేటా ఆడియో నిడివిలో దాదాపు 5hr ఉంటుంది.
6. ది సిటీస్పేసెస్
పట్టణ వీక్షణలతో స్టీరియో వీడియోల యొక్క అత్యంత ప్రసిద్ధ పెద్ద-స్థాయి డేటాబేస్లలో ఒకటి ది సిటీస్కేప్స్.
GPS స్థానాలు, బాహ్య ఉష్ణోగ్రత, ఇగో-మోషన్ డేటా మరియు సరైన స్టీరియో దృక్కోణాలను కలిగి ఉన్న పిక్సెల్-ఖచ్చితమైన ఉల్లేఖనాలతో, ఇది 50 విభిన్న జర్మన్ నగరాల నుండి రికార్డింగ్లను కలిగి ఉంటుంది.
7. కైనటిక్స్ డేటాసెట్
మానవ కార్యకలాపాలను పెద్ద స్థాయిలో మరియు మంచి నాణ్యతతో గుర్తించడానికి అత్యంత ప్రసిద్ధ వీడియో డేటాసెట్లలో ఒకటి గతిశాస్త్రం డేటాసెట్. 600 మానవ కార్యకలాపాల తరగతులకు కనీసం 600 వీడియో క్లిప్లు ఉన్నాయి, మొత్తం 500,000 కంటే ఎక్కువ.
YouTube నుండి చలనచిత్రాలు తీసివేయబడ్డాయి; ప్రతి ఒక్కటి దాదాపు 10 సెకన్ల నిడివిని కలిగి ఉంటుంది మరియు ఒక కార్యాచరణ తరగతి మాత్రమే జాబితా చేయబడింది.
8. సెలెబామాస్క్-హెచ్క్యూ
CelebAMask-HQ అనేది చర్మం, ముక్కు, కళ్ళు, కనుబొమ్మలు, చెవులు, నోరు, పెదవి, వెంట్రుకలు, టోపీ, కళ్లద్దాలు, చెవిపోగులు, నెక్లెస్ వంటి ముఖ భాగాలను కలిగి ఉన్న జాగ్రత్తగా ఉల్లేఖించిన మాస్క్లు మరియు 30,000 తరగతులతో కూడిన 19 హై-రిజల్యూషన్ ఫేస్ ఫోటోల సేకరణ. మెడ, పదార్థం.
ఫేస్ రికగ్నిషన్, ఫేస్ పార్సింగ్ మరియు GANలను ఫేస్-జెనరేట్ మరియు ఎడిటింగ్ అల్గారిథమ్లను పరీక్షించడానికి మరియు శిక్షణ ఇవ్వడానికి డేటాసెట్ని ఉపయోగించవచ్చు.
9. పెన్ ట్రీబ్యాంక్
సీక్వెన్స్ ట్యాగింగ్ కోసం మోడల్లను అంచనా వేయడానికి అత్యంత గుర్తించదగిన మరియు తరచుగా ఉపయోగించే కార్పోరాలలో ఒకటి ఇంగ్లీష్ పెన్ ట్రీబ్యాంక్ (PTB) కార్పస్, ప్రత్యేకించి వాల్ స్ట్రీట్ జర్నల్ కథనాలకు సంబంధించిన కార్పస్ యొక్క భాగం.
ప్రతి పదం తప్పనిసరిగా టాస్క్లో భాగంగా టాగ్ చేయబడిన ప్రసంగం యొక్క భాగాన్ని కలిగి ఉండాలి. అక్షర-స్థాయి మరియు పద-స్థాయి భాషా నమూనా కార్పస్ను కూడా తరచుగా ఉపయోగిస్తుంది.
<span style="font-family: arial; ">10</span> వోక్స్ సెలెబ్
VoxCeleb అనేది స్వయంచాలకంగా రూపొందించబడిన పెద్ద-స్థాయి ప్రసంగ గుర్తింపు డేటాసెట్ ఓపెన్ సోర్స్ మీడియా. VoxCeleb 6k కంటే ఎక్కువ స్పీకర్ల నుండి మిలియన్ కంటే ఎక్కువ ఉచ్చారణలను కలిగి ఉంది.
డేటాసెట్లో ఆడియో-విజువల్ ఉన్నందున, ఇది విజువల్ స్పీచ్ సింథసిస్, స్పీచ్ సెపరేషన్, ముఖం నుండి వాయిస్కి క్రాస్-మోడల్ ట్రాన్స్ఫర్ లేదా వైస్ వెర్సా మరియు ప్రస్తుత ముఖ గుర్తింపును సప్లిమెంట్ చేయడానికి వీడియో నుండి ఫేస్ రికగ్నిషన్తో సహా వివిధ రకాల అదనపు అప్లికేషన్ల కోసం ఉపయోగించబడుతుంది. డేటాసెట్లు.
<span style="font-family: arial; ">10</span> SIXray
SIXray డేటాసెట్లో సబ్వే స్టేషన్ల నుండి సేకరించబడిన 1,059,231 ఎక్స్-రే చిత్రాలు ఉన్నాయి మరియు మానవ భద్రతా ఇన్స్పెక్టర్లు ఆరు ప్రధాన రకాల నిషిద్ధ వస్తువులను గుర్తించడానికి ఉల్లేఖించారు: పిస్టల్లు, కత్తులు, రెంచ్లు, శ్రావణం, కత్తెర మరియు సుత్తి. ఇంకా, ఆబ్జెక్ట్ స్థానికీకరణ పనితీరును అంచనా వేయడానికి ప్రతి అనుమతించబడని ఐటెమ్కు బౌండింగ్ బాక్స్లు మాన్యువల్గా టెస్టింగ్ సెట్లకు జోడించబడ్డాయి.
<span style="font-family: arial; ">10</span> US ప్రమాదాలు
ప్రాజెక్ట్ యొక్క సారాంశం ఇప్పటికే డేటాసెట్ పేరు, US ప్రమాదాలు ద్వారా వెల్లడి చేయబడింది. దేశవ్యాప్తంగా ఆటోమొబైల్ ప్రమాదాలపై ఈ డేటాసెట్ ఫిబ్రవరి 2016 నుండి డిసెంబర్ 2021 వరకు సమాచారాన్ని కలిగి ఉంది మరియు USAలోని 49 రాష్ట్రాలను కవర్ చేస్తుంది.
ఈ సేకరణలో ఇప్పుడు సుమారు 1.5 మిలియన్ ప్రమాద రికార్డులు ఉన్నాయి. ఇది అనేక ట్రాఫిక్ APIలను ఉపయోగించడం ద్వారా నిజ సమయంలో సేకరించబడింది.
ఈ APIలు ట్రాఫిక్ కెమెరాలు, లా ఎన్ఫోర్స్మెంట్ ఆర్గనైజేషన్లు మరియు US మరియు స్టేట్ డిపార్ట్మెంట్ ఆఫ్ ట్రాన్స్పోర్టేషన్తో సహా వివిధ మూలాల నుండి సేకరించిన ట్రాఫిక్ సమాచారాన్ని ప్రసారం చేస్తాయి.
<span style="font-family: arial; ">10</span> కంటి వ్యాధి గుర్తింపు
ఆర్గనైజ్డ్ ఆప్తాల్మిక్ డేటాబేస్ ఓక్యులర్ డిసీజ్ ఇంటెలిజెంట్ రికగ్నిషన్ (ODIR) 5,000 మంది రోగులపై సమాచారాన్ని కలిగి ఉంది, ఇందులో వారి వయస్సు, వారి ఎడమ మరియు కుడి కళ్లలోని ఫండస్ రంగు మరియు వైద్య నిపుణుల డయాగ్నస్టిక్ కీలక పదాలు ఉన్నాయి.
ఈ డేటాసెట్ అనేది షాంగ్గోంగ్ మెడికల్ టెక్నాలజీ కో., లిమిటెడ్ కొనుగోలు చేసిన చైనాలోని వివిధ ఆసుపత్రులు మరియు వైద్య సదుపాయాల నుండి రోగి డేటా యొక్క వాస్తవ సేకరణ. తో నాణ్యత నియంత్రణ నిర్వహణ, ఉల్లేఖనాలు నైపుణ్యం కలిగిన మానవ పాఠకులచే ట్యాగ్ చేయబడ్డాయి.
<span style="font-family: arial; ">10</span> గుండె వ్యాధి
ఈ హార్ట్ డిసీజ్ డేటాసెట్ వయస్సు, లింగం, ఛాతీ నొప్పి రకం, విశ్రాంతి రక్తపోటు మొదలైన 76 పారామితుల ఆధారంగా రోగిలో గుండె జబ్బు ఉనికిని గుర్తించడంలో సహాయపడుతుంది.
303 కేసులతో, డేటాబేస్ అనారోగ్యం యొక్క ఉనికిని (విలువ 1,2,3,4) దాని లేకపోవడం (విలువ 0) నుండి వేరు చేయడానికి ప్రయత్నిస్తుంది.
<span style="font-family: arial; ">10</span> CLEVR
CLEVR డేటాసెట్ (కంపోజిషనల్ లాంగ్వేజ్ మరియు ఎలిమెంటరీ విజువల్ రీజనింగ్) విజువల్ ప్రశ్న సమాధానాన్ని అనుకరిస్తుంది. ఇది 3D-రెండర్ చేయబడిన వస్తువుల ఛాయాచిత్రాలను కలిగి ఉంటుంది, ప్రతి ఛాయాచిత్రం అనేక విభాగాలుగా విభజించబడిన అత్యంత కూర్పు ప్రశ్నల శ్రేణితో ఉంటుంది.
అన్ని రైలు మరియు ధ్రువీకరణ చిత్రాలు మరియు ప్రశ్నల కోసం, డేటాసెట్లో శిక్షణ కోసం 70,000 ఫోటోగ్రాఫ్లు మరియు 700,000 ప్రశ్నలు, ధ్రువీకరణ కోసం 15,000 చిత్రాలు మరియు 150,000 ప్రశ్నలు మరియు 15,000 ఇమేజ్లు మరియు 150,000 ప్రశ్నలు మరియు ఆబ్జెక్ట్లు, ప్రత్యుత్తరాలు, ఫంక్షనల్ ప్రోగ్రామ్లను కలిగి ఉన్న పరీక్ష కోసం XNUMX ప్రశ్నలు ఉంటాయి.
<span style="font-family: arial; ">10</span> యూనివర్సల్ డిపెండెన్సీలు
యూనివర్సల్ డిపెండెన్సీస్ (UD) ప్రాజెక్ట్ అనేక భాషల కోసం క్రాస్-లింగ్విస్టిక్గా ఏకరీతి పదనిర్మాణం మరియు సింటాక్స్ ట్రీబ్యాంక్ ఉల్లేఖనాన్ని సృష్టించడం లక్ష్యంగా పెట్టుకుంది. 2.7లో విడుదలైన వెర్షన్ 2020లో 183 భాషల్లో 104 ట్రీబ్యాంక్లు ఉన్నాయి.
ఉల్లేఖన సార్వత్రిక POW ట్యాగ్లు, డిపెండెన్స్ హెడ్లు మరియు యూనివర్సల్ డిపెండెన్సీ లేబుల్లతో రూపొందించబడింది.
<span style="font-family: arial; ">10</span> కిట్టి - 360
మొబైల్ రోబోట్ల కోసం ఎక్కువగా ఉపయోగించే డేటాసెట్లలో ఒకటి మరియు అటానమస్ డ్రైవింగ్ KITTI (కార్ల్స్రూహె ఇన్స్టిట్యూట్ ఆఫ్ టెక్నాలజీ మరియు టయోటా టెక్నలాజికల్ ఇన్స్టిట్యూట్).
ఇది అధిక-రిజల్యూషన్ RGB, గ్రేస్కేల్ స్టీరియో మరియు 3D లేజర్ స్కానర్ కెమెరాల వంటి సెన్సార్ పద్ధతుల శ్రేణిని ఉపయోగించి క్యాప్చర్ చేయబడిన గంటల విలువైన ట్రాఫిక్ దృశ్యాలతో రూపొందించబడింది. డేటాసెట్ కాలక్రమేణా అనేక మంది పరిశోధకులచే మెరుగుపరచబడింది, వారి అవసరాలకు అనుగుణంగా దానిలోని వివిధ భాగాలను మాన్యువల్గా ఉల్లేఖించారు.
<span style="font-family: arial; ">10</span> MOT(మల్టిపుల్ ఆబ్జెక్ట్ ట్రాకింగ్)
MOT (మల్టిపుల్ ఆబ్జెక్ట్ ట్రాకింగ్) అనేది బహుళ ఆబ్జెక్ట్ ట్రాకింగ్ కోసం డేటాసెట్, ఇందులో పబ్లిక్ లొకేషన్ల యొక్క ఇండోర్ మరియు అవుట్డోర్ దృశ్యాలు ఉన్నాయి, ఇందులో పాదచారులను ఆసక్తి ఉన్న వస్తువులుగా చేర్చారు. ప్రతి సన్నివేశం యొక్క వీడియో రెండు ముక్కలుగా విభజించబడింది, ఒకటి శిక్షణ కోసం మరియు మరొకటి పరీక్ష కోసం.
డేటాసెట్ కలిగి ఉంటుంది వస్తువు గుర్తింపులు మూడు డిటెక్టర్లను ఉపయోగించి వీడియో ఫ్రేమ్లలో: SDP, ఫాస్టర్-RCNN మరియు DPM.
<span style="font-family: arial; ">10</span> పాస్కల్ 3D+
Pascal3D+ బహుళ-వీక్షణ డేటాసెట్ అనేది అడవిలో సేకరించబడిన ఫోటోగ్రాఫ్లతో రూపొందించబడింది, అనగా, అధిక వైవిధ్యంతో కూడిన ఐటెమ్ కేటగిరీల చిత్రాలు, అనియంత్రిత పరిస్థితులలో, రద్దీగా ఉండే పరిసరాలలో మరియు వివిధ స్థానాల్లో సంగ్రహించబడ్డాయి. Pascal3D+ PASCAL VOC 12 డేటాసెట్ నుండి తీసుకోబడిన 2012 దృఢమైన ఆబ్జెక్ట్ వర్గాలను కలిగి ఉంది.
ఈ అంశాలు వాటిపై భంగిమ సమాచారాన్ని గుర్తు పెట్టాయి (అజిమత్, ఎలివేషన్ మరియు కెమెరాకు దూరం). Pascal3D+ ఈ 12 వర్గాలలోని ImageNet సేకరణ నుండి పోజ్-ఉల్లేఖన ఫోటోలను అదనంగా కలిగి ఉంటుంది.
<span style="font-family: arial; ">10</span> జంతువుల ముఖ వికృత నమూనాలు
ఫేషియల్ డిఫార్మబుల్ మోడల్స్ ఆఫ్ యానిమల్స్ (FDMA) ప్రాజెక్ట్ యొక్క లక్ష్యం మానవ ముఖ ల్యాండ్మార్క్ ఐడెంటిఫికేషన్ మరియు ట్రాకింగ్లో ప్రస్తుత పద్దతులను సవాలు చేయడం మరియు జంతు ముఖ లక్షణాల లక్షణం అయిన చాలా పెద్ద వైవిధ్యంతో వ్యవహరించగల కొత్త అల్గారిథమ్లను అభివృద్ధి చేయడం.
ప్రాజెక్ట్ యొక్క అల్గారిథమ్లు ముఖ భావోద్వేగాలు లేదా స్థానాల్లో మార్పులు, పాక్షిక మూసివేతలు మరియు లైటింగ్ల ద్వారా ప్రేరేపించబడిన వ్యత్యాసాలతో వ్యవహరించేటప్పుడు మానవ ముఖాలపై మైలురాళ్లను గుర్తించే మరియు ట్రాక్ చేసే సామర్థ్యాన్ని ప్రదర్శించాయి.
<span style="font-family: arial; ">10</span> MPII హ్యూమన్ పోస్ట్ డేటాసెట్
MPII హ్యూమన్ పోజ్ డేటాసెట్ దాదాపు 25K ఫోటోలను కలిగి ఉంది, వీటిలో 15K శిక్షణ నమూనాలు, 3K ధ్రువీకరణ నమూనాలు మరియు 7K నమూనాలను పరీక్షిస్తున్నాయి.
స్థానాలు మాన్యువల్గా 16 శారీరక కీళ్లతో లేబుల్ చేయబడ్డాయి మరియు 410 వివిధ మానవ కార్యకలాపాలను కవర్ చేసే YouTube ఫిల్మ్ల నుండి ఫోటోగ్రాఫ్లు తీసుకోబడ్డాయి.
<span style="font-family: arial; ">10</span> UCF101
UCF101 డేటాసెట్లో 13,320 వీడియో క్లిప్లు 101 వర్గాలుగా నిర్వహించబడ్డాయి. ఈ 101 వర్గాలు ఐదు విభాగాలుగా విభజించబడ్డాయి: శారీరక కదలికలు, మానవ-మానవ పరస్పర చర్యలు, మానవ-వస్తు పరస్పర చర్యలు, సంగీత వాయిద్యం ప్లే మరియు క్రీడలు.
వీడియోలు YouTube నుండి మరియు 27 గంటల నిడివిని కలిగి ఉంటాయి.
<span style="font-family: arial; ">10</span> ఆడియోసెట్
ఆడియోసెట్ అనేది 2 మిలియన్లకు పైగా మానవ-ఉల్లేఖన 10-సెకన్ల వీడియో విభాగాలతో రూపొందించబడిన ఆడియో ఈవెంట్ డేటాసెట్. ఈ డేటాను ఉల్లేఖించడానికి, 632 ఈవెంట్ రకాలను కలిగి ఉన్న క్రమానుగత ఒంటాలజీ ఉపయోగించబడుతుంది, ఇది అదే ధ్వనిని విభిన్నంగా లేబుల్ చేయవచ్చని సూచిస్తుంది.
<span style="font-family: arial; ">10</span> స్టాన్ఫోర్డ్ నేచురల్ లాంగ్వేజ్ ఇన్ఫరెన్స్
SNLI డేటాసెట్ (స్టాన్ఫోర్డ్ నేచురల్ లాంగ్వేజ్ ఇన్ఫరెన్స్) 570k వాక్య జతలను కలిగి ఉంది, అవి మాన్యువల్గా ఎన్టైల్మెంట్, వైరుధ్యం లేదా తటస్థంగా వర్గీకరించబడ్డాయి.
ఆవరణలు Flickr30k చిత్ర వివరణలు, అయితే పరికల్పనలు క్రౌడ్-సోర్స్డ్ ఉల్లేఖనాలచే అభివృద్ధి చేయబడ్డాయి, వీరికి ఒక ఆవరణ అందించబడింది మరియు వాటికి సంబంధించిన, విరుద్ధమైన మరియు తటస్థ ప్రకటనలను రూపొందించమని సూచించబడింది.
<span style="font-family: arial; ">10</span> విజువల్ ప్రశ్న సమాధానం
విజువల్ క్వశ్చన్ ఆన్సరింగ్ (VQA) అనేది చిత్రాలకు సంబంధించి ఓపెన్-ఎండ్ ప్రశ్నలను కలిగి ఉన్న డేటాసెట్. ఈ ప్రశ్నలకు సమాధానమివ్వడానికి, మీరు దృష్టి, భాష మరియు ఇంగితజ్ఞానాన్ని గ్రహించాలి.
ముగింపు
మెషీన్ లెర్నింగ్ మరియు ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ (AI) ఆచరణాత్మకంగా ప్రతి వ్యాపారంలో మరియు మన దైనందిన జీవితంలో మరింత ప్రబలంగా మారడంతో, ఈ అంశంపై అందుబాటులో ఉన్న వనరులు మరియు సమాచారం సంఖ్య కూడా పెరుగుతుంది.
రెడీమేడ్ పబ్లిక్ డేటాసెట్లు AI మోడల్లను అభివృద్ధి చేయడానికి గొప్ప ప్రారంభ బిందువును అందిస్తాయి, అదే సమయంలో అనుభవజ్ఞులైన ML ప్రోగ్రామర్లు సమయాన్ని ఆదా చేయడానికి మరియు వారి ప్రాజెక్ట్లలోని ఇతర అంశాలపై దృష్టి పెట్టడానికి అనుమతిస్తాయి.
సమాధానం ఇవ్వూ