સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]
- 1. CelebFaces એટ્રિબ્યુટ્સ ડેટાસેટ
- 2. DOTA
- 3. Google ચહેરાના અભિવ્યક્તિ સરખામણી ડેટાસેટ
- 4. વિઝ્યુઅલ જીનોમ
- 5. લિબ્રી સ્પીચ
- 6. શહેરની જગ્યાઓ
- 7. ગતિશાસ્ત્ર ડેટાસેટ
- 8. CelebAMask-HQ
- 9. પેન ટ્રીબેંક
- 10. વોક્સસેલેબ
- 11. SIXray
- 12. યુએસ અકસ્માતો
- 13. આંખના રોગની ઓળખ
- 14. હાર્ટ ડિસીઝ
- 15. CLEVR
- 16. સાર્વત્રિક અવલંબન
- 17. કિટ્ટી – 360
- 18. MOT(મલ્ટીપલ ઓબ્જેક્ટ ટ્રેકિંગ)
- 19. PASCAL 3D+
- 20. પ્રાણીઓના ચહેરાના ડિફોર્મેબલ મોડલ્સ
- 21. MPII માનવ પોસ્ટ ડેટાસેટ
- 22. UCF101
- 23. ઓડિયોસેટ
- 24. સ્ટેનફોર્ડ નેચરલ લેંગ્વેજ ઇન્ફરન્સ
- 25. વિઝ્યુઅલ પ્રશ્નના જવાબ
- ઉપસંહાર
આજકાલ, આપણામાંના મોટા ભાગના મશીન લર્નિંગ અને AI મોડલ્સ વિકસાવવા અને વર્તમાન ડેટાસેટ્સનો ઉપયોગ કરીને સમસ્યાઓને ઉકેલવા પર ધ્યાન કેન્દ્રિત કરે છે. પરંતુ પ્રથમ, આપણે ડેટાસેટ, તેનું મહત્વ અને મજબૂત AI અને ML ઉકેલો વિકસાવવામાં તેની ભૂમિકાને વ્યાખ્યાયિત કરવી જોઈએ.
આજે, અમારી પાસે ઘણા બધા ઓપન-સોર્સ ડેટાસેટ્સ છે જેના પર સંશોધન કરવા અથવા વિવિધ ક્ષેત્રોમાં વાસ્તવિક-વિશ્વની સમસ્યાઓનો સામનો કરવા માટે એપ્લિકેશન વિકસાવવા.
જો કે, ઉચ્ચ-ગુણવત્તાવાળા જથ્થાત્મક ડેટાસેટ્સની અછત ચિંતાનું કારણ છે. ડેટામાં ઘણો વધારો થયો છે અને ભવિષ્યમાં તે વધુ ઝડપી દરે વિસ્તરણ કરવાનું ચાલુ રાખશે.
આ પોસ્ટમાં, અમે મુક્તપણે ઉપલબ્ધ ડેટાસેટ્સને આવરી લઈશું જેનો તમે તમારા આગામી AI પ્રોજેક્ટને વિકસાવવા માટે ઉપયોગ કરી શકો છો.
1. CelebFaces એટ્રિબ્યુટ્સ ડેટાસેટ
CelebFaces એટ્રિબ્યુટ્સ ડેટાસેટ (CelebA) દરેક ઇમેજ માટે 200K થી વધુ સેલિબ્રિટી ફોટા અને 40 એટ્રિબ્યુટ એનોટેશન ધરાવે છે, જે તેને પ્રોજેક્ટ્સ માટે ઉત્તમ પ્રારંભિક બિંદુ બનાવે છે. ચહેરો માન્યતા, ચહેરાની શોધ, સીમાચિહ્ન (અથવા ચહેરાના ઘટક) સ્થાનિકીકરણ અને ચહેરાનું સંપાદન અને સંશ્લેષણ. વધુમાં, આ સંગ્રહમાંના ફોટામાં પોઝિશન વેરિઅન્ટ્સ અને બેકડ્રોપ ક્લટરની વિશાળ શ્રેણી છે.
2. ડોટા
DOTA (નો ડેટાસેટ ઑબ્જેક્ટ શોધ એરિયલ ફોટોઝમાં) એ ઑબ્જેક્ટ શોધ માટે મોટા પાયે ડેટાસેટ છે જેમાં 15 સામાન્ય શ્રેણીઓ (દા.ત., જહાજ, વિમાન, કાર, વગેરે), તાલીમ માટે 1411 છબીઓ અને માન્યતા માટે 458 છબીઓ શામેલ છે.
3. Google ચહેરાના અભિવ્યક્તિ સરખામણી ડેટાસેટ
Google ચહેરાના અભિવ્યક્તિ સરખામણી ડેટાસેટમાં 500,000 ચહેરાના ફોટા સહિત લગભગ 156,000 ચિત્ર ત્રિપુટીઓ છે. તે નોંધવું યોગ્ય છે કે આ ડેટાસેટમાં દરેક ત્રિપુટી ઓછામાં ઓછા છ માનવ રેટર દ્વારા ટીકા કરવામાં આવી હતી.
આ ડેટાસેટ ચહેરાના અભિવ્યક્તિ વિશ્લેષણને સંડોવતા પ્રોજેક્ટ્સ માટે ઉપયોગી છે, જેમ કે અભિવ્યક્તિ-આધારિત ચિત્ર પુનઃપ્રાપ્તિ, લાગણી વર્ગીકરણ, અભિવ્યક્તિ સંશ્લેષણ વગેરે. ડેટાસેટની ઍક્સેસ મેળવવા માટે, સંક્ષિપ્ત ફોર્મ ભરવું આવશ્યક છે.
4. વિઝ્યુઅલ જીનોમ
વિઝ્યુઅલ જિનોમમાં બહુ-પસંદગીના વાતાવરણમાં વિઝ્યુઅલ પ્રશ્નનો જવાબ આપવાનો ડેટા ઉપલબ્ધ છે. તે 101,174 મિલિયન QA જોડી સાથે 1.7 MSCOCO ફોટાઓનું બનેલું છે, જેમાં પ્રતિ છબી સરેરાશ 17 પ્રશ્નો છે.
વિઝ્યુઅલ ક્વેશ્ચન આન્સરિંગ ડેટાસેટની સરખામણીમાં, વિઝ્યુઅલ જિનોમ ડેટાસેટ છ પ્રશ્નોના પ્રકારોમાં વધુ વાજબી વિતરણ ધરાવે છે: શું, ક્યાં, ક્યારે, કોણ, શા માટે અને કેવી રીતે.
વધુમાં, વિઝ્યુઅલ જિનોમ ડેટાસેટમાં 108K ફોટાનો સમાવેશ થાય છે જેને ઑબ્જેક્ટ્સ, પ્રોપર્ટીઝ અને કનેક્શન્સ સાથે ભારે ટૅગ કરવામાં આવ્યા છે.
5. લિબ્રી સ્પીચ
LibriSpeech કોર્પસ એ LibriVox પ્રોજેક્ટમાંથી લગભગ 1,000 કલાકની ઓડિયોબુક્સનો સંગ્રહ છે. મોટાભાગની ઑડિયોબુક્સ પ્રોજેક્ટ ગુટેનબર્ગમાંથી ઉદ્દભવે છે.
તાલીમ ડેટાને 100hr, 360hr અને 500hr સેટના ત્રણ પાર્ટિશનમાં વિભાજિત કરવામાં આવે છે, જ્યારે ડેવ અને ટેસ્ટ ડેટા લગભગ 5hr ઑડિયો લંબાઈમાં હોય છે.
6. શહેરની જગ્યાઓ
શહેરી દૃશ્યો સાથેના સ્ટીરિયો વિડિયોના સૌથી જાણીતા મોટા પાયે ડેટાબેઝમાંનું એક ધ સિટીસ્કેપ્સ કહેવાય છે.
પિક્સેલ-સચોટ ટીકાઓ સાથે જેમાં GPS સ્થાનો, આઉટડોર તાપમાન, અહંકાર-મોશન ડેટા અને યોગ્ય સ્ટીરિયો પરિપ્રેક્ષ્યનો સમાવેશ થાય છે, તેમાં 50 અલગ-અલગ જર્મન શહેરોના રેકોર્ડિંગ્સનો સમાવેશ થાય છે.
7. ગતિશાસ્ત્ર ડેટાસેટ
મોટા પાયે અને સારી ગુણવત્તા સાથે માનવીય પ્રવૃત્તિને ઓળખવા માટેના સૌથી જાણીતા વિડિયો ડેટાસેટ્સ પૈકી એક છે કાઇનેટિક્સ ડેટાસેટ. દરેક 600 માનવ પ્રવૃત્તિ વર્ગો માટે ઓછામાં ઓછી 600 વિડિઓ ક્લિપ્સ છે, જે કુલ 500,000 થી વધુ છે.
ફિલ્મો YouTube પરથી ખેંચી લેવામાં આવી હતી; દરેક એક લગભગ 10 સેકન્ડ લાંબો છે અને તેમાં ફક્ત એક પ્રવૃત્તિ વર્ગ સૂચિબદ્ધ છે.
8. CelebAMask-HQ
CelebAMask-HQ એ 30,000 ઉચ્ચ-રિઝોલ્યુશન ચહેરાના ફોટાઓનો સંગ્રહ છે જેમાં કાળજીપૂર્વક ટીકા કરેલ માસ્ક અને 19 વર્ગો છે જેમાં ચહેરાના ઘટકો જેવા કે ત્વચા, નાક, આંખો, ભમર, કાન, મોં, હોઠ, વાળ, ટોપી, ચશ્મા, કાનની બુટ્ટી, ગળાનો હાર, ગરદન, સામગ્રી.
ડેટાસેટનો ઉપયોગ ફેસ જનરેટીંગ અને એડિટીંગ અલ્ગોરિધમ્સ માટે ફેસ રેકગ્નિશન, ફેસ પાર્સિંગ અને GAN ને ચકાસવા અને તાલીમ આપવા માટે કરી શકાય છે.
9. પેન ટ્રીબેંક
સિક્વન્સ ટૅગિંગ માટેના મૉડલ્સના મૂલ્યાંકન માટે સૌથી વધુ નોંધપાત્ર અને વારંવાર ઉપયોગમાં લેવાતું કૉર્પોરા એ ઇંગ્લિશ પેન ટ્રીબૅન્ક (PTB) કૉર્પસ છે, ખાસ કરીને વૉલ સ્ટ્રીટ જર્નલના લેખોને અનુરૂપ કૉર્પસનો ભાગ.
દરેક શબ્દમાં તેના ભાષણનો ભાગ કાર્યના ઘટક તરીકે ટૅગ થયેલ હોવો જોઈએ. અક્ષર-સ્તર અને શબ્દ-સ્તર ભાષા મોડેલિંગ કોર્પસનો પણ વારંવાર ઉપયોગ કરે છે.
10. વોક્સસેલેબ
VoxCeleb એ મોટા પાયે વાણી ઓળખ ડેટાસેટ છે જે આપમેળે જનરેટ થાય છે ઓપન સોર્સ મીડિયા. VoxCeleb પાસે 6k સ્પીકર્સમાંથી એક મિલિયનથી વધુ ઉચ્ચારણ છે.
ડેટાસેટમાં ઓડિયો-વિઝ્યુઅલનો સમાવેશ થતો હોવાથી, તેનો ઉપયોગ વિઝ્યુઅલ સ્પીચ સિન્થેસિસ, સ્પીચ સેપરેશન, ક્રોસ-મોડલ ટ્રાન્સફર, ફેસથી વૉઇસ અથવા તેનાથી વિપરીત, અને વર્તમાન ચહેરા ઓળખને પૂરક બનાવવા માટે વિડિયોમાંથી ફેસ રેકગ્નિશનની તાલીમ સહિત વિવિધ વધારાની એપ્લિકેશનો માટે ઉપયોગ કરી શકાય છે. ડેટાસેટ્સ
11. સિક્સરે
SIXray ડેટાસેટમાં 1,059,231 એક્સ-રે ચિત્રોનો સમાવેશ થાય છે જે સબવે સ્ટેશનોમાંથી એકત્ર કરવામાં આવે છે અને છ મુખ્ય પ્રકારની પ્રતિબંધિત વસ્તુઓને શોધવા માટે માનવ સુરક્ષા નિરીક્ષકો દ્વારા ટીકા કરે છે: પિસ્તોલ, છરીઓ, રેન્ચ, પેઇર, કાતર અને હથોડી. વધુમાં, ઑબ્જેક્ટ સ્થાનિકીકરણની કામગીરીનું મૂલ્યાંકન કરવા માટે દરેક નામંજૂર આઇટમ માટે બાઉન્ડિંગ બૉક્સ મેન્યુઅલી પરીક્ષણ સેટમાં ઉમેરવામાં આવ્યા છે.
12. યુએસ અકસ્માતો
પ્રોજેક્ટનો પદાર્થ ડેટાસેટના નામ દ્વારા પહેલેથી જ જાહેર કરવામાં આવ્યો છે, યુએસ અકસ્માતો. રાષ્ટ્રવ્યાપી ઓટોમોબાઈલ અકસ્માતો પરના આ ડેટાસેટમાં ફેબ્રુઆરી 2016 થી ડિસેમ્બર 2021 સુધીની માહિતીનો સમાવેશ થાય છે અને યુએસએના 49 રાજ્યોને આવરી લે છે.
અંદાજે 1.5 મિલિયન અકસ્માત રેકોર્ડ્સ હવે આ સંગ્રહમાં હાજર છે. તે ઘણા ટ્રાફિક API નો ઉપયોગ કરીને રીઅલ-ટાઇમમાં એકત્રિત કરવામાં આવ્યું હતું.
આ APIs ટ્રાફિક કેમેરા, કાયદા અમલીકરણ સંસ્થાઓ અને યુ.એસ. અને રાજ્યના પરિવહન વિભાગો સહિત વિવિધ સ્ત્રોતોમાંથી એકત્ર કરાયેલી ટ્રાફિક માહિતીનું પ્રસારણ કરે છે.
13. આંખના રોગની ઓળખ
ઓક્યુલર ડિસીઝ ઈન્ટેલિજન્ટ રેકગ્નિશન (ODIR)માં 5,000 દર્દીઓની ઉંમર, તેમની ડાબી અને જમણી આંખોમાં ફન્ડસનો રંગ અને મેડિકલ પ્રોફેશનલ્સના ડાયગ્નોસ્ટિક કીવર્ડનો સમાવેશ થાય છે.
આ ડેટાસેટ ચીનની વિવિધ હોસ્પિટલો અને તબીબી સુવિધાઓમાંથી દર્દીના ડેટાનો વાસ્તવિક સંગ્રહ છે જે શાંગગોંગ મેડિકલ ટેક્નોલોજી કંપની લિમિટેડ દ્વારા હસ્તગત કરવામાં આવ્યો છે. સાથે ગુણવત્તા નિયંત્રણ વ્યવસ્થાપન, ટીકા કુશળ માનવ વાચકો દ્વારા ટેગ કરવામાં આવી હતી.
14. હૃદય રોગ
આ હાર્ટ ડિસીઝ ડેટાસેટ દર્દીમાં 76 પેરામીટર જેમ કે ઉંમર, લિંગ, છાતીમાં દુખાવો, આરામનું બ્લડ પ્રેશર વગેરેના આધારે હૃદય રોગના અસ્તિત્વને ઓળખવામાં મદદ કરે છે.
303 કેસ સાથે, ડેટાબેઝ બીમારીના અસ્તિત્વ (મૂલ્ય 1,2,3,4)ને તેની ગેરહાજરી (મૂલ્ય 0) થી અલગ પાડવાનો પ્રયત્ન કરે છે.
15. CLEVR
CLEVR ડેટાસેટ (કમ્પોઝિશનલ લેંગ્વેજ એન્ડ એલિમેન્ટરી વિઝ્યુઅલ રિઝનિંગ) વિઝ્યુઅલ ક્વેશ્ચન આન્સરિંગની નકલ કરે છે. તેમાં 3D-રેન્ડર કરેલ ઑબ્જેક્ટના ફોટોગ્રાફ્સનો સમાવેશ થાય છે, જેમાં દરેક ફોટોગ્રાફ સાથે ઘણી શ્રેણીઓમાં વિભાજિત અત્યંત રચનાત્મક પ્રશ્નોની શ્રેણી હોય છે.
તમામ ટ્રેન અને માન્યતા ચિત્રો અને પ્રશ્નો માટે, ડેટાસેટમાં 70,000 ફોટોગ્રાફ્સ અને 700,000 તાલીમ માટે પ્રશ્નો, 15,000 છબીઓ અને માન્યતા માટે 150,000 પ્રશ્નો, અને 15,000 છબીઓ અને 150,000 પ્રશ્નોનો સમાવેશ થાય છે જેમાં ઑબ્જેક્ટ્સ અને ફંક્શન પ્રોગ્રામ્સ, ગ્રાફિક પ્રોગ્રામ્સનો સમાવેશ થાય છે.
16. સાર્વત્રિક અવલંબન
યુનિવર્સલ ડિપેન્ડન્સીઝ (UD) પ્રોજેક્ટનો ઉદ્દેશ ઘણી ભાષાઓ માટે ક્રોસ-ભાષાકીય રીતે એકસમાન મોર્ફોલોજી અને સિન્ટેક્સ ટ્રીબેંક એનોટેશન બનાવવાનો છે. વર્ઝન 2.7, જે 2020 માં રિલીઝ થયું હતું, તેમાં 183 ભાષાઓમાં 104 ટ્રીબેન્ક છે.
એનોટેશન સાર્વત્રિક POW ટૅગ્સ, અવલંબન હેડ અને સાર્વત્રિક નિર્ભરતા લેબલ્સથી બનેલું છે.
17. કિટ્ટી - 360
મોબાઇલ રોબોટ્સ માટે સૌથી વધુ ઉપયોગમાં લેવાતા ડેટાસેટ્સમાંથી એક અને સ્વાયત્ત ડ્રાઇવિંગ KITTI (કાર્લ્સરુહે ઇન્સ્ટિટ્યૂટ ઑફ ટેક્નોલોજી અને ટોયોટા ટેક્નોલોજીકલ ઇન્સ્ટિટ્યૂટ) છે.
તે કલાકોના મૂલ્યના ટ્રાફિક દૃશ્યોથી બનેલું છે જે ઉચ્ચ-રિઝોલ્યુશન RGB, ગ્રેસ્કેલ સ્ટીરિયો અને 3D લેસર સ્કેનર કેમેરા જેવી સેન્સર મોડલિટીની શ્રેણીનો ઉપયોગ કરીને કેપ્ચર કરવામાં આવ્યું હતું. ઘણા સંશોધકો દ્વારા સમયાંતરે ડેટાસેટમાં સુધારો કરવામાં આવ્યો છે જેમણે તેમની જરૂરિયાતોને અનુરૂપ તેના વિવિધ ભાગોને મેન્યુઅલી ટીકા કર્યા છે.
18. MOT(મલ્ટીપલ ઓબ્જેક્ટ ટ્રેકિંગ)
MOT (મલ્ટીપલ ઑબ્જેક્ટ ટ્રેકિંગ) એ બહુવિધ ઑબ્જેક્ટ ટ્રૅકિંગ માટેનો ડેટાસેટ છે જેમાં જાહેર સ્થળોની અંદર અને બહારના દૃશ્યોનો સમાવેશ થાય છે જેમાં રાહદારીઓને રસના ઑબ્જેક્ટ તરીકે શામેલ કરવામાં આવે છે. દરેક દ્રશ્યના વિડિયોને બે ભાગમાં વિભાજિત કરવામાં આવે છે, એક તાલીમ માટે અને બીજો પરીક્ષણ માટે.
ડેટાસેટ સમાવેશ થાય છે ઑબ્જેક્ટ શોધ ત્રણ ડિટેક્ટરનો ઉપયોગ કરીને વિડિયો ફ્રેમ્સમાં: SDP, Faster-RCNN અને DPM.
19. PASCAL 3D+
Pascal3D+ મલ્ટી-વ્યુ ડેટાસેટ જંગલીમાં એકત્રિત કરાયેલ ફોટોગ્રાફ્સથી બનેલો છે, એટલે કે, ઉચ્ચ પરિવર્તનશીલતા સાથેની આઇટમ કેટેગરીની છબીઓ, અનિયંત્રિત સંજોગોમાં, ભીડવાળા વાતાવરણમાં અને વિવિધ સ્થિતિઓમાં કેપ્ચર કરવામાં આવી છે. Pascal3D+ માં PASCAL VOC 12 ડેટાસેટમાંથી દોરવામાં આવેલી 2012 સખત ઑબ્જેક્ટ કેટેગરીઝનો સમાવેશ થાય છે.
આ આઇટમ્સમાં પોસ્ચર માહિતી તેમના પર ચિહ્નિત હોય છે (એઝિમુથ, એલિવેશન અને કેમેરાનું અંતર). Pascal3D+ વધુમાં આ 12 કેટેગરીમાં ઇમેજનેટ કલેક્શનમાંથી પોઝ-એનોટેટેડ ફોટાનો સમાવેશ કરે છે.
20. પ્રાણીઓના ચહેરાના ડિફોર્મેબલ મોડલ્સ
ફેશિયલ ડિફોર્મેબલ મોડલ્સ ઓફ એનિમલ્સ (FDMA) પ્રોજેક્ટનો ધ્યેય માનવ ચહેરાના સીમાચિહ્ન ઓળખ અને ટ્રેકિંગમાં વર્તમાન પદ્ધતિઓને પડકારવાનો અને નવા એલ્ગોરિધમ્સ વિકસાવવાનો છે જે પ્રાણીઓના ચહેરાના લક્ષણોની લાક્ષણિકતા ધરાવતા નોંધપાત્ર પ્રમાણમાં મોટી પરિવર્તનશીલતા સાથે વ્યવહાર કરી શકે છે.
પ્રોજેક્ટના એલ્ગોરિધમ્સે ચહેરાની લાગણીઓ અથવા સ્થિતિ, આંશિક અવરોધો અને લાઇટિંગમાં ફેરફાર દ્વારા પ્રેરિત ભિન્નતા સાથે કામ કરતી વખતે માનવ ચહેરા પરના સીમાચિહ્નોને ઓળખવાની અને ટ્રેક કરવાની ક્ષમતા દર્શાવી હતી.
21. MPII માનવ પોસ્ટ ડેટાસેટ
MPII હ્યુમન પોઝ ડેટાસેટ લગભગ 25K ફોટા ધરાવે છે, જેમાંથી 15K તાલીમ નમૂનાઓ છે, જેમાંથી 3K માન્યતા નમૂનાઓ છે, અને જેમાંથી 7K પરીક્ષણ નમૂનાઓ છે.
સ્થિતિઓને 16 જેટલા શારીરિક સાંધાઓ સાથે મેન્યુઅલી લેબલ કરવામાં આવે છે, અને ફોટોગ્રાફ્સ 410 વિવિધ માનવ પ્રવૃત્તિઓને આવરી લેતી YouTube ફિલ્મોમાંથી લેવામાં આવે છે.
22. યુસીએફ 101
UCF101 ડેટાસેટમાં 13,320 શ્રેણીઓમાં સંગઠિત 101 વિડિયો ક્લિપ્સ છે. આ 101 શ્રેણીઓને પાંચ શ્રેણીઓમાં વિભાજિત કરવામાં આવી છે: શારીરિક હલનચલન, માનવ-માનવ ક્રિયાપ્રતિક્રિયાઓ, માનવ-વસ્તુની ક્રિયાપ્રતિક્રિયાઓ, સંગીતનાં સાધન વગાડવું અને રમતગમત.
વીડિયો યુટ્યુબ પરથી છે અને તેમાં 27 કલાકનો સમયગાળો છે.
23. ઓડિયોસેટ
ઑડિયોસેટ એ ઑડિઓ ઇવેન્ટ ડેટાસેટ છે જે 2 મિલિયનથી વધુ માનવ-એનોટેટેડ 10-સેકન્ડ વિડિઓ સેગમેન્ટ્સથી બનેલો છે. આ ડેટાની ટીકા કરવા માટે, 632 ઈવેન્ટ પ્રકારો સમાવતા એક અધિક્રમિક ઓન્ટોલોજીનો ઉપયોગ કરવામાં આવે છે, જે સૂચવે છે કે સમાન અવાજને અલગ રીતે લેબલ કરવામાં આવી શકે છે.
24. સ્ટેનફોર્ડ નેચરલ લેંગ્વેજ ઇન્ફરન્સ
SNLI ડેટાસેટ (સ્ટેનફોર્ડ નેચરલ લેંગ્વેજ ઇન્ફરન્સ) 570k વાક્ય જોડી ધરાવે છે જેને મેન્યુઅલી એન્ટેઇલમેન્ટ, કોન્ટ્રાડિક્શન અથવા ન્યુટ્રલ તરીકે વર્ગીકૃત કરવામાં આવી છે.
પરિસર એ Flickr30k ચિત્ર વર્ણનો છે, જ્યારે પૂર્વધારણાઓ ક્રાઉડ-સોર્સ્ડ એનોટેટર્સ દ્વારા વિકસાવવામાં આવી હતી જેમને એક આધાર પૂરો પાડવામાં આવ્યો હતો અને ઇન્ટેલિંગ, વિરોધાભાસી અને તટસ્થ નિવેદનો જનરેટ કરવાની સૂચના આપવામાં આવી હતી.
25. વિઝ્યુઅલ પ્રશ્નના જવાબ
વિઝ્યુઅલ ક્વેશ્ચન આન્સરિંગ (VQA) એ એક ડેટાસેટ છે જેમાં ચિત્રો સંબંધિત ખુલ્લા પ્રશ્નો હોય છે. આ પ્રશ્નોના જવાબ આપવા માટે, તમારે દ્રષ્ટિ, ભાષા અને સામાન્ય સમજને સમજવાની જરૂર છે.
ઉપસંહાર
જેમ જેમ મશીન લર્નિંગ અને આર્ટિફિશિયલ ઇન્ટેલિજન્સ (AI) વ્યવહારીક રીતે દરેક વ્યવસાયમાં અને આપણા રોજિંદા જીવનમાં વધુ પ્રચલિત થાય છે, તેમ આ વિષય પર ઉપલબ્ધ સંસાધનો અને માહિતીની સંખ્યા પણ વધે છે.
તૈયાર સાર્વજનિક ડેટાસેટ્સ એઆઈ મોડલ્સ વિકસાવવા માટે એક ઉત્તમ પ્રારંભિક બિંદુ પ્રદાન કરે છે જ્યારે અનુભવી ML પ્રોગ્રામર્સને સમય બચાવવા અને તેમના પ્રોજેક્ટ્સના અન્ય ઘટકો પર ધ્યાન કેન્દ્રિત કરવાની મંજૂરી આપે છે.
એક જવાબ છોડો