સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]
- 1. મશીન લર્નિંગ, આર્ટિફિશિયલ ઇન્ટેલિજન્સ અને ડીપ લર્નિંગ વચ્ચેના તફાવતો સમજાવો.
- 2. કૃપા કરીને મશીન લર્નિંગના વિવિધ પ્રકારોનું વર્ણન કરો.
- 3. વેરિઅન્સ ટ્રેડ-ઓફ વિરુદ્ધ પૂર્વગ્રહ શું છે?
- 4. સમય જતાં મશીન લર્નિંગ અલ્ગોરિધમ્સ નોંધપાત્ર રીતે વિકસિત થયા છે. આપેલ ડેટા સેટનો ઉપયોગ કરવા માટે કોઈ યોગ્ય અલ્ગોરિધમ કેવી રીતે પસંદ કરે છે?
- 5. સહપ્રવાહ અને સહસંબંધ કેવી રીતે અલગ પડે છે?
- 6. મશીન લર્નિંગમાં, ક્લસ્ટરિંગનો અર્થ શું થાય છે?
- 7. તમારું મનપસંદ મશીન લર્નિંગ અલ્ગોરિધમ શું છે?
- 8. મશીન લર્નિંગમાં લીનિયર રીગ્રેશન: તે શું છે?
- 9. KNN અને k-મીન્સ ક્લસ્ટરીંગ વચ્ચેના તફાવતોનું વર્ણન કરો.
- 10. તમારા માટે "પસંદગી પૂર્વગ્રહ" નો અર્થ શું છે?
- 11. બેયસનું પ્રમેય બરાબર શું છે?
- 12. મશીન લર્નિંગ મોડલમાં, 'ટ્રેનિંગ સેટ' અને 'ટેસ્ટ સેટ' શું છે?
- 13. મશીન લર્નિંગમાં પૂર્વધારણા શું છે?
- 14. મશીન લર્નિંગ ઓવરફિટિંગનો અર્થ શું થાય છે અને તેને કેવી રીતે અટકાવી શકાય?
- 15. નિષ્કપટ બેઝ વર્ગીકૃત બરાબર શું છે?
- 16. ખર્ચ કાર્યો અને નુકશાન કાર્યોનો અર્થ શું થાય છે?
- 17. ભેદભાવપૂર્ણ મોડેલથી જનરેટિવ મોડલને શું અલગ પાડે છે?
- 18. પ્રકાર I અને પ્રકાર II ભૂલો વચ્ચેના તફાવતોનું વર્ણન કરો.
- 19. મશીન લર્નિંગમાં, એન્સેમ્બલ લર્નિંગ ટેકનિક શું છે?
- 20. પેરામેટ્રિક મોડલ્સ બરાબર શું છે? એક દાખલો આપો.
- 21. સહયોગી ફિલ્ટરિંગનું વર્ણન કરો. તેમજ સામગ્રી-આધારિત ફિલ્ટરિંગ?
- 22. ટાઈમ સિરીઝ દ્વારા તમારો અર્થ શું છે?
- 23. ગ્રેડિયન્ટ બૂસ્ટિંગ અને રેન્ડમ ફોરેસ્ટ એલ્ગોરિધમ્સ વચ્ચેની વિવિધતાઓનું વર્ણન કરો.
- 24. શા માટે તમારે મૂંઝવણ મેટ્રિક્સની જરૂર છે? આ શુ છે?
- 25. સિદ્ધાંત ઘટક વિશ્લેષણ બરાબર શું છે?
- 26. પીસીએ (મુખ્ય ઘટક વિશ્લેષણ) માટે ઘટકનું પરિભ્રમણ શા માટે એટલું નિર્ણાયક છે?
- 27. રેગ્યુલરાઇઝેશન અને નોર્મલાઇઝેશન એકબીજાથી કેવી રીતે અલગ પડે છે?
- 28. સામાન્યીકરણ અને માનકીકરણ એકબીજાથી કેવી રીતે અલગ છે?
- 29. "વિચલન ફુગાવાના પરિબળ" નો અર્થ શું થાય છે?
- 30. તાલીમ સમૂહના કદના આધારે, તમે વર્ગીકૃત કેવી રીતે પસંદ કરશો?
- 31. મશીન લર્નિંગમાં કયા અલ્ગોરિધમને "આળસુ શીખનાર" તરીકે ઓળખવામાં આવે છે અને શા માટે?
- 32. આરઓસી કર્વ અને એયુસી શું છે?
- 33. હાયપરપેરામીટર્સ શું છે? શું તેમને મોડેલ પરિમાણોથી અનન્ય બનાવે છે?
- 34. F1 સ્કોર, રિકોલ અને ચોકસાઇનો અર્થ શું થાય છે?
- 35. ક્રોસ-વેલિડેશન બરાબર શું છે?
- 36. ધારો કે તમે શોધ્યું છે કે તમારા મોડેલમાં નોંધપાત્ર તફાવત છે. તમારા મતે, આ પરિસ્થિતિને નિયંત્રિત કરવા માટે કયું અલ્ગોરિધમ સૌથી વધુ યોગ્ય છે?
- 37. રીજ રીગ્રેશનને લાસો રીગ્રેશનથી શું અલગ પાડે છે?
- 38. કયું વધુ મહત્વનું છે: મોડેલ પ્રદર્શન અથવા મોડેલ ચોકસાઈ? તમે કયું અને શા માટે તેની તરફેણ કરશો?
- 39. તમે અસમાનતા સાથે ડેટાસેટનું સંચાલન કેવી રીતે કરશો?
- 40. તમે બુસ્ટિંગ અને બેગિંગ વચ્ચે કેવી રીતે તફાવત કરી શકો છો?
- 41. ઇન્ડક્ટિવ અને ડિડક્ટિવ લર્નિંગ વચ્ચેના તફાવતો સમજાવો.
- ઉપસંહાર
વ્યક્તિઓ માટે માહિતી અને સેવાઓની સુલભતા વધારવા માટે વ્યવસાયો કૃત્રિમ બુદ્ધિમત્તા (AI) અને મશીન લર્નિંગ જેવી અત્યાધુનિક ટેકનોલોજીનો ઉપયોગ કરી રહ્યાં છે.
બેન્કિંગ, ફાઇનાન્સ, રિટેલ, મેન્યુફેક્ચરિંગ અને હેલ્થકેર સહિત વિવિધ ઉદ્યોગો દ્વારા આ તકનીકો અપનાવવામાં આવી રહી છે.
AI નો ઉપયોગ કરતી સંસ્થાકીય ભૂમિકાઓમાંની એક સૌથી વધુ માંગવામાં આવતી ભૂમિકા ડેટા વૈજ્ઞાનિકો, આર્ટિફિશિયલ ઇન્ટેલિજન્સ એન્જિનિયર્સ, મશીન લર્નિંગ એન્જિનિયર્સ અને ડેટા વિશ્લેષકો માટે છે.
આ પોસ્ટ તમને વિવિધમાંથી પસાર થશે મશીન શિક્ષણ ઇન્ટરવ્યુ પ્રશ્નો, મૂળભૂતથી જટિલ સુધી, તમારી આદર્શ નોકરીની શોધ કરતી વખતે તમને પૂછવામાં આવતા કોઈપણ પ્રશ્નો માટે તૈયાર થવામાં મદદ કરવા માટે.
1. મશીન લર્નિંગ, આર્ટિફિશિયલ ઇન્ટેલિજન્સ અને ડીપ લર્નિંગ વચ્ચેના તફાવતો સમજાવો.
આર્ટિફિશિયલ ઇન્ટેલિજન્સ વિવિધ પ્રકારના મશીન લર્નિંગ અને ડીપ લર્નિંગ અભિગમોને રોજગારી આપે છે જે કોમ્પ્યુટર સિસ્ટમને તર્ક અને નિયમો સાથે માનવ જેવી બુદ્ધિનો ઉપયોગ કરીને કાર્યો કરવા દે છે.
મશીન લર્નિંગ વિવિધ આંકડાઓ અને ડીપ લર્નિંગ અભિગમોનો ઉપયોગ કરે છે જેથી મશીનો તેમના અગાઉના પ્રદર્શનમાંથી શીખી શકે અને માનવ દેખરેખ વિના અમુક કાર્યો જાતે કરવામાં વધુ પારંગત બને.
ડીપ લર્નિંગ એ એલ્ગોરિધમ્સનો સંગ્રહ છે જે સોફ્ટવેરને પોતાની પાસેથી શીખવાની અને વૉઇસ અને પિક્ચર રેકગ્નિશન જેવા વિવિધ વ્યાપારી કાર્યો કરવા દે છે.
સિસ્ટમો કે જે તેમના બહુસ્તરીયને છતી કરે છે ન્યુરલ નેટવર્ક્સ શીખવા માટેના વિશાળ પ્રમાણમાં ડેટા ડીપ લર્નિંગ કરવા સક્ષમ છે.
2. કૃપા કરીને મશીન લર્નિંગના વિવિધ પ્રકારોનું વર્ણન કરો.
મશીન લર્નિંગ ત્રણ અલગ અલગ પ્રકારોમાં વ્યાપકપણે અસ્તિત્વ ધરાવે છે:
- સુપરવાઇઝ્ડ લર્નિંગ: મૉડલ નિરીક્ષણ કરેલ મશીન લર્નિંગમાં લેબલ અથવા ઐતિહાસિક ડેટાનો ઉપયોગ કરીને આગાહીઓ અથવા નિર્ણયો બનાવે છે. ડેટા સેટ્સ કે જેનો અર્થ વધારવા માટે ટેગ અથવા લેબલ કરવામાં આવ્યા હોય તેને લેબલ ડેટા તરીકે ઓળખવામાં આવે છે.
- દેખરેખ વિનાનું શિક્ષણ: અમારી પાસે દેખરેખ વિનાના શિક્ષણ માટે લેબલ થયેલ ડેટા નથી. આવનારા ડેટામાં, મોડેલ પેટર્ન, વિચિત્રતા અને સહસંબંધ શોધી શકે છે.
- મજબૂતીકરણ શિક્ષણ: મોડેલ કરી શકે છે મજબૂતીકરણનો ઉપયોગ કરીને શીખો શીખવું અને તેના અગાઉના વર્તન માટે તેને મળેલા પુરસ્કારો.
3. વેરિઅન્સ ટ્રેડ-ઓફ વિરુદ્ધ પૂર્વગ્રહ શું છે?
ઓવરફિટિંગ એ પૂર્વગ્રહનું પરિણામ છે, જે તે ડિગ્રી છે કે જેમાં મોડેલ ડેટાને બંધબેસે છે. પૂર્વગ્રહ તમારામાં ખોટી અથવા ખૂબ સરળ ધારણાઓને કારણે થાય છે મશીન લર્નિંગ અલ્ગોરિધમ.
ભિન્નતા એ તમારા ML અલ્ગોરિધમમાં જટિલતાને કારણે થયેલી ભૂલોનો સંદર્ભ આપે છે, જે તાલીમ ડેટા અને ઓવરફિટિંગમાં મોટી માત્રામાં ભિન્નતા પ્રત્યે સંવેદનશીલતા પેદા કરે છે.
ભિન્નતા એ છે કે ઇનપુટ્સ પર આધારિત મોડેલ કેટલું બદલાય છે.
બીજા શબ્દોમાં કહીએ તો, મૂળભૂત મોડેલો અત્યંત પક્ષપાતી છતાં સ્થિર (નીચા વિચલન) છે. જટિલ મોડલ્સમાં ઓવરફિટિંગ એ એક સમસ્યા છે, જો કે તેમ છતાં તેઓ મોડલની વાસ્તવિકતા (નીચા પૂર્વગ્રહ)ને પકડે છે.
ઉચ્ચ ભિન્નતા અને ઉચ્ચ પૂર્વગ્રહ બંનેને રોકવા માટે, શ્રેષ્ઠ ભૂલ ઘટાડા માટે પૂર્વગ્રહ અને ભિન્નતા વચ્ચે ટ્રેડ-ઓફ જરૂરી છે.
4. સમય જતાં મશીન લર્નિંગ અલ્ગોરિધમ્સ નોંધપાત્ર રીતે વિકસિત થયા છે. આપેલ ડેટા સેટનો ઉપયોગ કરવા માટે કોઈ યોગ્ય અલ્ગોરિધમ કેવી રીતે પસંદ કરે છે?
મશીન લર્નિંગ ટેકનિક જેનો ઉપયોગ થવો જોઈએ તે ચોક્કસ ડેટાસેટમાંના ડેટાના પ્રકાર પર જ આધાર રાખે છે.
જ્યારે ડેટા રેખીય હોય છે, ત્યારે રેખીય રીગ્રેશનનો ઉપયોગ થાય છે. જો ડેટા બિન-રેખીયતા દર્શાવે છે તો બેગિંગ પદ્ધતિ વધુ સારું પ્રદર્શન કરશે. જો વેપારી હેતુઓ માટે ડેટાનું મૂલ્યાંકન અથવા અર્થઘટન કરવું હોય તો અમે નિર્ણય ટ્રી અથવા SVM નો ઉપયોગ કરી શકીએ છીએ.
જો ડેટાસેટમાં ફોટા, વિડિયો અને ઑડિયો શામેલ હોય તો ન્યુરલ નેટવર્ક સચોટ જવાબ મેળવવા માટે ઉપયોગી થઈ શકે છે.
ચોક્કસ સંજોગો અથવા ડેટાના સંગ્રહ માટે અલ્ગોરિધમની પસંદગી માત્ર એક માપદંડ પર કરી શકાતી નથી.
શ્રેષ્ઠ યોગ્ય પદ્ધતિ વિકસાવવાના ઉદ્દેશ્ય માટે, આપણે સૌપ્રથમ સંશોધનાત્મક ડેટા વિશ્લેષણ (EDA) નો ઉપયોગ કરીને ડેટાની તપાસ કરવી જોઈએ અને ડેટાસેટનો ઉપયોગ કરવાના લક્ષ્યને સમજવું જોઈએ.
5. સહપ્રવાહ અને સહસંબંધ કેવી રીતે અલગ પડે છે?
સહપ્રવૃત્તિ મૂલ્યાંકન કરે છે કે કેવી રીતે બે ચલ એકબીજા સાથે જોડાયેલા છે અને એક બીજામાં ફેરફારના પ્રતિભાવમાં કેવી રીતે બદલાઈ શકે છે.
જો પરિણામ સકારાત્મક છે, તો તે સૂચવે છે કે ચલો વચ્ચે સીધો સંબંધ છે અને તે બેઝ વેરીએબલમાં વધારો અથવા ઘટાડો સાથે વધશે અથવા ઘટશે, એમ ધારીને કે અન્ય તમામ સ્થિતિઓ સ્થિર રહે છે.
સહસંબંધ બે રેન્ડમ ચલો વચ્ચેની લિંકને માપે છે અને તેમાં માત્ર ત્રણ અલગ-અલગ મૂલ્યો છે: 1, 0 અને -1.
6. મશીન લર્નિંગમાં, ક્લસ્ટરિંગનો અર્થ શું થાય છે?
અસુરક્ષિત શિક્ષણ પદ્ધતિઓ કે જે ડેટા પોઈન્ટને એકસાથે જૂથબદ્ધ કરે છે તેને ક્લસ્ટરીંગ કહેવામાં આવે છે. ડેટા પોઈન્ટના સંગ્રહ સાથે, ક્લસ્ટરિંગ તકનીક લાગુ કરી શકાય છે.
તમે આ વ્યૂહરચનાનો ઉપયોગ કરીને તમામ ડેટા પોઇન્ટ્સને તેમના કાર્યો અનુસાર જૂથબદ્ધ કરી શકો છો.
સમાન કેટેગરીમાં આવતા ડેટા પોઈન્ટની વિશેષતાઓ અને ગુણો સમાન હોય છે, જ્યારે અલગ-અલગ જૂથોમાં આવતા ડેટા પોઈન્ટના લક્ષણો અલગ હોય છે.
આ અભિગમનો ઉપયોગ આંકડાકીય માહિતીનું વિશ્લેષણ કરવા માટે થઈ શકે છે.
7. તમારું મનપસંદ મશીન લર્નિંગ અલ્ગોરિધમ શું છે?
તમારી પાસે આ પ્રશ્નમાં તમારી પસંદગીઓ અને અનન્ય પ્રતિભા દર્શાવવાની તક છે, તેમજ અસંખ્ય મશીન લર્નિંગ તકનીકોનું તમારું વ્યાપક જ્ઞાન છે.
વિચારવા માટે અહીં કેટલાક વિશિષ્ટ મશીન લર્નિંગ અલ્ગોરિધમ્સ છે:
- રેખીય રીગ્રેસન
- લોજિસ્ટિક રીગ્રેસન
- નિષ્કપટ બેઇસ
- નિર્ણય વૃક્ષો
- કે એટલે
- રેન્ડમ ફોરેસ્ટ એલ્ગોરિધમ
- K- સૌથી નજીકનો પાડોશી (KNN)
8. મશીન લર્નિંગમાં લીનિયર રીગ્રેશન: તે શું છે?
નિરીક્ષણ કરેલ મશીન લર્નિંગ અલ્ગોરિધમ લીનિયર રીગ્રેશન છે.
આશ્રિત અને સ્વતંત્ર ચલો વચ્ચેના રેખીય જોડાણને નિર્ધારિત કરવા માટે અનુમાનિત વિશ્લેષણમાં તેનો ઉપયોગ કરવામાં આવે છે.
લીનિયર રીગ્રેશનનું સમીકરણ નીચે મુજબ છે:
Y = A + BX
જ્યાં:
- ઇનપુટ અથવા સ્વતંત્ર ચલને X કહેવામાં આવે છે.
- આશ્રિત અથવા આઉટપુટ ચલ Y છે.
- X નો ગુણાંક b છે, અને તેનો ઇન્ટરસેપ્ટ a છે.
9. KNN અને k-મીન્સ ક્લસ્ટરીંગ વચ્ચેના તફાવતોનું વર્ણન કરો.
પ્રાથમિક ભેદ એ છે કે KNN (એક વર્ગીકરણ પદ્ધતિ, દેખરેખ કરાયેલ શિક્ષણ) ને લેબલવાળા બિંદુઓની જરૂર છે જ્યારે k-નો અર્થ નથી (ક્લસ્ટરિંગ અલ્ગોરિધમ, અસુપરવાઇઝ્ડ લર્નિંગ).
તમે K-નજીકના પડોશીઓનો ઉપયોગ કરીને લેબલ થયેલ ડેટાને લેબલ વગરના બિંદુમાં વર્ગીકૃત કરી શકો છો. K- એટલે કે ક્લસ્ટરિંગ એ લેબલ વગરના પોઈન્ટને કેવી રીતે જૂથબદ્ધ કરવું તે જાણવા માટે પોઈન્ટ વચ્ચેના સરેરાશ અંતરનો ઉપયોગ કરે છે.
10. તમારા માટે "પસંદગી પૂર્વગ્રહ" નો અર્થ શું છે?
પ્રયોગના નમૂનાના તબક્કામાં પૂર્વગ્રહ આંકડાકીય અચોક્કસતાને કારણે છે.
અચોક્કસતાના પરિણામે એક નમૂના જૂથને પ્રયોગમાં અન્ય જૂથો કરતાં વધુ વાર પસંદ કરવામાં આવે છે.
જો પસંદગીના પૂર્વગ્રહને સ્વીકારવામાં ન આવે, તો તે ખોટા નિષ્કર્ષમાં પરિણમી શકે છે.
11. બેયસનું પ્રમેય બરાબર શું છે?
જ્યારે આપણે અન્ય સંભાવનાઓથી વાકેફ હોઈએ છીએ, ત્યારે આપણે બેયસના પ્રમેયનો ઉપયોગ કરીને સંભાવના નક્કી કરી શકીએ છીએ. તે અન્ય શબ્દોમાં, અગાઉની માહિતીના આધારે ઘટનાની પાછળની સંભાવના પ્રદાન કરે છે.
આ પ્રમેય દ્વારા શરતી સંભાવનાઓનો અંદાજ કાઢવા માટે એક સાઉન્ડ પદ્ધતિ પ્રદાન કરવામાં આવી છે.
વર્ગીકરણ અનુમાનિત મોડેલિંગ સમસ્યાઓ વિકસાવતી વખતે અને મોડેલને તાલીમમાં ફિટ કરતી વખતે મશીન લર્નિંગમાં ડેટાસેટ, બેયસનું પ્રમેય લાગુ કરવામાં આવે છે (એટલે કે નિષ્કપટ બેઝ, બેઝ શ્રેષ્ઠ વર્ગીકૃત).
12. મશીન લર્નિંગ મોડલમાં, 'ટ્રેનિંગ સેટ' અને 'ટેસ્ટ સેટ' શું છે?
તાલીમ સમૂહ:
- તાલીમ સમૂહમાં એવા દાખલાઓ હોય છે જે વિશ્લેષણ અને શીખવા માટે મોડેલને મોકલવામાં આવે છે.
- આ લેબલ થયેલ ડેટા છે જેનો ઉપયોગ મોડેલને તાલીમ આપવા માટે કરવામાં આવશે.
- સામાન્ય રીતે, કુલ ડેટાના 70%નો ઉપયોગ તાલીમ ડેટાસેટ તરીકે થાય છે.
ટેસ્ટ સેટ:
- પરીક્ષણ સમૂહનો ઉપયોગ મોડેલની પૂર્વધારણા પેઢીની ચોકસાઈનું મૂલ્યાંકન કરવા માટે થાય છે.
- અમે લેબલવાળા ડેટા વિના પરીક્ષણ કરીએ છીએ અને પછી પરિણામોની પુષ્ટિ કરવા માટે લેબલનો ઉપયોગ કરીએ છીએ.
- બાકીના 30% નો ઉપયોગ ટેસ્ટ ડેટાસેટ તરીકે થાય છે.
13. મશીન લર્નિંગમાં પૂર્વધારણા શું છે?
મશીન લર્નિંગ આપેલ કાર્યને વધુ સારી રીતે સમજવા માટે હાલના ડેટાસેટ્સનો ઉપયોગ સક્ષમ કરે છે જે ઇનપુટને આઉટપુટ સાથે જોડે છે. આ ફંક્શન એપ્રોક્સિમેશન તરીકે ઓળખાય છે.
આ કિસ્સામાં, આપેલ પરિસ્થિતિના આધારે તમામ કલ્પનાશીલ અવલોકનોને શક્ય તેટલી શ્રેષ્ઠ રીતે સ્થાનાંતરિત કરવા માટે અજ્ઞાત લક્ષ્ય કાર્ય માટે અંદાજનો ઉપયોગ કરવો આવશ્યક છે.
મશીન લર્નિંગમાં, પૂર્વધારણા એ એક મોડેલ છે જે લક્ષ્ય કાર્યનો અંદાજ કાઢવામાં અને યોગ્ય ઇનપુટ-ટુ-આઉટપુટ મેપિંગ્સને પૂર્ણ કરવામાં સહાય કરે છે.
અલ્ગોરિધમ્સની પસંદગી અને ડિઝાઇન સંભવિત પૂર્વધારણાઓની જગ્યાની વ્યાખ્યા માટે પરવાનગી આપે છે જે મોડેલ દ્વારા રજૂ કરી શકાય છે.
એક જ પૂર્વધારણા માટે, લોઅરકેસ h (h) નો ઉપયોગ થાય છે, પરંતુ કેપિટલ h (H) નો ઉપયોગ સમગ્ર પૂર્વધારણા જગ્યા માટે થાય છે જે શોધાઈ રહી છે. અમે સંક્ષિપ્તમાં આ સંકેતોની સમીક્ષા કરીશું:
- પૂર્વધારણા (h) એ એક વિશિષ્ટ મોડેલ છે જે ઇનપુટને આઉટપુટના મેપિંગની સુવિધા આપે છે, જેનો ઉપયોગ પછીથી મૂલ્યાંકન અને આગાહી માટે થઈ શકે છે.
- પૂર્વધારણા સમૂહ (H) એ પૂર્વધારણાઓની શોધી શકાય તેવી જગ્યા છે જેનો ઉપયોગ આઉટપુટમાં ઇનપુટ્સને મેપ કરવા માટે કરી શકાય છે. ઇશ્યૂ ફ્રેમિંગ, મોડલ અને મોડલ રૂપરેખાંકન સામાન્ય મર્યાદાઓના થોડા ઉદાહરણો છે.
14. મશીન લર્નિંગ ઓવરફિટિંગનો અર્થ શું થાય છે અને તેને કેવી રીતે અટકાવી શકાય?
જ્યારે મશીન અપૂરતા ડેટાસેટમાંથી શીખવાનો પ્રયાસ કરે છે, ત્યારે ઓવરફિટિંગ થાય છે.
પરિણામે, ઓવરફિટિંગ ડેટા વોલ્યુમ સાથે વિપરીત રીતે સંબંધિત છે. ક્રોસ-વેલિડેશન અભિગમ નાના ડેટાસેટ્સ માટે ઓવરફિટિંગ ટાળવા માટે પરવાનગી આપે છે. આ પદ્ધતિમાં ડેટાસેટને બે ભાગોમાં વિભાજિત કરવામાં આવે છે.
પરીક્ષણ અને તાલીમ માટેના ડેટાસેટમાં આ બે ભાગોનો સમાવેશ થશે. તાલીમ ડેટાસેટનો ઉપયોગ મોડેલ બનાવવા માટે થાય છે, જ્યારે પરીક્ષણ ડેટાસેટનો ઉપયોગ વિવિધ ઇનપુટ્સનો ઉપયોગ કરીને મોડેલનું મૂલ્યાંકન કરવા માટે થાય છે.
આ રીતે ઓવરફિટિંગથી બચવું.
15. નિષ્કપટ બેઝ વર્ગીકૃત બરાબર શું છે?
વિવિધ વર્ગીકરણ પદ્ધતિઓ નેઇવ બેઇઝ ક્લાસિફાયર બનાવે છે. આ વર્ગીકૃત તરીકે ઓળખાતા અલ્ગોરિધમનો સમૂહ એક જ મૂળભૂત વિચાર પર કામ કરે છે.
નિષ્કપટ બેયસ વર્ગીકરણકર્તાઓ દ્વારા કરવામાં આવેલી ધારણા એ છે કે એક લક્ષણની હાજરી અથવા ગેરહાજરી અન્ય વિશેષતાની હાજરી અથવા ગેરહાજરી પર કોઈ અસર કરતી નથી.
બીજા શબ્દોમાં કહીએ તો, આને આપણે "નિષ્કપટ" તરીકે ઓળખીએ છીએ કારણ કે તે ધારણા કરે છે કે દરેક ડેટાસેટ વિશેષતા સમાન રીતે નોંધપાત્ર અને સ્વતંત્ર છે.
નિષ્કપટ બેયસ વર્ગીકરણનો ઉપયોગ કરીને વર્ગીકરણ કરવામાં આવે છે. તેઓ વાપરવા માટે સરળ છે અને જ્યારે સ્વતંત્રતાનો આધાર સાચો હોય ત્યારે વધુ જટિલ અનુમાનો કરતાં વધુ સારા પરિણામો આપે છે.
ટેક્સ્ટ વિશ્લેષણ, સ્પામ ફિલ્ટરિંગ અને ભલામણ પ્રણાલીઓમાં, તેઓ કાર્યરત છે.
16. ખર્ચ કાર્યો અને નુકશાન કાર્યોનો અર્થ શું થાય છે?
"લોસ ફંક્શન" વાક્ય એ કમ્પ્યુટિંગ નુકશાનની પ્રક્રિયાનો ઉલ્લેખ કરે છે જ્યારે ડેટાનો માત્ર એક ભાગ ધ્યાનમાં લેવામાં આવે છે.
તેનાથી વિપરીત, અમે અસંખ્ય ડેટા માટે ભૂલોની કુલ રકમ નક્કી કરવા માટે ખર્ચ કાર્યનો ઉપયોગ કરીએ છીએ. કોઈ નોંધપાત્ર તફાવત અસ્તિત્વમાં નથી.
બીજા શબ્દોમાં કહીએ તો, જ્યારે કોસ્ટ ફંક્શન્સ સમગ્ર તાલીમ ડેટાસેટ માટેના તફાવતને એકંદર કરે છે, ત્યારે નુકશાન કાર્યો એક રેકોર્ડ માટે વાસ્તવિક અને અનુમાનિત મૂલ્યો વચ્ચેના તફાવતને મેળવવા માટે રચાયેલ છે.
17. ભેદભાવપૂર્ણ મોડેલથી જનરેટિવ મોડલને શું અલગ પાડે છે?
એક ભેદભાવપૂર્ણ મોડેલ અનેક ડેટા શ્રેણીઓ વચ્ચેના તફાવતો શીખે છે. જનરેટિવ મોડલ વિવિધ ડેટા પ્રકારો પર પસંદ કરે છે.
વર્ગીકરણની સમસ્યાઓ પર, ભેદભાવપૂર્ણ મોડેલો ઘણીવાર અન્ય મોડલ કરતાં વધુ પ્રદર્શન કરે છે.
18. પ્રકાર I અને પ્રકાર II ભૂલો વચ્ચેના તફાવતોનું વર્ણન કરો.
ખોટા હકારાત્મક પ્રકાર I ભૂલોની શ્રેણી હેઠળ આવે છે, જ્યારે ખોટા નકારાત્મક પ્રકાર II ભૂલો હેઠળ આવે છે (જ્યારે તે વાસ્તવમાં હોય ત્યારે કંઈ થયું નથી એવો દાવો કરવો).
19. મશીન લર્નિંગમાં, એન્સેમ્બલ લર્નિંગ ટેકનિક શું છે?
એન્સેમ્બલ લર્નિંગ નામની ટેકનિક વધુ શક્તિશાળી મોડલ્સ બનાવવા માટે ઘણા મશીન લર્નિંગ મોડલ્સને મિશ્રિત કરે છે.
એક મોડેલ વિવિધ કારણોસર વૈવિધ્યસભર હોઈ શકે છે. કેટલાક કારણો છે:
- વિવિધ વસ્તી
- વિવિધ પૂર્વધારણાઓ
- વિવિધ મોડેલિંગ પદ્ધતિઓ
અમે મોડેલની તાલીમ અને પરીક્ષણ ડેટાનો ઉપયોગ કરતી વખતે સમસ્યાનો સામનો કરીશું. પૂર્વગ્રહ, ભિન્નતા અને અફર કરી શકાય તેવી ભૂલ આ ભૂલના સંભવિત પ્રકારો છે.
હવે, અમે મોડેલમાં પૂર્વગ્રહ અને ભિન્નતા વચ્ચેના આ સંતુલનને બાયસ-વેરિઅન્સ ટ્રેડ-ઓફ કહીએ છીએ, અને તે હંમેશા અસ્તિત્વમાં હોવું જોઈએ. આ ટ્રેડ-ઓફ એસેમ્બલ લર્નિંગના ઉપયોગ દ્વારા પરિપૂર્ણ થાય છે.
જો કે ત્યાં વિવિધ એસેમ્બલ અભિગમો ઉપલબ્ધ છે, ઘણા મોડેલોને જોડવા માટે બે સામાન્ય વ્યૂહરચના છે:
- બેગિંગ નામનો મૂળ અભિગમ વધારાના તાલીમ સેટ બનાવવા માટે તાલીમ સમૂહનો ઉપયોગ કરે છે.
- બૂસ્ટિંગ, વધુ અત્યાધુનિક તકનીક: બેગિંગની જેમ, બૂસ્ટિંગનો ઉપયોગ તાલીમ સમૂહ માટે આદર્શ વજન સૂત્ર શોધવા માટે થાય છે.
20. પેરામેટ્રિક મોડલ્સ બરાબર શું છે? એક દાખલો આપો.
પેરામેટ્રિક મોડલ્સમાં મર્યાદિત માત્રામાં પરિમાણો છે. ડેટાની આગાહી કરવા માટે, તમારે ફક્ત મોડેલના પરિમાણો જાણવાની જરૂર છે.
નીચેના લાક્ષણિક ઉદાહરણો છે: લોજિસ્ટિક રીગ્રેસન, રેખીય રીગ્રેશન અને લીનિયર એસવીએમ. નોન-પેરામેટ્રિક મોડલ્સ લવચીક હોય છે કારણ કે તેમાં અમર્યાદિત સંખ્યામાં પરિમાણો હોઈ શકે છે.
ડેટા અનુમાનો માટે મોડેલના પરિમાણો અને અવલોકન કરેલ ડેટાની સ્થિતિ જરૂરી છે. અહીં કેટલાક લાક્ષણિક ઉદાહરણો છે: વિષય મોડેલો, નિર્ણય વૃક્ષો, અને k-નજીકના પડોશીઓ.
21. સહયોગી ફિલ્ટરિંગનું વર્ણન કરો. તેમજ સામગ્રી-આધારિત ફિલ્ટરિંગ?
અનુરૂપ સામગ્રી સૂચનો બનાવવા માટેની અજમાવી અને સાચી પદ્ધતિ એ સહયોગી ફિલ્ટરિંગ છે.
કોલાબોરેટિવ ફિલ્ટરિંગ નામની ભલામણ પ્રણાલીનું એક સ્વરૂપ વપરાશકર્તાની પસંદગીઓને સહિયારી રુચિઓ સાથે સંતુલિત કરીને નવી સામગ્રીની આગાહી કરે છે.
વપરાશકર્તા પસંદગીઓ એ એકમાત્ર વસ્તુ છે જે સામગ્રી-આધારિત ભલામણ સિસ્ટમો ધ્યાનમાં લે છે. વપરાશકર્તાની અગાઉની પસંદગીઓના પ્રકાશમાં, સંબંધિત સામગ્રીમાંથી નવી ભલામણો આપવામાં આવે છે.
22. ટાઈમ સિરીઝ દ્વારા તમારો અર્થ શું છે?
સમય શ્રેણી એ ચડતા ક્રમમાં સંખ્યાઓનો સંગ્રહ છે. પૂર્વનિર્ધારિત સમયગાળા દરમિયાન, તે પસંદ કરેલા ડેટા પોઈન્ટની હિલચાલ પર નજર રાખે છે અને સમયાંતરે ડેટા પોઈન્ટને કેપ્ચર કરે છે.
સમય શ્રેણી માટે કોઈ લઘુત્તમ અથવા મહત્તમ સમય ઇનપુટ નથી.
વિશ્લેષકો દ્વારા તેમની અનન્ય આવશ્યકતાઓ અનુસાર ડેટાનું વિશ્લેષણ કરવા માટે સમય શ્રેણીનો વારંવાર ઉપયોગ કરવામાં આવે છે.
23. ગ્રેડિયન્ટ બૂસ્ટિંગ અને રેન્ડમ ફોરેસ્ટ એલ્ગોરિધમ્સ વચ્ચેની વિવિધતાઓનું વર્ણન કરો.
રેન્ડમ ફોરેસ્ટ:
- મોટી સંખ્યામાં નિર્ણય વૃક્ષો છેડે એકસાથે ભેગા થાય છે અને રેન્ડમ ફોરેસ્ટ તરીકે ઓળખાય છે.
- જ્યારે ગ્રેડિયન્ટ બૂસ્ટિંગ દરેક વૃક્ષને અન્ય કરતા સ્વતંત્ર રીતે ઉત્પન્ન કરે છે, ત્યારે રેન્ડમ ફોરેસ્ટ દરેક વૃક્ષને એક સમયે એક બનાવે છે.
- મલ્ટીક્લાસ ઑબ્જેક્ટ શોધ રેન્ડમ જંગલો સાથે સારી રીતે કામ કરે છે.
ગ્રેડિયન્ટ બૂસ્ટિંગ:
- જ્યારે રેન્ડમ જંગલો પ્રક્રિયાના અંતે નિર્ણય વૃક્ષો સાથે જોડાય છે, ત્યારે ગ્રેડિયન્ટ બુસ્ટિંગ મશીનો તેમને શરૂઆતથી જ જોડે છે.
- જો પરિમાણોને યોગ્ય રીતે ગોઠવવામાં આવ્યા હોય, તો ગ્રેડિયન્ટ બૂસ્ટિંગ પરિણામોની દ્રષ્ટિએ રેન્ડમ ફોરેસ્ટને આઉટપર્ફોર્મ કરે છે, પરંતુ જો ડેટા સેટમાં ઘણા બધા આઉટલાયર્સ, વિસંગતતાઓ અથવા ઘોંઘાટ હોય તો તે એક સ્માર્ટ પસંદગી નથી કારણ કે તે મોડેલને ઓવરફિટ થવાનું કારણ બની શકે છે.
- જ્યારે અસંતુલિત ડેટા હોય છે, કારણ કે રીઅલ-ટાઇમ જોખમ મૂલ્યાંકન હોય છે, ત્યારે ગ્રેડિયન્ટ બૂસ્ટિંગ સારું પ્રદર્શન કરે છે.
24. શા માટે તમારે મૂંઝવણ મેટ્રિક્સની જરૂર છે? આ શુ છે?
કન્ફ્યુઝન મેટ્રિક્સ તરીકે ઓળખાતું ટેબલ, કેટલીકવાર એરર મેટ્રિક્સ તરીકે ઓળખાય છે, તે બતાવવા માટે વ્યાપકપણે ઉપયોગમાં લેવાય છે કે વર્ગીકરણ મોડેલ, અથવા વર્ગીકૃત, પરીક્ષણ ડેટાના સમૂહ પર કેટલું સારું પ્રદર્શન કરે છે જેના માટે વાસ્તવિક મૂલ્યો જાણીતા છે.
તે અમને મોડેલ અથવા અલ્ગોરિધમ કેવી રીતે કાર્ય કરે છે તે જોવા માટે સક્ષમ બનાવે છે. તે આપણા માટે વિવિધ અભ્યાસક્રમો વચ્ચે ગેરસમજણો શોધવાનું સરળ બનાવે છે.
તે મોડેલ અથવા એલ્ગોરિધમ કેટલું સારું પ્રદર્શન કરે છે તેનું મૂલ્યાંકન કરવાની રીત તરીકે સેવા આપે છે.
વર્ગીકરણ મોડેલની આગાહીઓ મૂંઝવણ મેટ્રિક્સમાં સંકલિત કરવામાં આવે છે. સાચા અને ખોટા અનુમાનોની કુલ સંખ્યાને તોડવા માટે દરેક વર્ગના લેબલના ગણતરી મૂલ્યોનો ઉપયોગ કરવામાં આવ્યો હતો.
તે ક્લાસિફાયર દ્વારા કરવામાં આવેલી ખામીઓ તેમજ ક્લાસિફાયર દ્વારા થતી વિવિધ પ્રકારની ભૂલોની વિગતો પ્રદાન કરે છે.
25. સિદ્ધાંત ઘટક વિશ્લેષણ બરાબર શું છે?
એક બીજા સાથે સહસંબંધ ધરાવતા ચલોની સંખ્યા ઘટાડીને, ધ્યેય ડેટા સંગ્રહની પરિમાણીયતાને ઘટાડવાનો છે. પરંતુ શક્ય તેટલી વિવિધતાને જાળવી રાખવી મહત્વપૂર્ણ છે.
ચલોને મુખ્ય ઘટકો તરીકે ઓળખાતા ચલોના સંપૂર્ણ નવા સમૂહમાં બદલવામાં આવે છે.
આ પીસી ઓર્થોગોનલ છે કારણ કે તે કોવેરિયન્સ મેટ્રિક્સના ઇજેનવેક્ટર છે.
26. પીસીએ (મુખ્ય ઘટક વિશ્લેષણ) માટે ઘટકનું પરિભ્રમણ શા માટે એટલું નિર્ણાયક છે?
PCA માં પરિભ્રમણ નિર્ણાયક છે કારણ કે તે દરેક ઘટક દ્વારા મેળવેલ ભિન્નતા વચ્ચેના વિભાજનને શ્રેષ્ઠ બનાવે છે, ઘટક અર્થઘટનને સરળ બનાવે છે.
જો ઘટકો ફેરવવામાં ન આવે તો ઘટક વિવિધતા વ્યક્ત કરવા માટે અમને વિસ્તૃત ઘટકોની જરૂર છે.
27. રેગ્યુલરાઇઝેશન અને નોર્મલાઇઝેશન એકબીજાથી કેવી રીતે અલગ પડે છે?
સામાન્યીકરણ:
નોર્મલાઇઝેશન દરમિયાન ડેટા બદલાય છે. તમારે ડેટાને સામાન્ય બનાવવો જોઈએ જો તેમાં ભીંગડા ખૂબ જ અલગ હોય, ખાસ કરીને નીચાથી ઊંચા સુધી. દરેક કૉલમને સમાયોજિત કરો જેથી કરીને મૂળભૂત આંકડા બધા સુસંગત હોય.
સુનિશ્ચિત કરવા માટે કે ચોકસાઇની કોઈ ખોટ નથી, આ ઉપયોગી થઈ શકે છે. ઘોંઘાટની અવગણના કરતી વખતે સિગ્નલને શોધી કાઢવું એ મોડેલ તાલીમનો એક ઉદ્દેશ્ય છે.
જો મોડેલને ભૂલ ઘટાડવા માટે સંપૂર્ણ નિયંત્રણ આપવામાં આવે તો ઓવરફિટિંગની તક છે.
નિયમિતતા:
નિયમિતીકરણમાં, આગાહી કાર્યમાં ફેરફાર કરવામાં આવે છે. આ નિયમિતીકરણ દ્વારા કેટલાક નિયંત્રણને આધીન છે, જે જટિલ કાર્યો કરતાં સરળ ફિટિંગ કાર્યોની તરફેણ કરે છે.
28. સામાન્યીકરણ અને માનકીકરણ એકબીજાથી કેવી રીતે અલગ છે?
ફીચર સ્કેલિંગ માટે બે સૌથી વધુ ઉપયોગમાં લેવાતી તકનીકો નોર્મલાઇઝેશન અને સ્ટાન્ડર્ડાઇઝેશન છે.
સામાન્યીકરણ:
- [0,1] શ્રેણીને અનુરૂપ ડેટાનું પુનઃસ્કેલ કરવું એ નોર્મલાઇઝેશન તરીકે ઓળખાય છે.
- જ્યારે બધા પરિમાણો સમાન હકારાત્મક સ્કેલ હોવા જોઈએ, ત્યારે સામાન્યીકરણ મદદરૂપ થાય છે, પરંતુ ડેટા સેટના આઉટલાયર ખોવાઈ જાય છે.
નિયમિતતા:
- માનકીકરણ પ્રક્રિયાના ભાગ રૂપે ડેટાને 0 નો સરેરાશ અને 1 નું પ્રમાણભૂત વિચલન રાખવા માટે પુનઃસ્કેલ કરવામાં આવે છે (એકમ વિચલન)
29. "વિચલન ફુગાવાના પરિબળ" નો અર્થ શું થાય છે?
માત્ર એક સ્વતંત્ર ચલ સાથેના મોડલના ભિન્નતાના ગુણોત્તરને વિવિધતા ફુગાવાના પરિબળ (VIF) તરીકે ઓળખવામાં આવે છે.
VIF કેટલાક રીગ્રેસન ચલોના સમૂહમાં હાજર મલ્ટિકોલિનિયરિટીનો અંદાજ કાઢે છે.
એક સ્વતંત્ર વેરિયેબલ વેરિએન્સ સાથે મોડલ (VIF) મોડલનું વિચલન
30. તાલીમ સમૂહના કદના આધારે, તમે વર્ગીકૃત કેવી રીતે પસંદ કરશો?
એક ઉચ્ચ પૂર્વગ્રહ, નિમ્ન વિચલન મોડલ ટૂંકા તાલીમ સેટ માટે વધુ સારું પ્રદર્શન કરે છે કારણ કે ઓવરફિટિંગની શક્યતા ઓછી હોય છે. નિષ્કપટ બેઇઝ એક ઉદાહરણ છે.
મોટા પ્રશિક્ષણ સમૂહ માટે વધુ જટિલ ક્રિયાપ્રતિક્રિયાઓનું પ્રતિનિધિત્વ કરવા માટે, નીચા પૂર્વગ્રહ અને ઉચ્ચ ભિન્નતા સાથેનું મોડેલ પ્રાધાન્યક્ષમ છે. લોજિસ્ટિક રીગ્રેશન એ એક સારું ઉદાહરણ છે.
31. મશીન લર્નિંગમાં કયા અલ્ગોરિધમને "આળસુ શીખનાર" તરીકે ઓળખવામાં આવે છે અને શા માટે?
એક સુસ્ત શીખનાર, KNN એ મશીન લર્નિંગ અલ્ગોરિધમ છે. કારણ કે K-NN પ્રશિક્ષણ ડેટામાંથી કોઈપણ મશીન-શિખેલા મૂલ્યો અથવા ચલોને શીખવાને બદલે વર્ગીકરણ કરવા ઈચ્છે ત્યારે દર વખતે અંતરની ગતિશીલ રીતે ગણતરી કરે છે, તે તાલીમ ડેટાસેટને યાદ રાખે છે.
આ K-NN ને આળસુ શીખનાર બનાવે છે.
32. આરઓસી કર્વ અને એયુસી શું છે?
તમામ થ્રેશોલ્ડ પર વર્ગીકરણ મોડેલનું પ્રદર્શન ROC વળાંક દ્વારા ગ્રાફિકલી રીતે રજૂ થાય છે. તે સાચા હકારાત્મક દર અને ખોટા હકારાત્મક દર માપદંડ ધરાવે છે.
સરળ શબ્દોમાં કહીએ તો, ROC કર્વ હેઠળનો વિસ્તાર એયુસી (આરઓસી કર્વ હેઠળનો વિસ્તાર) તરીકે ઓળખાય છે. ROC વળાંકનો (0,0) થી AUC સુધીનો દ્વિ-પરિમાણીય વિસ્તાર (1,1) માપવામાં આવે છે. દ્વિસંગી વર્ગીકરણ મોડલ્સનું મૂલ્યાંકન કરવા માટે, તે પ્રદર્શન આંકડા તરીકે કાર્યરત છે.
33. હાયપરપેરામીટર્સ શું છે? શું તેમને મોડેલ પરિમાણોથી અનન્ય બનાવે છે?
મોડેલનું આંતરિક ચલ મોડેલ પેરામીટર તરીકે ઓળખાય છે. તાલીમ ડેટાનો ઉપયોગ કરીને, પરિમાણનું મૂલ્ય અંદાજિત થાય છે.
મૉડલથી અજાણ, હાયપરપેરામીટર એ ચલ છે. ડેટામાંથી મૂલ્ય નક્કી કરી શકાતું નથી, તેથી તેઓ વારંવાર મોડેલ પરિમાણોની ગણતરી કરવા માટે કાર્યરત છે.
34. F1 સ્કોર, રિકોલ અને ચોકસાઇનો અર્થ શું થાય છે?
મૂંઝવણ માપ એ વર્ગીકરણ મોડેલની અસરકારકતા માપવા માટે કાર્યરત મેટ્રિક છે. મૂંઝવણ મેટ્રિકને વધુ સારી રીતે સમજાવવા માટે નીચેના શબ્દસમૂહોનો ઉપયોગ કરી શકાય છે:
TP: સાચા હકારાત્મક - આ એવા હકારાત્મક મૂલ્યો છે જે યોગ્ય રીતે અપેક્ષિત હતા. તે સૂચવે છે કે અંદાજિત વર્ગ અને વાસ્તવિક વર્ગના મૂલ્યો બંને હકારાત્મક છે.
TN: સાચા નકારાત્મક- આ પ્રતિકૂળ મૂલ્યો છે જેની ચોક્કસ આગાહી કરવામાં આવી હતી. તે સૂચવે છે કે વાસ્તવિક વર્ગ અને અપેક્ષિત વર્ગનું મૂલ્ય બંને નકારાત્મક છે.
આ મૂલ્યો-ખોટા હકારાત્મક અને ખોટા નકારાત્મક-જ્યારે તમારો વાસ્તવિક વર્ગ અપેક્ષિત વર્ગથી અલગ હોય ત્યારે થાય છે.
હવે,
વાસ્તવિક વર્ગમાં કરવામાં આવેલા તમામ અવલોકનો માટે સાચા હકારાત્મક દર (TP) ના ગુણોત્તરને રિકોલ કહેવામાં આવે છે, જેને સંવેદનશીલતા તરીકે પણ ઓળખવામાં આવે છે.
રિકોલ એ TP/(TP+FN) છે.
ચોકસાઇ એ સકારાત્મક અનુમાનિત મૂલ્યનું માપ છે, જે મોડેલ ખરેખર આગાહી કરે છે તે સકારાત્મક સંખ્યાની તુલના કરે છે કે તે કેટલા સાચા ધનની ચોક્કસ આગાહી કરે છે.
ચોકસાઇ છે TP/(TP + FP)
સમજવા માટે સૌથી સરળ પ્રદર્શન મેટ્રિક એ ચોકસાઈ છે, જે તમામ અવલોકનો માટે યોગ્ય રીતે અનુમાનિત અવલોકનોનું પ્રમાણ છે.
ચોકસાઈ (TP+TN)/(TP+FP+FN+TN) ની બરાબર છે.
F1 સ્કોર પ્રદાન કરવા માટે પ્રિસિઝન અને રિકોલનું ભારણ અને સરેરાશ કરવામાં આવે છે. પરિણામે, આ સ્કોર ખોટા હકારાત્મક અને ખોટા નકારાત્મક બંનેને ધ્યાનમાં લે છે.
F1 વારંવાર ચોકસાઈ કરતાં વધુ મૂલ્યવાન હોય છે, ખાસ કરીને જો તમારી પાસે અસમાન વર્ગ વિતરણ હોય, તો પણ સાહજિક રીતે તે ચોકસાઈ જેટલું સમજવું એટલું સરળ ન હોય.
જ્યારે ખોટા હકારાત્મક અને ખોટા નકારાત્મકની કિંમત તુલનાત્મક હોય ત્યારે શ્રેષ્ઠ ચોકસાઈ પ્રાપ્ત થાય છે. જો ખોટા સકારાત્મક અને ખોટા નકારાત્મક સાથે સંકળાયેલ ખર્ચ નોંધપાત્ર રીતે અલગ હોય તો પ્રિસિઝન અને રિકોલ બંનેનો સમાવેશ કરવાનું વધુ સારું છે.
35. ક્રોસ-વેલિડેશન બરાબર શું છે?
મશીન લર્નિંગમાં ક્રોસ-વેલિડેશન તરીકે ઓળખાતો આંકડાકીય રિસેમ્પલિંગ અભિગમ ઘણા બધા રાઉન્ડમાં મશીન લર્નિંગ અલ્ગોરિધમને તાલીમ આપવા અને તેનું મૂલ્યાંકન કરવા માટે ઘણા ડેટાસેટ સબસેટ્સનો ઉપયોગ કરે છે.
ડેટાની નવી બેચ કે જેનો ઉપયોગ મોડેલને તાલીમ આપવા માટે કરવામાં આવ્યો ન હતો તે મોડેલ તેની આગાહી કેટલી સારી રીતે કરે છે તે જોવા માટે ક્રોસ-વેલિડેશનનો ઉપયોગ કરીને પરીક્ષણ કરવામાં આવે છે. ક્રોસ-વેલિડેશન દ્વારા ડેટા ઓવરફિટિંગ અટકાવવામાં આવે છે.
K-ફોલ્ડ સૌથી વધુ ઉપયોગમાં લેવાતી રિસેમ્પલિંગ પદ્ધતિ સમગ્ર ડેટાસેટને સમાન કદના K સેટમાં વિભાજિત કરે છે. તેને ક્રોસ-વેલિડેશન કહેવામાં આવે છે.
36. ધારો કે તમે શોધ્યું છે કે તમારા મોડેલમાં નોંધપાત્ર તફાવત છે. તમારા મતે, આ પરિસ્થિતિને નિયંત્રિત કરવા માટે કયું અલ્ગોરિધમ સૌથી વધુ યોગ્ય છે?
ઉચ્ચ પરિવર્તનશીલતાનું સંચાલન
મોટા ફેરફારો સાથે સમસ્યાઓ માટે આપણે બેગિંગ તકનીકનો ઉપયોગ કરવો જોઈએ.
ડેટાને પેટાજૂથોમાં વિભાજીત કરવા માટે બેગિંગ અલ્ગોરિધમ દ્વારા રેન્ડમ ડેટાના પુનરાવર્તિત નમૂનાનો ઉપયોગ કરવામાં આવશે. એકવાર ડેટા વિભાજિત થઈ ગયા પછી, અમે નિયમો બનાવવા માટે રેન્ડમ ડેટા અને ચોક્કસ તાલીમ પ્રક્રિયાનો ઉપયોગ કરી શકીએ છીએ.
તે પછી, મતદાનનો ઉપયોગ મોડેલની આગાહીઓને જોડવા માટે થઈ શકે છે.
37. રીજ રીગ્રેશનને લાસો રીગ્રેશનથી શું અલગ પાડે છે?
બે વ્યાપકપણે ઉપયોગમાં લેવાતી નિયમિતીકરણ પદ્ધતિઓ છે લાસો (જેને L1 પણ કહેવાય છે) અને રિજ (ક્યારેક L2 કહેવાય છે) રીગ્રેશન. તેનો ઉપયોગ ડેટાના ઓવરફિટિંગને રોકવા માટે થાય છે.
શ્રેષ્ઠ ઉકેલ શોધવા અને જટિલતાને ઘટાડવા માટે, આ તકનીકોનો ઉપયોગ ગુણાંકને સજા કરવા માટે કરવામાં આવે છે. ગુણાંકના સંપૂર્ણ મૂલ્યોના કુલને દંડ કરીને, લાસો રીગ્રેશન કાર્ય કરે છે.
રિજ અથવા L2 રીગ્રેશનમાં પેનલ્ટી ફંક્શન ગુણાંકના વર્ગોના સરવાળામાંથી મેળવવામાં આવે છે.
38. કયું વધુ મહત્વનું છે: મોડેલ પ્રદર્શન અથવા મોડેલ ચોકસાઈ? તમે કયું અને શા માટે તેની તરફેણ કરશો?
આ એક ભ્રામક પ્રશ્ન છે, આમ સૌપ્રથમ એ સમજવું જોઈએ કે મોડેલ પરફોર્મન્સ શું છે. જો પ્રદર્શનને ઝડપ તરીકે વ્યાખ્યાયિત કરવામાં આવે છે, તો તે એપ્લિકેશનના પ્રકાર પર આધાર રાખે છે; રીઅલ-ટાઇમ પરિસ્થિતિ સાથે સંકળાયેલી કોઈપણ એપ્લિકેશનને નિર્ણાયક ઘટક તરીકે ઉચ્ચ ગતિની જરૂર પડશે.
દાખલા તરીકે, જો ક્વેરી પરિણામો આવવામાં ઘણો સમય લાગે તો શ્રેષ્ઠ શોધ પરિણામો ઓછા મૂલ્યવાન બનશે.
જો પર્ફોર્મન્સનો ઉપયોગ સચોટતા અને રિકોલને ચોકસાઈથી ઉપર શા માટે અગ્રતા આપવો જોઈએ તે માટે વાજબીતા તરીકે ઉપયોગ કરવામાં આવે છે, તો કોઈપણ ડેટા સેટ જે અસંતુલિત હોય તેના વ્યવસાય કેસને દર્શાવવા માટે F1 સ્કોર સચોટતા કરતાં વધુ ઉપયોગી થશે.
39. તમે અસમાનતા સાથે ડેટાસેટનું સંચાલન કેવી રીતે કરશો?
અસંતુલિત ડેટાસેટ સેમ્પલિંગ તકનીકોથી લાભ મેળવી શકે છે. સેમ્પલિંગ અંડર અથવા ઓવર સેમ્પલ ફેશનમાં કરી શકાય છે.
સેમ્પલિંગ હેઠળ અમને લઘુમતી વર્ગ સાથે મેચ કરવા માટે બહુમતી વર્ગના કદને સંકોચવાની મંજૂરી આપે છે, જે સ્ટોરેજ અને રન-ટાઇમ એક્ઝિક્યુશનના સંદર્ભમાં ઝડપ વધારવામાં મદદ કરે છે પરંતુ મૂલ્યવાન ડેટાના નુકસાનમાં પણ પરિણમી શકે છે.
ઓવરસેમ્પલિંગને કારણે થતી માહિતીની ખોટના મુદ્દાને ઉકેલવા માટે, અમે લઘુમતી વર્ગને અપસેમ્પલ કરીએ છીએ; તેમ છતાં, આનાથી અમને ઓવરફિટિંગ સમસ્યાઓનો સામનો કરવો પડે છે.
વધારાની વ્યૂહરચનાઓ શામેલ છે:
- ક્લસ્ટર-આધારિત ઓવર સેમ્પલિંગ- આ પરિસ્થિતિમાં લઘુમતી અને બહુમતી વર્ગના દાખલાઓ વ્યક્તિગત રીતે K-મીન્સ ક્લસ્ટરિંગ તકનીકને આધિન છે. આ ડેટાસેટ ક્લસ્ટરો શોધવા માટે કરવામાં આવે છે. પછી, દરેક ક્લસ્ટરને ઓવરસેમ્પલ કરવામાં આવે છે જેથી તમામ વર્ગોનું કદ સમાન હોય અને વર્ગમાંના તમામ ક્લસ્ટરમાં સમાન સંખ્યામાં દાખલાઓ હોય.
- SMOTE: કૃત્રિમ લઘુમતી ઓવર-સેમ્પલિંગ ટેકનીક- લઘુમતી વર્ગના ડેટાનો ટુકડો ઉદાહરણ તરીકે ઉપયોગમાં લેવાય છે, જે પછી વધારાના કૃત્રિમ દાખલાઓ કે જે તેની સાથે તુલનાત્મક છે તે બનાવવામાં આવે છે અને મૂળ ડેટાસેટમાં ઉમેરવામાં આવે છે. આ પદ્ધતિ આંકડાકીય ડેટા પોઈન્ટ સાથે સારી રીતે કામ કરે છે.
40. તમે બુસ્ટિંગ અને બેગિંગ વચ્ચે કેવી રીતે તફાવત કરી શકો છો?
એન્સેમ્બલ ટેક્નિક્સમાં બેગિંગ અને બૂસ્ટિંગ તરીકે ઓળખાતી આવૃત્તિઓ છે.
બેગિંગ-
ઉચ્ચ ભિન્નતા સાથેના અલ્ગોરિધમ્સ માટે, બેગિંગ એ ભિન્નતા ઘટાડવા માટે વપરાતી તકનીક છે. વર્ગીકૃત કરનારાઓનું આવું એક કુટુંબ કે જે પક્ષપાતનું જોખમ ધરાવે છે તે નિર્ણય વૃક્ષ કુટુંબ છે.
ડેટાનો પ્રકાર કે જેના પર નિર્ણય વૃક્ષોને તાલીમ આપવામાં આવે છે તેની તેમની કામગીરી પર નોંધપાત્ર અસર પડે છે. આને કારણે, ખૂબ જ ઉચ્ચ ફાઇન-ટ્યુનિંગ સાથે પણ, પરિણામોનું સામાન્યીકરણ ક્યારેક તેમનામાં મેળવવું વધુ મુશ્કેલ છે.
જો નિર્ણય વૃક્ષોના તાલીમ ડેટામાં ફેરફાર કરવામાં આવે છે, તો પરિણામો નોંધપાત્ર રીતે બદલાય છે.
પરિણામે, બેગિંગનો ઉપયોગ કરવામાં આવે છે, જેમાં ઘણા નિર્ણય વૃક્ષો બનાવવામાં આવે છે, જેમાંથી દરેકને મૂળ ડેટાના નમૂનાનો ઉપયોગ કરીને તાલીમ આપવામાં આવે છે, અને અંતિમ પરિણામ આ તમામ વિવિધ મોડેલોની સરેરાશ છે.
બુસ્ટિંગ:
બૂસ્ટિંગ એ n-નબળા વર્ગીકૃત સિસ્ટમ સાથે આગાહી કરવાની તકનીક છે જેમાં દરેક નબળા વર્ગીકરણ તેના મજબૂત વર્ગીકરણની ખામીઓ પૂરી કરે છે. અમે એક વર્ગીકરણનો ઉલ્લેખ કરીએ છીએ જે આપેલ ડેટા સેટ પર "નબળા વર્ગીકરણ" તરીકે ખરાબ રીતે કાર્ય કરે છે.
બુસ્ટિંગ એ દેખીતી રીતે અલ્ગોરિધમને બદલે એક પ્રક્રિયા છે. લોજિસ્ટિક રીગ્રેશન અને છીછરા નિર્ણયના વૃક્ષો નબળા વર્ગીકરણના સામાન્ય ઉદાહરણો છે.
Adaboost, Gradient Boosting, અને XGBoost એ બે સૌથી લોકપ્રિય બૂસ્ટિંગ એલ્ગોરિધમ છે, જો કે, ત્યાં ઘણા વધુ છે.
41. ઇન્ડક્ટિવ અને ડિડક્ટિવ લર્નિંગ વચ્ચેના તફાવતો સમજાવો.
અવલોકન કરેલ ઉદાહરણોના સમૂહમાંથી ઉદાહરણ દ્વારા શીખતી વખતે, મોડેલ સામાન્ય નિષ્કર્ષ પર પહોંચવા માટે પ્રેરક શિક્ષણનો ઉપયોગ કરે છે. બીજી બાજુ, આનુમાનિક શિક્ષણ સાથે, મોડેલ તેની પોતાની રચના કરતા પહેલા પરિણામનો ઉપયોગ કરે છે.
પ્રેરક શિક્ષણ એ અવલોકનોમાંથી તારણો દોરવાની પ્રક્રિયા છે.
અનુમાનિત શિક્ષણ એ અનુમાનના આધારે અવલોકનો બનાવવાની પ્રક્રિયા છે.
ઉપસંહાર
અભિનંદન! મશીન લર્નિંગ માટે આ ટોચના 40 અને તેથી વધુ ઇન્ટરવ્યુ પ્રશ્નો છે જેના જવાબો હવે તમે જાણો છો. ડેટા સાયન્સ અને કૃત્રિમ બુદ્ધિ ટેક્નોલોજીની પ્રગતિ સાથે વ્યવસાયોની માંગ ચાલુ રહેશે.
ઉમેદવારો કે જેઓ આ અદ્યતન તકનીકોના તેમના જ્ઞાનને અપડેટ કરે છે અને તેમના કૌશલ્ય સમૂહને સુધારે છે તેઓ સ્પર્ધાત્મક પગાર સાથે રોજગારની વિવિધ શક્યતાઓ શોધી શકે છે.
તમે હવે ઇન્ટરવ્યુના જવાબ આપવા સાથે આગળ વધી શકો છો કારણ કે તમને વ્યાપકપણે પૂછાતા કેટલાક મશીન લર્નિંગ ઇન્ટરવ્યુ પ્રશ્નોના જવાબ કેવી રીતે આપવો તેની નક્કર સમજ છે.
તમારા લક્ષ્યો પર આધાર રાખીને, નીચેનું પગલું લો. હેશડોર્કની મુલાકાત લઈને ઇન્ટરવ્યુ માટે તૈયાર કરો ઇન્ટરવ્યુ શ્રેણી.
એક જવાબ છોડો