સામગ્રીનું કોષ્ટક[છુપાવો][બતાવો]
જો તમે પાયથોન પ્રોગ્રામર છો અથવા જો તમે પ્રોડક્શન સિસ્ટમમાં મશીન લર્નિંગ દાખલ કરવા માટે ઉપયોગમાં લેવા માટે શક્તિશાળી ટૂલકિટ શોધી રહ્યાં છો, તો સ્કિકિટ-લર્ન એ એક લાઇબ્રેરી છે જે તમારે તપાસવાની જરૂર છે.
સ્કિકિટ-લર્ન સારી રીતે દસ્તાવેજીકૃત અને ઉપયોગમાં સરળ છે, પછી ભલે તમે મશીન લર્નિંગમાં નવા હોવ, ઝડપથી ઉઠવા અને દોડવા માંગતા હો, અથવા સૌથી અદ્યતન ML સંશોધન સાધનનો ઉપયોગ કરવા માંગતા હોવ.
તે તમને કોડની માત્ર થોડી લીટીઓમાં અનુમાનિત ડેટા મોડેલ બનાવવાની મંજૂરી આપે છે અને પછી તે મોડેલનો ઉપયોગ તમારા ડેટાને ઉચ્ચ-સ્તરની લાઇબ્રેરી તરીકે અનુરૂપ કરવા માટે કરે છે. તે લવચીક છે અને અન્ય સાથે સારી રીતે કામ કરે છે પાયથોન પુસ્તકાલયો જેમ કે ચાર્ટિંગ માટે Matplotlib, એરે વેક્ટરાઇઝેશન માટે NumPy અને ડેટા વિઝ્યુલાઇઝેશન માટે પાંડા.
આ માર્ગદર્શિકામાં, તમે તેના ફાયદા અને ગેરફાયદા સાથે તે શું છે, તમે તેનો ઉપયોગ કેવી રીતે કરી શકો તે વિશે બધું જ શોધી શકશો.
શું છે સાયકિટ-લર્ન?
સ્કિકિટ-લર્ન (સ્ક્લેરન તરીકે પણ ઓળખાય છે) આંકડાકીય મૉડલ અને મશીન લર્નિંગનો વિવિધ સેટ ઑફર કરે છે. મોટાભાગના મોડ્યુલોથી વિપરીત, sklearn C ની જગ્યાએ Python માં વિકસાવવામાં આવે છે. Python માં વિકસિત હોવા છતાં, sklearn ની કાર્યક્ષમતા ઉચ્ચ-પ્રદર્શન રેખીય બીજગણિત અને એરે કામગીરી માટે NumPy ના ઉપયોગને આભારી છે.
Scikit-Learn ને Google ના સમર ઓફ કોડ પ્રોજેક્ટના ભાગ રૂપે બનાવવામાં આવ્યું હતું અને ત્યારથી સમગ્ર વિશ્વમાં લાખો પાયથોન-કેન્દ્રિત ડેટા વૈજ્ઞાનિકોના જીવનને સરળ બનાવ્યું છે. શ્રેણીનો આ વિભાગ લાઇબ્રેરીને પ્રસ્તુત કરવા અને એક તત્વ પર ધ્યાન કેન્દ્રિત કરવા પર ધ્યાન કેન્દ્રિત કરે છે - ડેટાસેટ રૂપાંતરણ, જે આગાહી મોડેલ વિકસાવતા પહેલા લેવાનું એક મુખ્ય અને મહત્વપૂર્ણ પગલું છે.
લાઇબ્રેરી SciPy (સાયન્ટિફિક પાયથોન) પર આધારિત છે, જે તમે scikit-learn નો ઉપયોગ કરી શકો તે પહેલાં તેને ઇન્સ્ટોલ કરવું આવશ્યક છે. આ સ્ટેકમાં નીચેની વસ્તુઓ શામેલ છે:
- NumPy: પાયથોનનું પ્રમાણભૂત n-પરિમાણીય એરે પેકેજ
- SciPy: તે વૈજ્ઞાનિક કમ્પ્યુટિંગ માટે મૂળભૂત પેકેજ છે
- પાંડા: ડેટા સ્ટ્રક્ચર્સ અને એનાલિસિસ
- Matplotlib: તે એક શક્તિશાળી 2D/3D પ્લોટિંગ લાઇબ્રેરી છે
- સિમ્પી: સિમ્બોલિક ગણિત
- IPython: સુધારેલ ઇન્ટરેક્ટિવ કન્સોલ
સ્કિકિટ-લર્ન લાઇબ્રેરીની એપ્લિકેશનો
સ્કિકિટ-લર્ન એ અત્યાધુનિક ડેટા વિશ્લેષણ અને ખાણકામ સુવિધાઓ સાથેનું ઓપન-સોર્સ પાયથોન પેકેજ છે. તે તમારા ડેટા સાયન્સ પ્રોજેક્ટ્સમાંથી સૌથી વધુ મેળવવામાં મદદ કરવા માટે બિલ્ટ-ઇન અલ્ગોરિધમ્સની પુષ્કળતા સાથે આવે છે. સ્કિકિટ-લર્ન લાઇબ્રેરીનો ઉપયોગ નીચેની રીતે થાય છે.
1. રીગ્રેશન
રીગ્રેસન વિશ્લેષણ એ બે અથવા વધુ ચલો વચ્ચેના જોડાણનું વિશ્લેષણ કરવા અને સમજવા માટેની આંકડાકીય તકનીક છે. રીગ્રેસન પૃથ્થકરણ કરવા માટે વપરાતી પદ્ધતિ એ નક્કી કરવામાં મદદ કરે છે કે કયા તત્વો સુસંગત છે, જેને અવગણી શકાય છે અને તેઓ કેવી રીતે ક્રિયાપ્રતિક્રિયા કરે છે. ઉદાહરણ તરીકે, રીગ્રેસન તકનીકોનો ઉપયોગ શેરના ભાવની વર્તણૂકને વધુ સારી રીતે સમજવા માટે થઈ શકે છે.
રીગ્રેસન અલ્ગોરિધમ્સમાં શામેલ છે:
- લીનિયર રીગ્રેસન
- રીજ રીગ્રેશન
- લાસો રીગ્રેસન
- નિર્ણય વૃક્ષ રીગ્રેસન
- રેન્ડમ ફોરેસ્ટ
- સપોર્ટ વેક્ટર મશીનો (SVM)
2. વર્ગીકરણ
વર્ગીકરણ પદ્ધતિ એ નિરીક્ષિત શિક્ષણનો અભિગમ છે જે તાજા અવલોકનોની શ્રેણીને ઓળખવા માટે તાલીમ ડેટાનો ઉપયોગ કરે છે. વર્ગીકરણમાં અલ્ગોરિધમ આપેલમાંથી શીખે છે ડેટાસેટ અથવા અવલોકનો અને પછી વધારાના અવલોકનોને ઘણા વર્ગો અથવા જૂથોમાંના એકમાં વર્ગીકૃત કરે છે. તેઓ, ઉદાહરણ તરીકે, ઇમેઇલ સંચારને સ્પામ તરીકે વર્ગીકૃત કરવા માટે ઉપયોગમાં લઈ શકાય છે કે નહીં.
વર્ગીકરણ અલ્ગોરિધમ્સમાં નીચેનાનો સમાવેશ થાય છે:
- લોજિસ્ટિક રીગ્રેસન
- K- સૌથી નજીકના પડોશીઓ
- સપોર્ટ વેક્ટર મશીન
- નિર્ણય વૃક્ષ
- રેન્ડમ ફોરેસ્ટ
3. ક્લસ્ટરિંગ
સ્કિકિટ-લર્નમાં ક્લસ્ટરિંગ અલ્ગોરિધમ્સનો ઉપયોગ સમાન ગુણધર્મો સાથેના ડેટાને સેટમાં આપમેળે ગોઠવવા માટે થાય છે. ક્લસ્ટરિંગ એ વસ્તુઓના સમૂહને જૂથબદ્ધ કરવાની પ્રક્રિયા છે જેથી કરીને સમાન જૂથમાં રહેલા અન્ય જૂથો સાથે વધુ સમાન હોય. ગ્રાહક ડેટા, ઉદાહરણ તરીકે, તેમના સ્થાનના આધારે અલગ કરી શકાય છે.
ક્લસ્ટરિંગ અલ્ગોરિધમ્સમાં નીચેનાનો સમાવેશ થાય છે:
- DB-સ્કેન
- K-નો અર્થ
- મીની-બેચ કે-મીન્સ
- સ્પેક્ટ્રલ ક્લસ્ટરિંગ
4. મોડલ પસંદગી
મોડલ સિલેક્શન અલ્ગોરિધમ્સ ડેટા સાયન્સ પહેલમાં ઉપયોગ માટે શ્રેષ્ઠ પરિમાણો અને મોડલ્સની સરખામણી કરવા, માન્ય કરવા અને પસંદ કરવા માટેની પદ્ધતિઓ પ્રદાન કરે છે. ડેટાને જોતાં, મોડેલની પસંદગી એ ઉમેદવાર મોડેલોના જૂથમાંથી આંકડાકીય મોડેલ પસંદ કરવાની સમસ્યા છે. સૌથી મૂળભૂત સંજોગોમાં, ડેટાના પહેલાથી અસ્તિત્વમાં રહેલા સંગ્રહને ધ્યાનમાં લેવામાં આવે છે. જો કે, કાર્યમાં પ્રયોગોની રચનાનો પણ સમાવેશ થઈ શકે છે જેથી કરીને મેળવેલ ડેટા મોડેલ પસંદગીની સમસ્યા માટે સારી રીતે અનુકૂળ હોય.
મોડલ પસંદગી મોડ્યુલ્સ કે જે પરિમાણોને સમાયોજિત કરીને ચોકસાઈ સુધારી શકે છે તેમાં નીચેનાનો સમાવેશ થાય છે:
- ક્રોસ-વેલિડેશન
- ગ્રીડ શોધ
- મેટ્રિક્સ
5. પરિમાણ ઘટાડો
ઉચ્ચ-પરિમાણીય અવકાશમાંથી નીચા-પરિમાણીય અવકાશમાં ડેટાનું ટ્રાન્સફર જેથી નિમ્ન-પરિમાણીય રજૂઆત મૂળ ડેટાના કેટલાક નોંધપાત્ર પાસાઓને સાચવી શકે, આદર્શ રીતે તેના અંતર્ગત પરિમાણની નજીક, તેને પરિમાણીયતા ઘટાડા તરીકે ઓળખવામાં આવે છે. જ્યારે પરિમાણ ઘટે છે ત્યારે વિશ્લેષણ માટે રેન્ડમ ચલોની સંખ્યા ઓછી થાય છે. આઉટલાઇંગ ડેટા, ઉદાહરણ તરીકે, વિઝ્યુલાઇઝેશનની કાર્યક્ષમતામાં સુધારો કરવા માટે માનવામાં આવતું નથી.
ડાયમેન્શનલિટી રિડક્શન અલ્ગોરિધમમાં નીચેનાનો સમાવેશ થાય છે:
- લક્ષણ પસંદગી
- આચાર્ય ઘટક વિશ્લેષણ (પીસીએ)
સ્કિકિટ-લર્ન ઇન્સ્ટોલ કરી રહ્યું છે
NumPy, SciPy, Matplotlib, IPython, Sympy અને Pandas Scikit-learn નો ઉપયોગ કરતા પહેલા ઇન્સ્ટોલ કરવું જરૂરી છે. ચાલો તેમને કન્સોલમાંથી પીપનો ઉપયોગ કરીને ઇન્સ્ટોલ કરીએ (ફક્ત Windows માટે કામ કરે છે).
ચાલો હવે Scikit-learn ઇન્સ્ટોલ કરીએ કે અમે જરૂરી લાઇબ્રેરીઓ ઇન્સ્ટોલ કરી લીધી છે.
વિશેષતા
સ્કિકિટ-લર્ન, જેને કેટલીકવાર સ્ક્લેરન તરીકે ઓળખવામાં આવે છે, તે મશીન લર્નિંગ મોડલ્સ અને આંકડાકીય મોડેલિંગના અમલીકરણ માટે પાયથોન ટૂલકિટ છે. અમે તેનો ઉપયોગ રીગ્રેસન, વર્ગીકરણ અને ક્લસ્ટરિંગ માટે બહુવિધ મશીન લર્નિંગ મોડલ્સ તેમજ આ મોડલ્સનું મૂલ્યાંકન કરવા માટે આંકડાકીય સાધનો બનાવવા માટે કરી શકીએ છીએ. તેમાં પરિમાણીયતામાં ઘટાડો, લક્ષણ પસંદગી, વિશેષતા નિષ્કર્ષણ, જોડાણ અભિગમો અને બિલ્ટ-ઇન ડેટાસેટ્સનો પણ સમાવેશ થાય છે. અમે એક સમયે આ દરેક ગુણોની તપાસ કરીશું.
1. ડેટાસેટ્સ આયાત કરવી
સ્કિકિટ-લર્નમાં સંખ્યાબંધ પૂર્વ-બિલ્ટ ડેટાસેટ્સનો સમાવેશ થાય છે, જેમ કે આઇરિસ ડેટાસેટ, હોમ પ્રાઈસ ડેટાસેટ, ટાઇટેનિક ડેટાસેટ, વગેરે. આ ડેટાસેટ્સના મુખ્ય ફાયદા એ છે કે તે સમજવામાં સરળ છે અને તેનો ઉપયોગ તરત જ ML મોડલ વિકસાવવા માટે થઈ શકે છે. આ ડેટાસેટ્સ શિખાઉ લોકો માટે યોગ્ય છે. એ જ રીતે, તમે વધારાના ડેટાસેટ્સ આયાત કરવા માટે sklearn નો ઉપયોગ કરી શકો છો. એ જ રીતે, તમે વધારાના ડેટાસેટ્સ આયાત કરવા માટે તેનો ઉપયોગ કરી શકો છો.
2. તાલીમ અને પરીક્ષણ માટે ડેટાસેટનું વિભાજન
Sklearn માં ડેટાસેટને તાલીમ અને પરીક્ષણ સેગમેન્ટમાં વિભાજીત કરવાની ક્ષમતાનો સમાવેશ થાય છે. આગાહી કામગીરીના નિષ્પક્ષ મૂલ્યાંકન માટે ડેટાસેટનું વિભાજન જરૂરી છે. અમે સ્પષ્ટ કરી શકીએ છીએ કે ટ્રેન અને ટેસ્ટ ડેટાસેટ્સમાં અમારો કેટલો ડેટા શામેલ હોવો જોઈએ. અમે ટ્રેન ટેસ્ટ સ્પ્લિટનો ઉપયોગ કરીને ડેટાસેટને વિભાજિત કર્યા છે જેમ કે ટ્રેન સેટમાં 80% ડેટાનો સમાવેશ થાય છે અને ટેસ્ટ સેટમાં 20% હોય છે. ડેટાસેટને નીચે પ્રમાણે વિભાજિત કરી શકાય છે:
3. લીનિયર રીગ્રેશન
લીનિયર રીગ્રેશન એ નિરીક્ષિત લર્નિંગ-આધારિત મશીન લર્નિંગ તકનીક છે. તે રીગ્રેસન કાર્ય કરે છે. સ્વતંત્ર ચલો પર આધારિત, રીગ્રેશન મોડલ લક્ષ્ય અનુમાન મૂલ્ય બનાવે છે. તે મોટે ભાગે ચલો અને આગાહી વચ્ચેની કડી નક્કી કરવા માટે વપરાય છે. અલગ-અલગ રીગ્રેશન મૉડલ આશ્રિત અને સ્વતંત્ર ચલો વચ્ચેના જોડાણના પ્રકાર તેમજ ઉપયોગમાં લેવાતા સ્વતંત્ર ચલોની સંખ્યાના સંદર્ભમાં અલગ પડે છે. અમે નીચે પ્રમાણે sklearn નો ઉપયોગ કરીને લીનિયર રીગ્રેસન મોડેલ બનાવી શકીએ છીએ:
4. લોજિસ્ટિક રીગ્રેશન
એક સામાન્ય વર્ગીકરણ અભિગમ લોજિસ્ટિક રીગ્રેસન છે. તે બહુપદી અને રેખીય રીગ્રેશન જેવા જ પરિવારમાં છે અને તે રેખીય વર્ગીકૃત કુટુંબ સાથે સંબંધ ધરાવે છે. લોજિસ્ટિક રીગ્રેશનના તારણો સમજવા માટે સરળ છે અને ગણતરીમાં ઝડપી છે. રેખીય રીગ્રેશનની જેમ, લોજિસ્ટિક રીગ્રેશન એ દેખરેખ કરાયેલ રીગ્રેસન તકનીક છે. આઉટપુટ વેરીએબલ સ્પષ્ટ છે, તેથી માત્ર આટલો જ તફાવત છે. તે નક્કી કરી શકે છે કે દર્દીને હૃદય રોગ છે કે નહીં.
વિવિધ વર્ગીકરણ સમસ્યાઓ, જેમ કે સ્પામ શોધ, લોજિસ્ટિક રીગ્રેશનનો ઉપયોગ કરીને ઉકેલી શકાય છે. ડાયાબિટીસની આગાહી, ગ્રાહક કોઈ ચોક્કસ ઉત્પાદન ખરીદશે કે હરીફ તરફ સ્વિચ કરશે તે નક્કી કરવું, વપરાશકર્તા ચોક્કસ માર્કેટિંગ લિંક પર ક્લિક કરશે કે કેમ તે નિર્ધારિત કરવું, અને ઘણા વધુ દૃશ્યો માત્ર થોડા ઉદાહરણો છે.
5. નિર્ણય વૃક્ષ
સૌથી શક્તિશાળી અને વ્યાપકપણે ઉપયોગમાં લેવાતી વર્ગીકરણ અને આગાહી તકનીક એ નિર્ણય વૃક્ષ છે. નિર્ણય વૃક્ષ એ એક વૃક્ષનું માળખું છે જે ફ્લોચાર્ટ જેવું લાગે છે, જેમાં પ્રત્યેક આંતરિક નોડ એટ્રિબ્યુટ પર પરીક્ષણનું પ્રતિનિધિત્વ કરે છે, દરેક શાખા પરીક્ષણના નિષ્કર્ષને રજૂ કરે છે, અને દરેક લીફ નોડ (ટર્મિનલ નોડ) વર્ગ લેબલ ધરાવે છે.
જ્યારે આશ્રિત ચલોનો સ્વતંત્ર ચલો સાથે રેખીય સંબંધ નથી, એટલે કે જ્યારે રેખીય રીગ્રેસન યોગ્ય તારણો ઉત્પન્ન કરતું નથી, ત્યારે નિર્ણય વૃક્ષો ફાયદાકારક છે. DecisionTreeRegression() ઑબ્જેક્ટનો ઉપયોગ રીગ્રેસન માટે નિર્ણય વૃક્ષનો ઉપયોગ કરવા માટે સમાન રીતે થઈ શકે છે.
6. રેન્ડમ ફોરેસ્ટ
રેન્ડમ ફોરેસ્ટ એ છે મશીન શિક્ષણ રીગ્રેસન અને વર્ગીકરણ મુદ્દાઓને ઉકેલવા માટેનો અભિગમ. તે એન્સેમ્બલ લર્નિંગનો ઉપયોગ કરે છે, જે એક એવી તકનીક છે જે જટિલ સમસ્યાઓ ઉકેલવા માટે બહુવિધ વર્ગીકરણોને જોડે છે. રેન્ડમ વન પદ્ધતિ મોટી સંખ્યામાં નિર્ણય વૃક્ષોથી બનેલી છે. તેનો ઉપયોગ લોન અરજીઓનું વર્ગીકરણ કરવા, કપટપૂર્ણ વર્તન શોધવા અને રોગ ફાટી નીકળવાની અપેક્ષા રાખવા માટે થઈ શકે છે.
7. કન્ફ્યુઝન મેટ્રિક્સ
મૂંઝવણ મેટ્રિક્સ એ વર્ગીકરણ મોડલ કામગીરીનું વર્ણન કરવા માટે વપરાતું કોષ્ટક છે. મૂંઝવણ મેટ્રિક્સની તપાસ કરવા માટે નીચેના ચાર શબ્દોનો ઉપયોગ થાય છે:
- સાચું હકારાત્મક: તે દર્શાવે છે કે મોડેલે સાનુકૂળ પરિણામ રજૂ કર્યું હતું અને તે સાચું હતું.
- સાચું નકારાત્મક: તે દર્શાવે છે કે મોડેલે ખરાબ પરિણામનો અંદાજ મૂક્યો હતો અને તે સાચું હતું.
- ખોટા હકારાત્મક: તે દર્શાવે છે કે મોડેલને અનુકૂળ પરિણામની અપેક્ષા હતી પરંતુ તે ખરેખર નકારાત્મક હતું.
- ખોટા નકારાત્મક: તે દર્શાવે છે કે મોડેલને નકારાત્મક પરિણામની અપેક્ષા હતી, જ્યારે પરિણામ ખરેખર હકારાત્મક હતું.
મૂંઝવણ મેટ્રિક્સ અમલીકરણ:
ગુણ
- તેનો ઉપયોગ સરળ છે.
- સ્કિકિટ-લર્ન પેકેજ અત્યંત અનુકૂલનક્ષમ અને ઉપયોગી છે, જે વાસ્તવિક-વિશ્વના ધ્યેયો જેમ કે ઉપભોક્તા વર્તણૂકની આગાહી, ન્યુરોઇમેજ ડેવલપમેન્ટ, વગેરેને પૂર્ણ કરે છે.
- જે વપરાશકર્તાઓ અલ્ગોરિધમ્સને તેમના પ્લેટફોર્મ સાથે જોડવા ઈચ્છે છે તેઓને સ્કિકિટ-લર્ન વેબસાઈટ પર વિગતવાર API દસ્તાવેજીકરણ મળશે.
- અસંખ્ય લેખકો, સહયોગીઓ અને વિશાળ વિશ્વવ્યાપી ઓનલાઈન સમુદાય સમર્થન આપે છે અને Scikit-લર્નને અદ્યતન રાખે છે.
વિપક્ષ
- ગહન અભ્યાસ માટે તે આદર્શ વિકલ્પ નથી.
ઉપસંહાર
સ્કીટ-લર્ન એ દરેક ડેટા સાયન્ટિસ્ટ માટે એક મહત્વપૂર્ણ પેકેજ છે જેના પર મજબૂત સમજ અને થોડો અનુભવ છે. આ માર્ગદર્શિકા તમને sklearn નો ઉપયોગ કરીને ડેટા મેનીપ્યુલેશનમાં મદદ કરશે. સ્કિકિટ-લર્નની ઘણી વધુ ક્ષમતાઓ છે જે તમે તમારા ડેટા સાયન્સ એડવેન્ચર દ્વારા આગળ વધતા જશો. ટિપ્પણીઓમાં તમારા વિચારો શેર કરો.
એક જવાબ છોડો