පටුන[සඟවන්න][පෙන්වන්න]
ඔබ Python ක්රමලේඛකයෙක් නම් හෝ ඔබ නිෂ්පාදන පද්ධතියකට යන්ත්ර ඉගෙනීම හඳුන්වා දීම සඳහා ප්රබල මෙවලම් කට්ටලයක් සොයන්නේ නම්, Scikit-learn යනු ඔබ පරීක්ෂා කර බැලිය යුතු පුස්තකාලයකි.
Scikit-learn හොඳින් ලේඛනගත කර ඇති අතර, ඔබ යන්ත්ර ඉගෙනීමට අලුත් වුවත්, ඉක්මනින් නැඟිට ධාවනය කිරීමට අවශ්ය වුවත්, හෝ වඩාත්ම යාවත්කාලීන ML පර්යේෂණ මෙවලම භාවිත කිරීමට අවශ්ය වුවත්, භාවිත කිරීමට සරල ය.
එය ඔබට කේත පේළි කිහිපයකින් පුරෝකථන දත්ත ආකෘතියක් තැනීමට ඉඩ සලසයි, ඉන්පසු ඉහළ මට්ටමේ පුස්තකාලයක් ලෙස ඔබේ දත්ත වලට ගැලපෙන පරිදි එම ආකෘතිය භාවිතා කරයි. එය නම්යශීලී වන අතර අනෙක් අය සමඟ හොඳින් ක්රියා කරයි පයිතන් පුස්තකාල ප්රස්ථාරගත කිරීම සඳහා Matplotlib, array vectorization සඳහා NumPy සහ දත්ත දෘශ්යකරණය සඳහා pandas වැනි.
මෙම මාර්ගෝපදේශය තුළ, ඔබ එය කුමක්ද, ඔබට එය භාවිතා කළ හැකි ආකාරය, එහි වාසි සහ අවාසි සමඟ සියල්ල සොයා ගනු ඇත.
මොකක්ද Scikit- ඉගෙන ගන්න?
Scikit-Learn (sklearn ලෙසද හැඳින්වේ) විවිධ සංඛ්යාන ආකෘති සහ යන්ත්ර ඉගෙනීම ඉදිරිපත් කරයි. බොහෝ මොඩියුල මෙන් නොව, sklearn වර්ධනය වන්නේ C වලට වඩා Python වලිනි. Python හි වර්ධනය වුවද, sklearn හි කාර්යක්ෂමතාවය අධි-ක්රියාකාරී රේඛීය වීජ ගණිතය සහ array මෙහෙයුම් සඳහා NumPy භාවිතා කිරීම ආරෝපණය වේ.
Scikit-Learn නිර්මාණය කරන ලද්දේ Google හි Summer of Code ව්යාපෘතියේ කොටසක් ලෙස වන අතර එතැන් සිට ලොව පුරා සිටින මිලියන සංඛ්යාත Python කේන්ද්රීය දත්ත විද්යාඥයින්ගේ ජීවිත සරල කර ඇත. මාලාවේ මෙම කොටස පුරෝකථන ආකෘතියක් සංවර්ධනය කිරීමට පෙර ගත යුතු ප්රධාන සහ අත්යවශ්ය පියවරක් වන දත්ත කට්ටල පරිවර්තනයන් - පුස්තකාලය ඉදිරිපත් කිරීම සහ එක් අංගයක් කෙරෙහි අවධානය යොමු කරයි.
පුස්තකාලය SciPy (Scientific Python) මත පදනම් වේ, එය ඔබට scikit-Learn භාවිතා කිරීමට පෙර ස්ථාපනය කළ යුතුය. මෙම තොගයේ පහත අයිතම අඩංගු වේ:
- NumPy: Python හි සම්මත n-dimensional array පැකේජය
- SciPy: එය විද්යාත්මක පරිගණනය සඳහා වන මූලික පැකේජයකි
- Pandas: දත්ත ව්යුහයන් සහ විශ්ලේෂණය
- Matplotlib: එය බලවත් 2D/3D කුමන්ත්රණ පුස්තකාලයකි
- සංකේත: සංකේතාත්මක ගණිතය
- IPython: වැඩිදියුණු කළ අන්තර්ක්රියාකාරී කොන්සෝලය
Scikit-Learn පුස්තකාලයේ යෙදුම්
Scikit-learn යනු නවීන දත්ත විශ්ලේෂණය සහ කැණීම් විශේෂාංග සහිත විවෘත මූලාශ්ර Python පැකේජයකි. එය ඔබගේ දත්ත විද්යා ව්යාපෘතිවලින් උපරිම ප්රයෝජන ලබා ගැනීමට ඔබට උදවු කිරීමට ගොඩනඟන ලද ඇල්ගොරිතම රාශියක් සමඟ පැමිණේ. Scikit-Learn library පහත ආකාරවලින් භාවිතා වේ.
1. පසුබෑම
ප්රතිගාමී විශ්ලේෂණය යනු විචල්ය දෙකක් හෝ වැඩි ගණනක් අතර සම්බන්ධය විශ්ලේෂණය කිරීම සහ අවබෝධ කර ගැනීම සඳහා වන සංඛ්යානමය තාක්ෂණයකි. ප්රතිගාමී විශ්ලේෂණය කිරීමට භාවිතා කරන ක්රමය කුමන මූලද්රව්ය අදාළද, නොසලකා හැරිය හැකි සහ ඒවා අන්තර්ක්රියා කරන ආකාරය තීරණය කිරීමට උපකාරී වේ. උදාහරණයක් ලෙස, කොටස් මිලෙහි හැසිරීම වඩා හොඳින් අවබෝධ කර ගැනීම සඳහා ප්රතිගාමී තාක්ෂණික ක්රම භාවිතා කළ හැක.
ප්රතිගාමී ඇල්ගොරිතමවලට ඇතුළත් වන්නේ:
- රේඛීය නියඟය
- රිජ් පසුබෑම
- ලාසෝ පසුබෑම
- තීරණ ගස ප්රතිගමනය
- අහඹු වනාන්තරය
- ආධාරක දෛශික යන්ත්ර (SVM)
2. වර්ගීකරණය
වර්ගීකරණ ක්රමය යනු නැවුම් නිරීක්ෂණ කාණ්ඩය හඳුනා ගැනීමට පුහුණු දත්ත භාවිතා කරන සුපරීක්ෂිත ඉගෙනුම් ප්රවේශයකි. වර්ගීකරණයේ ඇල්ගොරිතමයක් ලබා දී ඇති දෙයකින් ඉගෙන ගනී දත්ත කට්ටලය හෝ නිරීක්ෂණ සහ පසුව අමතර නිරීක්ෂණ බොහෝ පන්ති හෝ කණ්ඩායම් වලින් එකකට වර්ග කරයි. උදාහරණයක් ලෙස, ඊමේල් සන්නිවේදනයන් අයාචිත තැපෑල ලෙස වර්ගීකරණය කිරීමට හෝ නොකිරීමට ඒවා භාවිතා කළ හැක.
වර්ගීකරණ ඇල්ගොරිතමවලට පහත සඳහන් දෑ ඇතුළත් වේ:
- ලොජිස්ටික් රෙග්රේෂන්
- K-ළඟම අසල්වැසියන්
- ආධාරක දෛශික යන්ත්රය
- තීරණ ගස
- අහඹු වනාන්තරය
3. පොකුරු කිරීම
Scikit-learn හි ඇති පොකුරු ඇල්ගොරිතම සමාන ගුණාංග සහිත දත්ත ස්වයංක්රීයව කට්ටලවලට සැකසීමට භාවිතා කරයි. Clustering යනු අයිතම සමූහයක් කාණ්ඩගත කිරීමේ ක්රියාවලිය වන අතර එමඟින් එකම කණ්ඩායමේ සිටින අය අනෙක් කණ්ඩායම්වල අයට වඩා සමාන වේ. උදාහරණයක් ලෙස, පාරිභෝගික දත්ත ඔවුන්ගේ ස්ථානය මත පදනම්ව වෙන් කළ හැක.
පොකුරු ඇල්ගොරිතමවලට පහත දෑ ඇතුළත් වේ:
- DB-SCAN
- K- අදහස්
- Mini-Batch K-Means
- වර්ණාවලි පොකුරු කිරීම
4. ආදර්ශ තේරීම
ආකෘති තේරීමේ ඇල්ගොරිතම දත්ත විද්යා මුල පිරීම්වල භාවිතය සඳහා ප්රශස්ත පරාමිති සහ ආකෘති සංසන්දනය කිරීම, වලංගු කිරීම සහ තේරීම සඳහා ක්රම සපයයි. දත්ත අනුව, ආකෘති තේරීම යනු අපේක්ෂක ආකෘති සමූහයකින් සංඛ්යානමය ආකෘතියක් තෝරා ගැනීමේ ගැටලුවයි. වඩාත්ම මූලික තත්වයන් තුළ, පෙර පැවති දත්ත එකතුවක් සැලකිල්ලට ගනී. කෙසේ වෙතත්, කර්තව්යයට අත්හදා බැලීම් සැලසුම් කිරීම ද ඇතුළත් විය හැකි අතර එමඟින් ලබාගත් දත්ත ආකෘති තේරීමේ ගැටලුවට හොඳින් ගැලපේ.
පරාමිතීන් ගැලපීම මගින් නිරවද්යතාවය වැඩි දියුණු කළ හැකි මාදිලි තේරීමේ මොඩියුලවලට ඇතුළත් වන්නේ:
- හරස් වලංගුකරණය
- ජාල සෙවීම
- ප්රමිතික
5. Dimensionality අඩු කිරීම
ඉහළ-මාන අවකාශයක සිට අඩු-මාන අවකාශයකට දත්ත මාරු කිරීම, අඩු-මාන නිරූපනය මුල් දත්තවල සමහර වැදගත් අංගයන් ආරක්ෂා කරයි, එහි ආවේනික මානයට ඉතා ආසන්නව, මානය අඩු කිරීම ලෙස හැඳින්වේ. මානය අඩු වූ විට විශ්ලේෂණය සඳහා අහඹු විචල්ය ගණන අඩු වේ. නිදසුනක් ලෙස, බාහිර දත්ත, දෘශ්යකරණයේ කාර්යක්ෂමතාව වැඩි දියුණු කිරීම සඳහා සලකා බැලිය නොහැක.
Dimensionality අඩු කිරීමේ ඇල්ගොරිතමයට පහත දෑ ඇතුළත් වේ:
- විශේෂාංග තේරීම
- ප්රධාන සංරචක විශ්ලේෂණය (PCA)
Scikit-Learn ස්ථාපනය කිරීම
Scikit-Learn භාවිතා කිරීමට පෙර NumPy, SciPy, Matplotlib, IPython, Sympy, සහ Pandas ස්ථාපනය කිරීම අවශ්ය වේ. අපි ඒවා කොන්සෝලයෙන් පිප් භාවිතයෙන් ස්ථාපනය කරමු (වින්ඩෝස් සඳහා පමණක් ක්රියා කරයි).
අපි අවශ්ය පුස්තකාල ස්ථාපනය කර ඇති නිසා දැන් Scikit-learn ස්ථාපනය කරමු.
විශේෂාංග
Scikit-Learn, සමහර විට sklearn ලෙස හැඳින්වේ, යන්ත්ර ඉගෙනුම් ආකෘති සහ සංඛ්යාන ආකෘති ක්රියාවට නැංවීම සඳහා Python මෙවලම් කට්ටලයකි. ප්රතිගමනය, වර්ගීකරණය සහ පොකුරු කිරීම සඳහා බහුවිධ යන්ත්ර ඉගෙනුම් ආකෘති මෙන්ම මෙම ආකෘති තක්සේරු කිරීම සඳහා සංඛ්යාන මෙවලම් නිර්මාණය කිරීමට අපි එය භාවිතා කළ හැක. එයට මානයන් අඩු කිරීම, විශේෂාංග තේරීම, විශේෂාංග නිස්සාරණය, සමූහ ප්රවේශයන් සහ බිල්ට් දත්ත කට්ටල ද ඇතුළත් වේ. අපි මෙම එක් එක් ගුණාංග එකින් එක විමර්ශනය කරමු.
1. දත්ත කට්ටල ආනයනය කිරීම
Scikit-learn හි අයිරිස් දත්ත කට්ටලය, නිවාස මිල දත්ත කට්ටලය, ටයිටැනික් දත්ත කට්ටලය යනාදී පෙර-සාදන ලද දත්ත කට්ටල ගණනාවක් ඇතුළත් වේ. මෙම දත්ත කට්ටලවල ඇති ප්රධාන වාසි වන්නේ ඒවා ග්රහණය කර ගැනීමට පහසු වන අතර ML ආකෘති ක්ෂණිකව සංවර්ධනය කිරීමට භාවිතා කළ හැක. මෙම දත්ත කට්ටල නවකයන් සඳහා සුදුසු වේ. ඒ හා සමානව, ඔබට අමතර දත්ත කට්ටල ආයාත කිරීමට sklearn භාවිතා කළ හැක. ඒ හා සමානව, ඔබට අමතර දත්ත කට්ටල ආයාත කිරීමට එය භාවිතා කළ හැක.
2. පුහුණු කිරීම සහ පරීක්ෂා කිරීම සඳහා දත්ත කට්ටලය බෙදීම
Sklearn හි දත්ත කට්ටලය පුහුණු සහ පරීක්ෂණ අංශවලට බෙදීමේ හැකියාව ඇතුළත් විය. අනාවැකි කාර්ය සාධනය පිළිබඳ අපක්ෂපාතී තක්සේරුවක් සඳහා දත්ත කට්ටලය බෙදීම අවශ්ය වේ. දුම්රිය සහ පරීක්ෂණ දත්ත කට්ටලවල අපගේ දත්ත කොපමණ ප්රමාණයක් ඇතුළත් කළ යුතුද යන්න අපි සඳහන් කළ හැක. අපි දුම්රිය පරීක්ෂණ බෙදීම භාවිතයෙන් දත්ත කට්ටලය බෙදුවෙමු, එනම් දුම්රිය කට්ටලය දත්ත වලින් 80% කින් සමන්විත වන අතර පරීක්ෂණ කට්ටලයේ 20% ඇත. දත්ත කට්ටලය පහත පරිදි බෙදිය හැකිය:
3. රේඛීය පසුබෑම
රේඛීය ප්රතිගාමීත්වය යනු අධීක්ෂණය කරන ලද ඉගෙනුම් පාදක යන්ත්ර ඉගෙනීමේ තාක්ෂණයකි. එය ප්රතිගාමී කාර්යයක් සිදු කරයි. ස්වාධීන විචල්යයන් මත පදනම්ව, ප්රතිගාමී ආදර්ශ ඉලක්ක පුරෝකථන අගයකි. එය බොහෝ විට භාවිතා වන්නේ විචල්යයන් සහ අනාවැකි අතර සම්බන්ධය තීරණය කිරීමටයි. විවිධ ප්රතිගාමී ආකෘතීන් රඳා පවතින සහ ස්වාධීන විචල්ය අතර ඇගයීමට ලක් කරන සම්බන්ධතා වර්ගය මෙන්ම භාවිතා කරන ස්වාධීන විචල්ය ගණන අනුව වෙනස් වේ. අපට පහත පරිදි sklearn භාවිතයෙන් රේඛීය ප්රතිගාමී ආකෘතිය නිර්මාණය කළ හැකිය:
4. Logistic Regression
පොදු වර්ගීකරණ ප්රවේශයක් වන්නේ ලොජිස්ටික් ප්රතිගමනයයි. එය බහුපද සහ රේඛීය ප්රතිගමනය ලෙස එකම පවුලක වන අතර රේඛීය වර්ගීකරණ පවුලට අයත් වේ. ලොජිස්ටික් ප්රතිගාමීත්වයේ සොයාගැනීම් තේරුම් ගැනීමට සරල වන අතර ගණනය කිරීමට ඉක්මන් වේ. රේඛීය ප්රතිග්රහනය ලෙසම, ලොජිස්ටික් ප්රතිගාමීත්වය යනු අධීක්ෂණය කරන ලද ප්රතිගාමී තාක්ෂණයකි. ප්රතිදාන විචල්යය වර්ගීකරණය වේ, එබැවින් එකම වෙනස එයයි. රෝගියාට හෘද රෝගයක් තිබේද නැද්ද යන්න තීරණය කළ හැකිය.
අයාචිත තැපැල් හඳුනාගැනීම වැනි විවිධ වර්ගීකරණ ගැටළු, ලොජිස්ටික් ප්රතිගමනය භාවිතයෙන් විසඳිය හැක. දියවැඩියාව පුරෝකථනය කිරීම, පාරිභෝගිකයෙකු නිශ්චිත නිෂ්පාදනයක් මිල දී ගන්නේද නැතහොත් ප්රතිවාදියෙකු වෙත මාරු වන්නේද යන්න තීරණය කිරීම, පරිශීලකයෙකු නිශ්චිත අලෙවිකරණ සබැඳියක් මත ක්ලික් කරන්නේද යන්න තීරණය කිරීම සහ තවත් බොහෝ අවස්ථා උදාහරණ කිහිපයක් පමණි.
5. තීරණ ගස
වඩාත්ම බලගතු සහ බහුලව භාවිතා වන වර්ගීකරණ සහ පුරෝකථන තාක්ෂණය වන්නේ තීරණ ගසයි. තීරණ ගසක් යනු ප්රවාහ සටහනක් මෙන් පෙනෙන ගස් ව්යුහයකි, සෑම අභ්යන්තර නෝඩයක්ම ගුණාංගයක් මත පරීක්ෂණයක් නියෝජනය කරයි, සෑම ශාඛාවක්ම පරීක්ෂණයේ නිගමනය නියෝජනය කරයි, සහ සෑම කොළ නෝඩයක්ම (පර්යන්ත නෝඩය) පන්ති ලේබලයක් දරයි.
පරායත්ත විචල්යයන් ස්වාධීන විචල්ය සමඟ රේඛීය සම්බන්ධතාවයක් නොපවත්වන විට, එනම් රේඛීය ප්රතිගාමීත්වය නිවැරදි සොයාගැනීම් නිපදවන්නේ නැති විට, තීරණ ගස් ප්රයෝජනවත් වේ. DecisionTreeRegression() වස්තුව ප්රතිගාමීත්වය සඳහා තීරණ ගසක් භාවිතා කිරීමට සමාන ආකාරයකින් භාවිතා කළ හැක.
6. අහඹු වනාන්තරය
අහඹු වනාන්තරයක් යනු a යන්ත්ර ඉගෙනීම ප්රතිගාමීත්වය සහ වර්ගීකරණ ගැටළු විසඳීම සඳහා ප්රවේශය. එය සංකීර්ණ ගැටළු විසඳීම සඳහා බහු වර්ගීකරණයන් ඒකාබද්ධ කරන තාක්ෂණයක් වන සමූහ ඉගෙනීම භාවිතා කරයි. අහඹු වනාන්තර ක්රමයක් තීරන ගස් විශාල සංඛ්යාවක් සෑදී ඇත. ණය අයදුම්පත් වර්ගීකරණය කිරීමට, වංචනික හැසිරීම් හඳුනා ගැනීමට සහ රෝග පැතිරීම අපේක්ෂා කිරීමට එය භාවිතා කළ හැක.
7. ව්යාකූල අනුකෘතිය
ව්යාකූල න්යාසයක් යනු වර්ගීකරණ ආකෘති කාර්ය සාධනය විස්තර කිරීමට භාවිතා කරන වගුවකි. ව්යාකූල න්යාසය පරීක්ෂා කිරීමට පහත වචන හතර භාවිතා වේ:
- සත්ය ධනාත්මක: එයින් අදහස් කරන්නේ ආකෘතිය හිතකර ප්රතිඵලයක් ප්රක්ෂේපණය කළ බවත් එය නිවැරදි බවත් ය.
- සත්ය ඍණාත්මක: එයින් ඇඟවෙන්නේ ආකෘතිය නරක ප්රතිඵලයක් ප්රක්ෂේපණය කළ බවත් එය නිවැරදි බවත් ය.
- ව්යාජ ධනාත්මක: එයින් අදහස් කරන්නේ ආකෘතිය හිතකර ප්රතිඵලයක් අපේක්ෂා කළ නමුත් එය ඇත්ත වශයෙන්ම සෘණාත්මක එකක් බවයි.
- ව්යාජ සෘණ: එයින් අදහස් කරන්නේ ආකෘතිය සෘණාත්මක ප්රතිඵලයක් අපේක්ෂා කරන අතර ප්රතිඵලය සැබවින්ම ධනාත්මක වූ බවයි.
ව්යාකූල අනුකෘතිය ක්රියාත්මක කිරීම:
කිහිප දෙනකුගේ
- එය භාවිතා කිරීම සරල ය.
- Scikit-Learn පැකේජය අතිශයින්ම අනුවර්තනය කළ හැකි සහ ප්රයෝජනවත් වන අතර, පාරිභෝගික හැසිරීම් පුරෝකථනය, ස්නායු ප්රතිරූප සංවර්ධනය සහ යනාදී සැබෑ ලෝක ඉලක්කවලට සේවය කරයි.
- ඔවුන්ගේ වේදිකා සමඟ ඇල්ගොරිතම සම්බන්ධ කිරීමට කැමති පරිශීලකයින්ට Scikit-Learn වෙබ් අඩවියේ සවිස්තරාත්මක API ලේඛන සොයාගත හැකිය.
- බොහෝ කතුවරුන්, සහකාරකයින් සහ විශාල ලොව පුරා සබැඳි ප්රජා සහාය සහ Scikit-ඉගෙනීම යාවත්කාලීනව තබා ගන්න.
අවාසි
- එය ගැඹුරු අධ්යයනයක් සඳහා සුදුසුම විකල්පය නොවේ.
නිගමනය
Scikit-Learn යනු සෑම දත්ත විද්යාඥයෙකුටම ප්රබල ග්රහණයක් සහ යම් අත්දැකීමක් ලබා ගැනීමට අත්යවශ්ය පැකේජයකි. මෙම මාර්ගෝපදේශය ඔබට sklearn භාවිතයෙන් දත්ත හැසිරවීම සඳහා උපකාර විය යුතුය. Scikit-Learn හි තවත් බොහෝ හැකියාවන් ඇත, ඔබ ඔබේ දත්ත විද්යා වික්රමය හරහා ඉදිරියට යන විට ඔබ සොයා ගනු ඇත. අදහස් දැක්වීමේදී ඔබේ අදහස් බෙදා ගන්න.
ඔබමයි