පටුන[සඟවන්න][පෙන්වන්න]
අපගේ එදිනෙදා ජීවිතයේ සෑම අංශයකටම බලපෑමක් ඇති කරන කෘතිම බුද්ධිය සහ යන්ත්ර ඉගෙනීම හේතුවෙන් ලෝකය ඉක්මනින් වෙනස් වේ.
NLP සහ යන්ත්ර ඉගෙනීම භාවිත කරන හඬ සහායකයන්ගේ සිට හමුවීම් වෙන්කරවා ගැනීම, අපගේ දින දර්ශනයේ සිදුවීම් සොයා බැලීම සහ සංගීතය වාදනය කිරීම වැනි නිරවද්ය උපාංග දක්වා අප සලකා බැලීමටත් පෙර අපගේ අවශ්යතා අපේක්ෂා කළ හැකිය.
පරිගණකවලට චෙස් ක්රීඩා කිරීමට, ශල්යකර්ම කිරීමට සහ යන්ත්ර ඉගෙනීමේ ඇල්ගොරිතම ආධාරයෙන් වඩා බුද්ධිමත්, මිනිසුන්ට සමාන යන්ත්ර බවට වර්ධනය විය හැක.
අප සිටින්නේ අඛණ්ඩ තාක්ෂණික දියුණුවක කාලයක වන අතර, කාලයත් සමඟ පරිගණක දියුණු වී ඇති ආකාරය දැකීමෙන්, අනාගතයේදී කුමක් සිදුවේද යන්න පිළිබඳව අපට අනාවැකි පළ කළ හැකිය.
පරිගණක මෙවලම් සහ ක්රම ප්රජාතන්ත්රීකරණය කිරීම මෙම විප්ලවයේ කැපී පෙනෙන ප්රධාන අංගයකි. දත්ත විද්යා .යන් අති නවීන ක්රමවේද ආයාසයකින් තොරව ක්රියාවට නංවමින් පසුගිය වසර පහ තුළ ප්රබල දත්ත බිඳ වැටෙන පරිගණක නිර්මාණය කර ඇත. ප්රතිඵල විශ්මයජනකයි.
මෙම ලිපියෙන් අපි සමීපව බලමු යන්ත්ර ඉගෙනීම ඇල්ගොරිතම සහ ඒවායේ සියලුම වෙනස්කම්.
ඉතින්, Machine Learning ඇල්ගොරිතම යනු කුමක්ද?
AI පද්ධතිය විසින් එහි කාර්යය ඉටු කිරීමට භාවිතා කරන ප්රවේශය - සාමාන්යයෙන්, දී ඇති ආදාන දත්ත වලින් ප්රතිදාන අගයන් පුරෝකථනය කිරීම - යන්ත්ර ඉගෙනීමේ ඇල්ගොරිතමයක් ලෙස හැඳින්වේ.
යන්ත්ර ඉගෙනුම් ඇල්ගොරිතමයක් යනු දත්ත භාවිතා කරන ක්රියාවලියක් වන අතර නිෂ්පාදනය සඳහා සූදානම් වන යන්ත්ර ඉගෙනුම් ආකෘති නිර්මාණය කිරීමට භාවිතා කරයි. යන්ත්ර ඉගෙනීම යනු රැකියාවක් සිදු කරන දුම්රිය නම්, යන්ත්ර ඉගෙනීමේ ඇල්ගොරිතම යනු කාර්යය ඉදිරියට ගෙන යන දුම්රිය එන්ජින් වේ.
භාවිතා කිරීමට ඇති හොඳම යන්ත්ර ඉගෙනීමේ ප්රවේශය ඔබ විසඳීමට උත්සාහ කරන ව්යාපාරික ගැටලුව, ඔබ භාවිතා කරන දත්ත කට්ටලයේ වර්ගය සහ ඔබට තිබෙන සම්පත් මත තීරණය වේ.
Machine learning algorithms යනු දත්ත කට්ටලයක් ආකෘතියක් බවට පත් කරන ඒවා වේ. ඔබ පිළිතුරු දීමට උත්සාහ කරන ගැටලුවේ වර්ගය මත පදනම්ව, පවතින සැකසුම් බලය සහ ඔබ සතුව ඇති දත්ත වර්ගය අනුව, අධීක්ෂණය කළ, අධීක්ෂණය නොකළ හෝ ශක්තිමත් කිරීමේ ඉගෙනුම් ඇල්ගොරිතම හොඳින් ක්රියා කළ හැකිය.
ඉතින්, අපි අධීක්ෂණය කළ, අධීක්ෂණය නොකළ සහ ශක්තිමත් කිරීමේ ඉගෙනීම ගැන කතා කළෙමු, නමුත් ඒවා මොනවාද? අපි ඒවා ගවේෂණය කරමු.
අධීක්ෂණය, අධීක්ෂණය නොකළ සහ ශක්තිමත් කිරීමේ ඉගෙනීම
අධීක්ෂණය ඉගෙනීම
අධීක්ෂිත ඉගෙනීමේදී, AI ආකෘතිය සංවර්ධනය කර ඇත්තේ ලබා දී ඇති ආදානය සහ පුරෝකථනය කළ ප්රතිඵලය නියෝජනය කරන ලේබලය මත පදනම්වය. ආදාන සහ ප්රතිදාන මත පදනම්ව, ආකෘතිය සිතියම්කරණ සමීකරණයක් වර්ධනය කරන අතර, එම සිතියම්කරණ සමීකරණය භාවිතා කරමින්, එය අනාගතයේදී යෙදවුම්වල ලේබලය පුරෝකථනය කරයි.
අපි හිතමු බල්ලෙක් සහ පූසෙක් වෙන්කර හඳුනා ගන්න පුළුවන් ආකෘතියක් හදන්න ඕන කියලා. නිරූපිකාව පුහුණු කිරීම සඳහා බළලුන්ගේ සහ බල්ලන්ගේ බහුවිධ ඡායාරූප ඔවුන් බළලුන් හෝ බල්ලන් ද යන්න දැක්වෙන ලේබල සමඟ ආකෘතියට ලබා දේ.
එම රූපවලට ආදාන ඡායාරූපවල ලේබල සම්බන්ධ සමීකරණයක් පිහිටුවීමට ආකෘතිය උත්සාහ කරයි. නිරූපිකාව මීට පෙර කිසි දිනක රූපය දැක නොමැති වුවද, පුහුණුවෙන් පසු, එය බළලෙකුගේ හෝ බල්ලෙකුගේදැයි හඳුනා ගත හැකිය.
අධීක්ෂණය නොකළ ඉගෙනීම
අධීක්ෂණය නොකළ ඉගෙනීම යනු AI ආකෘතියක් ලේබල් කිරීමකින් තොරව යෙදවුම් මත පමණක් පුහුණු කිරීමයි. ආකෘතිය ආදාන දත්ත අදාළ ලක්ෂණ සහිත කණ්ඩායම් වලට බෙදා ඇත.
ආදානයේ අනාගත ලේබලය එහි ගුණාංග වර්ගීකරණයෙන් එකකට කෙතරම් සමීපව ගැලපේද යන්න මත පදනම්ව පුරෝකථනය කෙරේ. අපි රතු සහ නිල් බෝල සමූහයක් කාණ්ඩ දෙකකට බෙදිය යුතු තත්ත්වය සලකා බලන්න.
වර්ණ හැර බෝලවල අනෙකුත් ලක්ෂණ සමාන යැයි උපකල්පනය කරමු. එය බෝල පන්ති දෙකකට බෙදිය හැකි ආකාරය මත පදනම්ව, ආකෘතිය බෝල අතර වෙනස් වන ලක්ෂණ සොයයි.
බෝල පොකුරු දෙකක් - එක් නිල් සහ එක් රතු - බෝල ඒවායේ වර්ණය මත පදනම්ව කණ්ඩායම් දෙකකට බෙදා ඇති විට නිපදවනු ලැබේ.
ශක්තිමත් කිරීමේ ඉගෙනීම
ශක්තිමත් කිරීමේ ඉගෙනීමේදී, AI ආකෘතිය යම්කිසි අවස්ථාවක ක්රියාකිරීමෙන් මෙන්ම හැකි අයුරින් සමස්ත ලාභය උපරිම කර ගැනීමට උත්සාහ කරයි. එහි පූර්ව ප්රතිඵල පිළිබඳ ප්රතිපෝෂණය ආදර්ශයට ඉගෙන ගැනීමට උපකාර කරයි.
A සහ B ලකුණු අතර මාර්ගයක් තෝරා ගැනීමට රොබෝවෙකුට උපදෙස් දෙන විට තත්වය ගැන සිතන්න. රොබෝවරයාට පෙර පළපුරුද්දක් නොමැති නිසා මුලින්ම පාඨමාලා වලින් එකක් තෝරා ගනී.
රොබෝවරයා එය ගමන් කරන මාර්ගයට ආදානය ලබා ගන්නා අතර එයින් දැනුම ලබා ගනී. රොබෝවරයාට ඊළඟ වතාවේ එවැනිම තත්වයක් ඇති වූ විට ගැටළුව විසඳීමට ආදානය භාවිතා කළ හැකිය.
උදාහරණයක් ලෙස, රොබෝවරයා B විකල්පය තෝරා ධනාත්මක ප්රතිපෝෂණ වැනි ත්යාගයක් ලබා ගන්නේ නම්, එය තම ත්යාගය වැඩි කිරීමට B මාර්ගය තෝරාගත යුතු බව මෙවර තේරුම් ගනී.
දැන් අවසාන වශයෙන් ඔබ සැවොම බලා සිටින්නේ ඇල්ගොරිතමයන්ය.
ප්රධාන යන්ත්ර ඉගෙනුම් ඇල්ගොරිතම
1. රේඛීය පසුබෑම
අධීක්ෂණ ඉගෙනීමෙන් බැහැර වන සරලම යන්ත්ර ඉගෙනීමේ ප්රවේශය රේඛීය ප්රතිගාමීත්වයයි. ස්වාධීන විචල්යයන්ගෙන් ලැබෙන දැනුම සමඟින්, එය ප්රතිගාමී ගැටළු විසඳීමට සහ අඛණ්ඩ පරායත්ත විචල්යයන් පිළිබඳ අනාවැකි නිර්මාණය කිරීමට බොහෝ දුරට භාවිතා වේ.
අඛණ්ඩ පරායත්ත විචල්යයන් සඳහා ප්රතිඵලය පුරෝකථනය කිරීමට උපකාර කළ හැකි හොඳම ගැලපුම් රේඛාව සොයා ගැනීම රේඛීය ප්රතිගාමීත්වයේ අරමුණයි. නිවාස මිල, වයස සහ වැටුප් අඛණ්ඩ අගයන් සඳහා උදාහරණ වේ.
සරල රේඛීය ප්රතිගාමීත්වය ලෙස හැඳින්වෙන ආකෘතියක් එක් ස්වාධීන විචල්යයක් සහ එක් පරායත්ත විචල්යයක් අතර සම්බන්ධය ගණනය කිරීමට සරල රේඛාවක් භාවිතා කරයි. බහු රේඛීය ප්රතිගාමීත්වයේ ස්වාධීන විචල්ය දෙකකට වඩා ඇත.
රේඛීය ප්රතිගාමී ආකෘතියකට යටින් පවතින උපකල්පන හතරක් ඇත:
- රේඛීයත්වය: X සහ Y හි මධ්යන්යය අතර රේඛීය සම්බන්ධයක් ඇත.
- සමලිංගිකත්වය: X හි සෑම අගයක් සඳහාම, අවශේෂ විචලනය සමාන වේ.
- ස්වාධීනත්වය: ස්වාධීනත්වය අනුව නිරීක්ෂණ එකිනෙකාගෙන් ස්වාධීන වේ.
- සාමාන්යය: X ස්ථාවර වූ විට, Y සාමාන්යයෙන් බෙදා හැරේ.
රේඛීය ප්රතිගාමීත්වය රේඛා ඔස්සේ වෙන් කළ හැකි දත්ත සඳහා විශිෂ්ට ලෙස ක්රියා කරයි. විධිමත් කිරීම, හරස් වලංගුකරණය සහ මානයන් අඩු කිරීමේ ක්රම භාවිතා කිරීමෙන් එය අධික ලෙස ගැලපීම පාලනය කළ හැකිය. කෙසේ වෙතත්, විස්තීර්ණ විශේෂාංග ඉංජිනේරු විද්යාව අවශ්ය වන අවස්ථා තිබේ, එය ඉඳහිට අධික ලෙස ගැලපීම සහ ශබ්දය ඇති කළ හැකිය.
2. Logistic Regression
ලොජිස්ටික් ප්රතිගමනය යනු අධීක්ෂණය කරන ලද ඉගෙනීමෙන් බැහැර වන තවත් යන්ත්ර ඉගෙනීමේ ක්රමයකි. එහි ප්රධාන භාවිතය වර්ගීකරණය වන අතර එය ප්රතිගාමී ගැටළු සඳහා ද භාවිතා කළ හැක.
ස්වාධීන සාධක වලින් තොරතුරු භාවිතා කරමින් වර්ගීකරණ යැපුම් විචල්යය පුරෝකථනය කිරීමට ලොජිස්ටික් ප්රතිගාමීත්වය භාවිතා කරයි. ඉලක්කය වන්නේ 0 සහ 1 අතර පමණක් වැටිය හැකි ප්රතිදානයන් වර්ගීකරණය කිරීමයි.
0 සහ 1 අතර අගයන් පරිවර්තනය කරන සක්රීය කිරීමේ ශ්රිතයක් වන සිග්මොයිඩ් ශ්රිතය මගින් ආදානවල බරිත එකතුව සකසනු ලැබේ.
ලොජිස්ටික් ප්රතිගාමීත්වයේ පදනම උපරිම සම්භාවිතාව ඇස්තමේන්තු කිරීම, නිශ්චිත නිරීක්ෂිත දත්ත ලබා දී ඇති උපකල්පිත සම්භාවිතා ව්යාප්තියක පරාමිතීන් ගණනය කිරීමේ ක්රමයකි.
3. තීරණ ගස
අධීක්ෂණය කරන ලද ඉගෙනීමෙන් වෙන් කරන තවත් යන්ත්ර ඉගෙනීමේ ක්රමයක් වන්නේ තීරණ ගසයි. වර්ගීකරණය සහ ප්රතිගාමී ගැටළු යන දෙකටම, තීරණ ගස් ප්රවේශය භාවිතා කළ හැක.
ගසකට සමාන මෙම තීරණ ගැනීමේ මෙවලම, ක්රියාවන්ගේ අනාගත ප්රතිඵල, පිරිවැය සහ ප්රතිවිපාක පෙන්වීමට දෘශ්ය නිරූපණයන් භාවිතා කරයි. දත්ත වෙනම කොටස් වලට බෙදීමෙන්, අදහස මිනිස් මනසට සමාන වේ.
දත්ත අපට කැට කළ හැකි තරම් කොටස් වලට බෙදා ඇත. තීරණාත්මක ගසක ප්රධාන අරමුණ වන්නේ ඉලක්ක විචල්යයේ පන්තිය පුරෝකථනය කිරීමට භාවිතා කළ හැකි පුහුණු ආකෘතියක් ගොඩනැගීමයි. නැතිවූ අගයන් තීරණ ගස භාවිතයෙන් ස්වයංක්රීයව හැසිරවිය හැක.
එක්-ෂොට් කේතනය, ව්යාජ විචල්ය හෝ වෙනත් දත්ත පූර්ව ප්රතිකාර පියවර සඳහා අවශ්යතාවයක් නොමැත. එයට නැවුම් දත්ත එකතු කිරීම අපහසුය යන අර්ථයෙන් එය දැඩි ය. ඔබට අතිරේක ලේබල් දත්ත ලැබුනේ නම්, ඔබ සම්පූර්ණ දත්ත කට්ටලය මත ගස නැවත පුහුණු කළ යුතුය.
එහි ප්රතිඵලයක් වශයෙන්, ගතික මාදිලියේ වෙනසක් අවශ්ය වන ඕනෑම යෙදුමක් සඳහා තීරණ ගස් දුර්වල තේරීමක් වේ.
ඉලක්ක විචල්ය වර්ගය මත පදනම්ව, තීරණ ගස් වර්ග දෙකකට වර්ග කර ඇත:
- ප්රවර්ග විචල්යය: ඉලක්ක විචල්යය වර්ගීකරණය වන තීරණ ගසකි.
- අඛණ්ඩ විචල්යය: ඉලක්ක විචල්යය අඛණ්ඩව පවතින තීරණාත්මක ගසකි.
4. අහඹු වනාන්තරය
සසම්භාවී වනාන්තර ක්රමය මීළඟ යන්ත්ර ඉගෙනීමේ ක්රමය වන අතර එය වර්ගීකරණය සහ ප්රතිගාමී ගැටළු වලදී බහුලව භාවිතා වන අධීක්ෂණය කරන ලද යන්ත්ර ඉගෙනුම් ඇල්ගොරිතමයකි. එය ද තීරණ ගසකට සමාන ගස් පදනම් කරගත් ක්රමයකි.
ගස් වනාන්තරයක්, හෝ බොහෝ තීරණ ගස්, විනිශ්චය කිරීමට අහඹු වනාන්තර ක්රමය භාවිතා කරයි. වර්ගීකරණ කාර්යයන් හැසිරවීමේදී, සසම්භාවී වනාන්තර ක්රමය අඛණ්ඩ විචල්ය අඩංගු දත්ත කට්ටල සමඟ ප්රතිගාමී කාර්යයන් හසුරුවන අතරතුර වර්ගීකරණ විචල්යයන් භාවිතා කරයි.
සමූහයක්, හෝ බොහෝ මාදිලි මිශ්ර කිරීම, අහඹු වනාන්තර ක්රමය මඟින් සිදු කරනු ලබයි, එයින් අදහස් කරන්නේ එකකට වඩා ආකෘති සමූහයක් භාවිතා කරමින් අනාවැකි පළ කිරීමයි.
නවීන යන්ත්ර ඉගෙනුම් පද්ධතිවලින් බහුතරයක් සමන්විත වන වර්ගීකරණ සහ ප්රතිගාමී ගැටළු යන දෙකටම භාවිතා කිරීමේ හැකියාව අහඹු වනාන්තරයේ ප්රධාන ප්රතිලාභයකි.
එන්සෙම්බල් විසින් විවිධ උපාය මාර්ග දෙකක් භාවිතා කරයි:
- Bagging: මෙය කිරීමෙන්, පුහුණු දත්ත කට්ටලය සඳහා වැඩි දත්ත නිපදවනු ලැබේ. අනාවැකිවල විචලනය අඩු කිරීම සඳහා, මෙය සිදු කරනු ලැබේ.
- Boosting යනු දුර්වල ඉගෙන ගන්නන් සහ ශක්තිමත් ඉගෙන ගන්නන් අනුක්රමික ආකෘති ගොඩ නැගීමේ ක්රියාවලියයි, එහි ප්රතිඵලයක් ලෙස අවසාන ආකෘතිය උපරිම නිරවද්යතාවයකින් යුක්ත වේ.
5. Naive Bayes
ද්විමය (පංති දෙකේ) සහ බහු පන්ති වර්ගීකරණ ගැටළුවක් Naive Bayes තාක්ෂණය භාවිතයෙන් විසඳා ගත හැක. ද්විමය හෝ ප්රවර්ග ආදාන අගයන් භාවිතයෙන් ක්රමය පැහැදිලි කරන විට, එය ග්රහණය කර ගැනීම සරලම වේ. Naive Bayes වර්ගීකාරකයක් විසින් කරන ලද උපකල්පනයක් නම්, පන්තියක එක් අංගයක පැවැත්ම වෙනත් කිසිදු ලක්ෂණයක් තිබීමට බලපාන්නේ නැත.
ඉහත සූත්රය පෙන්නුම් කරන්නේ:
- P(H): H උපකල්පනය නිවැරදි වීමට ඇති සම්භාවිතාව. පූර්ව සම්භාවිතාව මෙය ලෙස හැඳින්වේ.
- P(E): සාක්ෂියේ සම්භාවිතාව
- P(E|H): සාක්ෂි මගින් උපකල්පනයට සහාය දැක්වීමේ සම්භාවිතාව.
- P(H|E): සාක්ෂි අනුව උපකල්පනය සත්ය වීමේ සම්භාවිතාව.
Naive Bayes වර්ගීකාරකයක් මෙම ගුණාංග එකිනෙක සම්බන්ධ වුවද, යම් ප්රතිඵලයක සම්භාවිතාව නිර්ණය කිරීමේදී මෙම එක් එක් ලක්ෂණයන් තනි තනිව සැලකිල්ලට ගනී. Naive Bayesian ආකෘතියක් ගොඩනැගීමට සරල වන අතර විශාල දත්ත කට්ටල සඳහා ඵලදායී වේ.
එය මූලික වන අතර වඩාත් සංකීර්ණ වර්ගීකරණ ශිල්පීය ක්රමවලට වඩා හොඳින් ක්රියා කරන බව දන්නා කරුණකි. එය තනි ක්රමයකට වඩා බේයස් ප්රමේයය මත පදනම් වූ ඇල්ගොරිතම එකතුවකි.
6. K-ළඟම අසල්වැසියන්
K-nearest අසල්වැසියන් (kNN) තාක්ෂණය යනු වර්ගීකරණ සහ ප්රතිගාමී ගැටළු විසඳීමට භාවිතා කළ හැකි අධීක්ෂණය කරන ලද යන්ත්ර ඉගෙනීමේ උප කුලකයකි. KNN ඇල්ගොරිතම උපකල්පනය කරන්නේ සැසඳිය හැකි වස්තූන් ආසන්නයේ ඇති බවයි.
එය සමාන අදහස් ඇති පුද්ගලයින්ගේ රැස්වීමක් ලෙස මම සිහිපත් කරමි. kNN සමීපත්වය, සමීපත්වය හෝ දුර භාවිතා කරමින් අනෙකුත් දත්ත ලක්ෂ්ය අතර සමානකම් පිළිබඳ අදහස ප්රයෝජනයට ගනී. ළඟම ලේබල් කර ඇති නිරීක්ෂණය කළ හැකි දත්ත ලක්ෂ්ය මත පදනම්ව නොදුටු දත්ත ලේබල් කිරීම සඳහා, ප්රස්ථාරයක ලක්ෂ්ය අතර වෙන්වීම තීරණය කිරීමට ගණිතමය ක්රමයක් භාවිතා කරයි.
ආසන්නතම සංසන්දනාත්මක ස්ථාන හඳුනා ගැනීම සඳහා ඔබ දත්ත ලක්ෂ්ය අතර දුර තීරණය කළ යුතුය. යුක්ලීඩීය දුර, හැමින්ග් දුර, මෑන්හැටන් දුර, මින්කොව්ස්කි දුර වැනි දුර මැනීම් මේ සඳහා භාවිත කළ හැක. K ආසන්නතම අසල්වැසි අංකය ලෙස හඳුන්වනු ලබන අතර එය බොහෝ විට ඔත්තේ අංකයකි.
KNN වර්ගීකරණය සහ ප්රතිගාමී ගැටළු සඳහා යෙදිය හැක. ප්රතිගාමී ගැටළු සඳහා KNN භාවිතා කරන විට කරන ලද අනාවැකිය K-වඩාත්ම සමාන සිදුවීම්වල මධ්යන්ය හෝ මධ්යනය මත පදනම් වේ.
KNN මත පදනම් වූ වර්ගීකරණ ඇල්ගොරිතමයක ප්රතිඵලය K වඩාත්ම සමාන සිදුවීම් අතර ඉහළම සංඛ්යාතය සහිත පන්තිය ලෙස තීරණය කළ හැකිය. සෑම අවස්ථාවක්ම අත්යවශ්යයෙන්ම ඔවුන්ගේ පන්තිය සඳහා ඡන්දයක් ප්රකාශ කරන අතර, අනාවැකිය වැඩිම ඡන්ද ලබා ගන්නා පන්තියට අයත් වේ.
7. K-අර්ථය
එය පොකුරු ගැටළු ආමන්ත්රණය කරන අධීක්ෂණය නොකළ ඉගෙනුම් ක්රමයකි. දත්ත කට්ටල නිශ්චිත පොකුරු සංඛ්යාවකට බෙදා ඇත—එක් එක් පොකුරු දත්ත ලක්ෂ්ය සමජාතීය වන අතර අනෙක් පොකුරුවලට වඩා වෙනස් වන ආකාරයෙන් එය K ලෙසට අමතන්න.
K-එනම් පොකුරු ක්රමවේදය:
- එක් එක් පොකුරක් සඳහා, K-අදහස් ඇල්ගොරිතම k centroids හෝ ලක්ෂ්ය තෝරා ගනී.
- ආසන්නතම කේන්ද්රස්ථාන හෝ K පොකුරු සමඟ, එක් එක් දත්ත ලක්ෂ්යය පොකුරක් සාදයි.
- දැන්, දැනටමත් පවතින පොකුරු සාමාජිකයින් මත පදනම්ව නව කේන්ද්රාකාර නිපදවනු ලැබේ.
- එක් එක් දත්ත ලක්ෂ්යය සඳහා ආසන්නතම දුර ගණනය කරනු ලබන්නේ මෙම යාවත්කාලීන කරන ලද කේන්ද්රාකාර භාවිතා කරමිනි. කේන්ද්රාකාර වෙනස් නොවන තුරු, මෙම ක්රියාවලිය නැවත නැවතත් සිදු කෙරේ.
එය වේගවත්, වඩා විශ්වාසදායක සහ තේරුම් ගැනීමට පහසු වේ. ගැටළු තිබේ නම්, k-means හි අනුවර්තනය වීම ගැලපීම් සරල කරයි. දත්ත කට්ටල එකිනෙකට වෙනස් හෝ හොඳින් හුදකලා වූ විට, ප්රතිඵල හොඳම වේ. එයට අක්රමවත් දත්ත හෝ පිටස්තරයන් කළමනාකරණය කළ නොහැක.
8. සහය දෛශික යන්ත්ර
දත්ත වර්ගීකරණය කිරීමට SVM තාක්ෂණය භාවිතා කරන විට, අමු දත්ත n-මාන අවකාශයක තිත් ලෙස පෙන්වනු ලැබේ (මෙහිදී n යනු ඔබට ඇති විශේෂාංග ගණනයි). එක් එක් විශේෂාංගයේ අගය පසුව නිශ්චිත ඛණ්ඩාංකයකට සම්බන්ධ වන නිසා දත්ත පහසුවෙන් වර්ග කළ හැක.
දත්ත වෙන් කර ඒවා ප්රස්ථාරයක් මත තැබීමට, වර්ගීකරණ ලෙස හඳුන්වන රේඛා භාවිතා කරන්න. මෙම ප්රවේශය එක් එක් දත්ත ලක්ෂ්යය n-මාන අවකාශයක ලක්ෂ්යයක් ලෙස සැලසුම් කරයි, එහිදී n යනු ඔබට ඇති විශේෂාංග ගණන වන අතර එක් එක් විශේෂාංගයේ අගය නිශ්චිත ඛණ්ඩාංක අගයකි.
අපි දැන් වෙනස් ලෙස වර්ගීකරණය කර ඇති දත්ත කට්ටල දෙකකට දත්ත බෙදන රේඛාවක් සොයා ගනිමු. එක් එක් කණ්ඩායම් දෙකෙහිම ආසන්නතම ලක්ෂ්යවලින් ඇති දුර මෙම රේඛාව දිගේ දුරම වේ.
ආසන්නතම ලක්ෂ්ය දෙක ඉහත උදාහරණයේ රේඛාවට වඩා බොහෝ දුරින් පිහිටා ඇති බැවින්, දත්ත වෙනස් ලෙස වර්ග කළ කණ්ඩායම් දෙකට බෙදන රේඛාව මැද රේඛාව වේ. අපගේ වර්ගීකරණය මෙම රේඛාවයි.
9. Dimensionality අඩු කිරීම
මානයන් අඩු කිරීමේ ප්රවේශය භාවිතා කරමින්, පුහුණු දත්ත වලට අඩු ආදාන විචල්යයන් තිබිය හැක. සරලව කිවහොත්, එය ඔබගේ විශේෂාංග කට්ටලයේ ප්රමාණය හැකිලීමේ ක්රියාවලියට යොමු කරයි. ඔබගේ දත්ත කට්ටලයට තීරු 100ක් ඇතැයි සිතමු; මානය අඩු කිරීම එම මුදල තීරු 20 දක්වා අඩු කරයි.
මාදිලිය ස්වයංක්රීයව වඩාත් සංකීර්ණ ලෙස වර්ධනය වන අතර විශේෂාංග ගණන වැඩි වන විට අධික ලෙස ගැලපීමේ විශාල අවදානමක් ඇත. වැඩි මානයන් තුළ දත්ත සමඟ වැඩ කිරීමේ විශාලතම ගැටළුව වන්නේ ඔබේ දත්තවල අධික ලක්ෂණ ගණනක් අඩංගු වන විට ඇතිවන "මානත්වයේ ශාපය" ලෙස හඳුන්වන දෙයයි.
මානය අඩු කිරීම සඳහා පහත සඳහන් අංග භාවිතා කළ හැකිය:
- අදාළ ලක්ෂණ සොයා ගැනීමට සහ තෝරා ගැනීමට, විශේෂාංග තේරීම භාවිතා වේ.
- දැනටමත් පවතින විශේෂාංග භාවිතා කරමින්, විශේෂාංග ඉංජිනේරු ශිල්පය අතින් නව විශේෂාංග නිර්මාණය කරයි.
නිගමනය
අධීක්ෂණය නොකළ හෝ අධීක්ෂණ යන්ත්ර ඉගෙනීම යන දෙකම කළ හැකිය. ඔබේ දත්ත අඩු බහුල නම් සහ පුහුණුව සඳහා හොඳින් ටැග් කර ඇත්නම් අධීක්ෂණ ඉගෙනීම තෝරන්න.
විශාල දත්ත කට්ටල බොහෝ විට අධීක්ෂණය නොකළ ඉගෙනුම් භාවිතයෙන් වඩා හොඳ ප්රතිඵල ලබා දෙයි. ගැඹුරු ඉගෙනුම ඔබට පහසුවෙන් ලබා ගත හැකි විශාල දත්ත එකතුවක් තිබේ නම් ක්රම වඩාත් සුදුසුය.
ශක්තිමත් කිරීමේ ඉගෙනීම සහ ගැඹුරු ශක්තිමත් කිරීමේ ඉගෙනීම යනු ඔබ අධ්යයනය කළ මාතෘකා කිහිපයකි. ස්නායු ජාල වල ලක්ෂණ, භාවිතයන් සහ සීමාවන් දැන් ඔබට පැහැදිලිය. අවසාන වශයෙන් නොව අවම වශයෙන්, ඔබ විවිධ ක්රමලේඛන භාෂා, IDE සහ වේදිකා සඳහා විකල්ප සලකා බැලුවා එය ඔබේම නිර්මාණය කිරීමට පැමිණි විට යන්ත්ර ඉගෙනුම් ආකෘති.
ඔබ කළ යුතු ඊළඟ දෙය නම් අධ්යයනය කිරීම සහ එක් එක් භාවිතා කිරීම ආරම්භ කිරීමයි යන්ත්ර ඉගෙනීම ප්රවේශය. විෂය පුළුල් වුවද, ඕනෑම මාතෘකාවක් එහි ගැඹුර ගැන අවධානය යොමු කළහොත් පැය කිහිපයකින් තේරුම් ගත හැකිය. සෑම විෂයයක්ම අනෙක් ඒවාට වඩා තනිවම පවතී.
ඔබ එක් වරකට එක ගැටලුවක් ගැන සිතා, එය අධ්යයනය කර, ප්රායෝගිකව ක්රියාවට නංවා, එහි ඇති ඇල්ගොරිතම(ය) ක්රියාවට නැංවීමට ඔබ කැමති භාෂාවක් භාවිතා කළ යුතුය.
ඔබමයි