ඕනෑම ආකාරයක ආයතනික ක්රියාකාරකම් සඳහා වන මූලික නිර්ණායකවලින් එකක් වන්නේ තොරතුරු ඵලදායී ලෙස භාවිතා කිරීමයි. යම් අවස්ථාවක දී, නිර්මාණය කරන ලද දත්ත පරිමාව මූලික සැකසුම් ධාරිතාව ඉක්මවා යයි.
යන්ත්ර ඉගෙනීමේ ඇල්ගොරිතම ක්රියාත්මක වන්නේ එහිදීය. කෙසේ වෙතත්, මේ කිසිවක් සිදුවීමට පෙර, තොරතුරු අධ්යයනය කර අර්ථ නිරූපණය කළ යුතුය. කෙටියෙන් කිවහොත්, අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනීම භාවිතා කරන්නේ එයයි.
මෙම ලිපියෙන්, අපි එහි ඇල්ගොරිතම, භාවිත අවස්ථා, සහ තවත් බොහෝ දේ ඇතුළුව, ගැඹුරින් අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනීම පරීක්ෂා කරන්නෙමු.
අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනීම යනු කුමක්ද?
අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනුම් ඇල්ගොරිතම දන්නා හෝ ලේබල් කළ ප්රතිවිපාකයක් නොමැති දත්ත කට්ටලයක රටා හඳුනා ගනී. අධීක්ෂණය කළා යන්ත්ර ඉගෙනීමේ ඇල්ගොරිතම ලේබල් කළ ප්රතිදානයක් ඇත.
ප්රතිදාන දත්ත සඳහා අගය/පිළිතුර කුමක් විය හැකිද යන්න ඔබ නොදන්නා බැවින්, ප්රතිගාමී හෝ වර්ගීකරණ ගැටළු විසඳීමට අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනුම් ක්රම භාවිතා කළ නොහැක්කේ මන්දැයි මෙම වෙනස දැනගැනීම ඔබට තේරුම් ගැනීමට උපකාර කරයි. ඔබ අගය/පිළිතුර නොදන්නේ නම් ඔබට සාමාන්යයෙන් ඇල්ගොරිතමයක් පුහුණු කළ නොහැක.
එපමණක් නොව, දත්තවල මූලික ව්යුහය හඳුනා ගැනීමට අධීක්ෂණය නොකළ ඉගෙනීම භාවිතා කළ හැක. මෙම ඇල්ගොරිතම මිනිසුන්ගේ අන්තර්ක්රියා අවශ්යතාවයකින් තොරව සැඟවුණු රටා හෝ දත්ත කාණ්ඩ හඳුනා ගනී.
තොරතුරුවල සමානකම් සහ ප්රතිවිරෝධතා හඳුනා ගැනීමට එහි ඇති හැකියාව ගවේෂණාත්මක දත්ත විශ්ලේෂණය, හරස් විකුණුම් ශිල්පීය ක්රම, පාරිභෝගික ඛණ්ඩනය සහ පින්තූර හඳුනාගැනීම සඳහා විශිෂ්ට තේරීමක් කරයි.
පහත තත්ත්වය සලකා බලන්න: ඔබ සිල්ලර කඩයක සිටින අතර ඔබ මින් පෙර කිසිදා දැක නැති හඳුනා නොගත් පලතුරක් දකියි. එහි ස්වරූපය, ප්රමාණය හෝ වර්ණය පිළිබඳ ඔබේ නිරීක්ෂණ මත පදනම්ව අවට ඇති අනෙකුත් පලතුරුවලට වඩා වෙනස් නොදන්නා පලතුරක් ඔබට පහසුවෙන් වෙන්කර හඳුනාගත හැකිය.
අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනුම් ඇල්ගොරිතම
පොකුරු කිරීම
Clustering යනු වඩාත් පුලුල්ව භාවිතා කරන අධීක්ෂණය නොකළ ඉගෙනුම් ප්රවේශය බවට සැකයක් නැත. මෙම ප්රවේශය අදාළ දත්ත අයිතම අහඹු ලෙස ජනනය කරන ලද පොකුරු බවට පත් කරයි.
ML ආකෘතියක් විසින්ම, වර්ගීකරණය නොකළ දත්ත ව්යුහයක ඕනෑම රටාවක්, සමානකම් සහ/හෝ වෙනස්කම් සොයා ගනී. දත්තවල ඕනෑම ස්වභාවික කණ්ඩායම් හෝ පන්ති සොයා ගැනීමට ආකෘතියකට හැකි වේ.
වර්ග
භාවිතා කළ හැකි පොකුරු ආකාර කිහිපයක් තිබේ. අපි මුලින්ම වැදගත්ම ඒවා බලමු.
- Exclusive clustering, සමහර විට "hard" clustering ලෙස හැඳින්වේ, තනි දත්ත කොටසක් එක් පොකුරකට පමණක් අයත් වන කාණ්ඩගත කිරීමේ වර්ගයකි.
- අතිච්ඡාදනය වන පොකුරු, බොහෝ විට "මෘදු" පොකුරු ලෙස හැඳින්වේ, දත්ත වස්තූන් විවිධ මට්ටම් වලට පොකුරු එකකට වඩා අයත් වීමට ඉඩ සලසයි. තවද, "මෘදු" පොකුරු හෝ ඝනත්ව ඇස්තමේන්තු ගැටළු විසඳීමට මෙන්ම ඇතැම් පොකුරුවලට අයත් දත්ත ලක්ෂ්යවල සම්භාවිතාව හෝ සම්භාවිතාව තක්සේරු කිරීමට සම්භාවිතා පොකුරු භාවිතා කළ හැක.
- සමූහගත දත්ත අයිතමවල ධූරාවලියක් නිර්මාණය කිරීම නමේ දැක්වෙන පරිදි ධූරාවලි පොකුරු කිරීමේ ඉලක්කය වේ. දත්ත අයිතම පොකුරු ජනනය කිරීම සඳහා ධූරාවලිය මත පදනම්ව විසංයෝජනය කර හෝ ඒකාබද්ධ කෙරේ.
නඩු භාවිතා කරන්න:
- විෂමතා හඳුනාගැනීම:
පොකුරු භාවිතයෙන් දත්තවල ඇති ඕනෑම ආකාරයක පිටස්තරයක් අනාවරණය කර ගත හැක. උදාහරණයක් ලෙස, ප්රවාහනය සහ සැපයුම් සමාගම්වලට, සැපයුම් බාධාවන් සොයා ගැනීමට හෝ හානියට පත් යාන්ත්රික කොටස් (පුරෝකථන නඩත්තු) හෙළි කිරීමට විෂමතා හඳුනාගැනීම භාවිතා කළ හැකිය.
මූල්ය ආයතනවලට වංචනික ගනුදෙනු හඳුනා ගැනීමට සහ ඉක්මනින් ප්රතිචාර දැක්වීමට තාක්ෂණය භාවිතා කළ හැකි අතර එමඟින් විශාල මුදලක් ඉතිරි කර ගත හැකිය. අපගේ වීඩියෝව නැරඹීමෙන් අසාමාන්යතා සහ වංචා හඳුනාගැනීම ගැන තව දැනගන්න.
- පාරිභෝගිකයින් සහ වෙළඳපල කොටස් කිරීම:
වඩාත් ඵලදායී අලෙවිකරණය සහ ඉලක්කගත මුලපිරීම් සඳහා සමාන ලක්ෂණ ඇති පුද්ගලයින් කණ්ඩායම් කිරීමට සහ පාරිභෝගික පුද්ගලයින් නිර්මාණය කිරීමට පොකුරු ඇල්ගොරිතමවලට සහාය විය හැක.
K- අදහස්
K-means යනු පොකුරු ක්රමයක් වන අතර එය කොටස් කිරීම හෝ ඛණ්ඩනය ලෙසද හැඳින්වේ. එය දත්ත ලක්ෂ්ය K ලෙස හඳුන්වන කලින් තීරණය කළ පොකුරු ගණනකට බෙදයි.
K-means ක්රමයේදී, K යනු ඔබේ දත්තවල ඔබට හඳුනා ගැනීමට අවශ්ය පොකුරු කීයක් පරිගණකයට පවසන බැවින් K යනු ආදානයයි. සෑම දත්ත අයිතමයක්ම පසුව සමීපතම පොකුරු මධ්යස්ථානය වෙත පවරා ඇත, එය කේන්ද්රස්ථානයක් ලෙස හැඳින්වේ (පින්තූරයේ කළු තිත්).
දෙවැන්න දත්ත ගබඩා අවකාශයන් ලෙස සේවය කරයි. පොකුරු හොඳින් නිර්වචනය වන තෙක් පොකුරු තාක්ෂණය බොහෝ වාර ගණනක් සිදු කළ හැකිය.
Fuzzy K-එනම්
Fuzzy K-means යනු K-means තාක්ෂණයේ දිගුවකි, එය අතිච්ඡාදනය වන පොකුරු කිරීමට භාවිතා කරයි. K-means තාක්ෂණය මෙන් නොව, නොපැහැදිලි K-අදහස් දක්වන්නේ දත්ත ලක්ෂ්ය එකිනෙකට වෙනස් මට්ටමේ සමීපතා ඇති බොහෝ පොකුරුවලට අයත් විය හැකි බවයි.
දත්ත ලක්ෂ්ය සහ පොකුරු කේන්ද්රස්ථානය අතර දුර ප්රමාණය ගණනය කිරීමට භාවිතා කරයි. එහි ප්රතිඵලයක් වශයෙන්, විවිධ පොකුරු අතිච්ඡාදනය වන අවස්ථා තිබිය හැක.
Gaussian මිශ්ර ආකෘති
Gaussian Mixture Models (GMMs) යනු සම්භාවිතා පොකුරු සෑදීමේදී භාවිතා කරන ක්රමයකි. මධ්යන්ය සහ විචලනය නොදන්නා නිසා, ආකෘති නිශ්චිත ගවුසියානු ව්යාප්ති සංඛ්යාවක් ඇති බව උපකල්පනය කරයි, ඒ සෑම එකක්ම එකිනෙකට වෙනස් පොකුරක් නියෝජනය කරයි.
නිශ්චිත දත්ත ලක්ෂ්යයක් අයත් වන්නේ කුමන පොකුරටද යන්න තීරණය කිරීම සඳහා, ක්රමය අත්යවශ්යයෙන්ම භාවිතා වේ.
ධූරාවලි පොකුරු
ධූරාවලි පොකුරු උපාය මාර්ගය වෙනස් පොකුරකට පවරා ඇති එක් එක් දත්ත ලක්ෂ්යයෙන් ආරම්භ විය හැක. එකිනෙක සමීපව ඇති පොකුරු දෙක පසුව තනි පොකුරකට මිශ්ර වේ. එක් පොකුරක් පමණක් ඉහළින් පවතින තෙක් පුනරාවර්තන ඒකාබද්ධ කිරීම දිගටම පවතී.
මෙම ක්රමය පහළ සිට ඉහළට හෝ එකතු කිරීමේ ක්රමය ලෙස හැඳින්වේ. ඔබ සියලු දත්ත අයිතම එකම පොකුරකට බැඳී සිට ආරම්භ කර එක් එක් දත්ත අයිතම වෙනම පොකුරක් ලෙස පවරන තෙක් බෙදීම් සිදු කරන්නේ නම්, එම ක්රමය ඉහළ-පහළ හෝ බෙදුම් ධූරාවලි පොකුරු ලෙස හැඳින්වේ.
Apriori ඇල්ගොරිතම
වෙළඳපල බාස්කට් විශ්ලේෂණය අප්රියෝරි ඇල්ගොරිතම ජනප්රිය කළ අතර, එහි ප්රතිඵලයක් ලෙස සංගීත වේදිකා සහ සබැඳි වෙළඳසැල් සඳහා විවිධ නිර්දේශ එන්ජින් ඇති විය.
එක් නිෂ්පාදනයක් තවත් නිෂ්පාදනයක පරිභෝජනය මත පදනම්ව පරිභෝජනය කිරීමේ සම්භාවිතාව පුරෝකථනය කිරීම සඳහා නිරන්තර අයිතමයන් හෝ අයිතම කාණ්ඩ සොයා ගැනීමට ගනුදෙනු දත්ත කට්ටලවල ඒවා භාවිතා වේ.
උදාහරණයක් ලෙස, මම OneRepublic හි රේඩියෝව Spotify හි “Counting Stars” සමඟ වාදනය කිරීමට පටන් ගන්නේ නම්, මෙම නාලිකාවේ ඇති අනෙක් ගීත වලින් එකක් නිසැකවම “Bad Liar” වැනි Imagine Dragon ගීතයක් වනු ඇත.
මෙය මගේ පෙර සවන් දීමේ පුරුදු මෙන්ම අන් අයගේ සවන්දීමේ රටාවන් මත පදනම් වේ. Apriori ක්රම මගින් හෑෂ් ගසක් භාවිතා කරමින් අයිතමයන් ගණන් කරයි, දත්ත කට්ටලය පළලින් ප්රථමයෙන් ගමන් කරයි.
මානයන් අඩු කිරීම
Dimensionality reduction යනු දත්ත කට්ටලයක ඇති විශේෂාංග ගණන - හෝ මානයන් - අවම කිරීම සඳහා උපාය මාර්ග එකතුවක් භාවිතා කරන අධීක්ෂණය නොකළ ඉගෙනීමකි. අපට පැහැදිලි කිරීමට ඉඩ දෙන්න.
ඔබගේ නිර්මාණය කිරීමේදී හැකිතාක් දත්ත ඇතුළත් කිරීමට එය පෙළඹවිය හැක යන්ත්ර ඉගෙනීම සඳහා දත්ත කට්ටලය. අපව වරදවා වටහා නොගන්න: බොහෝ දත්ත සාමාන්යයෙන් වඩාත් නිවැරදි සොයාගැනීම් ලබා දෙන බැවින් මෙම උපාය හොඳින් ක්රියා කරයි.
දත්ත ගබඩා කර ඇත්තේ N-මාන අවකාශයේ යැයි උපකල්පනය කරන්න, එක් එක් විශේෂාංගය වෙනස් මානයක් නියෝජනය කරයි. දත්ත විශාල ප්රමාණයක් තිබේ නම් මානයන් සිය ගණනක් තිබිය හැක.
ලක්ෂණ නියෝජනය කරන තීරු සහ දත්ත අයිතම නියෝජනය කරන පේළි සහිත Excel පැතුරුම්පත් සලකා බලන්න. බොහෝ මානයන් ඇති විට, ML ඇල්ගොරිතම දුර්වල ලෙස ක්රියා කළ හැක දත්ත දෘශ්යකරණය දුෂ්කර විය හැක.
එබැවින් එය ලක්ෂණ හෝ මානයන් සීමා කිරීම තාර්කික කරයි, සහ අදාළ තොරතුරු පමණක් ලබා දෙයි. Dimensionality අඩු කිරීම එපමණයි. එය දත්ත කට්ටලයේ අඛණ්ඩතාවයට හානි නොවන පරිදි කළමනාකරණය කළ හැකි දත්ත ආදාන ප්රමාණයකට ඉඩ සලසයි.
ප්රධාන සංරචක විශ්ලේෂණය (PCA)
ප්රධාන සංරචක විශ්ලේෂණය වන්නේ මානය අඩු කිරීමේ ප්රවේශයකි. එය විශාල දත්ත කට්ටලවල ඇති විශේෂාංග සංඛ්යාව අවම කිරීමට භාවිතා කරයි, එහි ප්රතිඵලයක් ලෙස නිරවද්යතාව කැප නොකර වැඩි දත්ත සරල බවක් ඇති කරයි.
දත්ත කට්ටල සම්පීඩනය විශේෂාංග නිස්සාරණය ලෙස හඳුන්වන ක්රමයක් මගින් සිදු කෙරේ. මුල් කට්ටලයේ මූලද්රව්ය නව කුඩා එකකට මිශ්ර වී ඇති බව එයින් පෙන්නුම් කෙරේ. මෙම නව ලක්ෂණ ප්රාථමික සංරචක ලෙස හැඳින්වේ.
ඇත්ත වශයෙන්ම, ඔබේ අධීක්ෂණය නොකළ ඉගෙනුම් යෙදුම්වල ඔබට භාවිත කළ හැකි අමතර ඇල්ගොරිතම තිබේ. ඉහත ලැයිස්තුගත කර ඇති ඒවා වඩාත් ප්රචලිත වන අතර, ඒවා වඩාත් විස්තරාත්මකව සාකච්ඡා කරනු ලබන්නේ එබැවිනි.
අධීක්ෂණය නොකළ ඉගෙනීමේ යෙදීම
- වස්තු හඳුනාගැනීම වැනි දෘශ්ය සංජානන කාර්යයන් සඳහා අධීක්ෂණය නොකළ ඉගෙනුම් ක්රම භාවිත කෙරේ.
- අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනීම මගින් වෛද්ය නිරූපණ පද්ධති සඳහා තීරනාත්මක අංශ ලබා දෙයි, එනම් රූප හඳුනා ගැනීම, වර්ගීකරණය සහ ඛණ්ඩනය කිරීම, ඒවා විකිරණවේදය සහ ව්යාධි විද්යාව තුළ රෝගීන් වේගයෙන් සහ විශ්වාසදායක ලෙස හඳුනා ගැනීම සඳහා යොදා ගනී.
- පාරිභෝගික හැසිරීම් පිළිබඳ අතීත දත්ත උපයෝගී කර ගනිමින් වඩාත් ඵලදායී හරස් විකුණුම් උපාය මාර්ග නිර්මාණය කිරීමට භාවිතා කළ හැකි දත්ත ප්රවණතා හඳුනා ගැනීමට අධීක්ෂණය නොකළ ඉගෙනීමට උදවු කළ හැක. පිටවීමේ ක්රියාවලිය අතරතුර, සේවාදායකයින්ට නිවැරදි ඇඩෝන යෝජනා කිරීමට සබැඳි ව්යාපාර විසින් මෙය භාවිතා කරයි.
- අධීක්ෂණය නොකළ ඉගෙනුම් ක්රම මගින් පිටස්තරයින් සොයා ගැනීම සඳහා අතිවිශාල දත්ත පරිමාවක් හරහා පෙරා ගත හැක. මෙම අසාමාන්යතා උපකරණවල ක්රියා විරහිත වීම, මිනිස් අත්වැරදීම් හෝ ආරක්ෂක කඩවීම් පිළිබඳ දැනුම්දීමක් මතු කළ හැකිය.
අධීක්ෂණය නොකළ ඉගෙනීම සම්බන්ධ ගැටළු
අධීක්ෂණය නොකළ ඉගෙනීම වැදගත් තීක්ෂ්ණ බුද්ධිය සොයා ගැනීමේ හැකියාවේ සිට විවිධ ආකාරවලින් සිත් ඇදගන්නා සුළුය මිල අධික දත්ත ලේබල් කිරීම වැළැක්වීම සඳහා දත්ත මෙහෙයුම්. කෙසේ වෙතත්, පුහුණු කිරීම සඳහා මෙම උපාය මාර්ගය භාවිතා කිරීමේ අවාසි කිහිපයක් තිබේ යන්ත්ර ඉගෙනුම් ආකෘති ඔබ දැනුවත් විය යුතු බව. මෙන්න උදාහරණ කිහිපයක්.
- ආදාන දත්තවල ප්රතිචාර යතුරු ලෙස ක්රියා කරන ලේබල් නොමැති බැවින්, අධීක්ෂණය නොකළ ඉගෙනුම් ආකෘතිවල ප්රතිඵල අඩු නිරවද්ය විය හැකිය.
- අධීක්ෂණය නොකළ ඉගෙනීම, පරිගණක සංකීර්ණත්වය වැඩි කළ හැකි දැවැන්ත දත්ත කට්ටල සමඟ නිතර ක්රියා කරයි.
- ප්රවේශය මගින් විමර්ශන විෂයෙහි අභ්යන්තර හෝ බාහිර විශේෂඥයින් විසින් මිනිසුන් විසින් නිමැවුම් තහවුරු කිරීම අවශ්ය වේ.
- ඇල්ගොරිතම විසින් යම් කාලයක් ගතවන පුහුණු අදියර පුරාවට හැකි සෑම අවස්ථාවක්ම පරීක්ෂා කර ගණනය කළ යුතුය.
නිගමනය
ඵලදායි දත්ත භාවිතය විශේෂිත වෙළඳපලක තරඟකාරී අද්දර ස්ථාපිත කිරීම සඳහා යතුරයි.
ඔබේ ඉලක්කගත ප්රේක්ෂකයින්ගේ මනාපයන් පරීක්ෂා කිරීමට හෝ යම් ආසාදනයක් යම් ප්රතිකාරයකට ප්රතිචාර දක්වන ආකාරය තීරණය කිරීමට ඔබට අධීක්ෂණය නොකළ යන්ත්ර ඉගෙනුම් ඇල්ගොරිතම භාවිතයෙන් දත්ත කොටස් කළ හැක.
ප්රායෝගික යෙදුම් කිහිපයක් ඇත, සහ දත්ත විද්යා .යන්, ඉංජිනේරුවන් සහ ගෘහ නිර්මාණ ශිල්පීන්ට ඔබේ ඉලක්ක නිර්වචනය කිරීමට සහ ඔබේ සමාගම සඳහා අද්විතීය ML විසඳුම් සංවර්ධනය කිරීමට ඔබට සහාය විය හැක.
ඔබමයි