د هر ډول کارپوریټ فعالیت لپاره یو له لومړنیو معیارونو څخه د معلوماتو مؤثره ګټه اخیستنه ده. په ځینو وختونو کې، د رامینځته شوي معلوماتو حجم د لومړني پروسس کولو ظرفیت څخه ډیر دی.
دا هغه ځای دی چې د ماشین زده کړې الګوریتم لوبې ته راځي. په هرصورت، مخکې له دې چې دا پیښ شي، معلومات باید مطالعه او تشریح شي. په لنډه توګه، دا هغه څه دي چې د غیر څارل شوي ماشین زده کړې لپاره کارول کیږي.
په دې مقاله کې، موږ به په ژوره توګه د غیر څارل شوي ماشین زده کړې معاینه کړو، پشمول د دې الګوریتم، د کارولو قضیې، او نور ډیر څه.
غیر څارل شوي ماشین زده کړه څه ده؟
د ماشین زده کړې غیر څارل شوي الګوریتمونه په ډیټاسیټ کې نمونې پیژني چې پیژندل شوې یا لیبل شوې پایله نلري. نظارت شوی د ماشین زده کړې الګوریتمونه لیبل شوی محصول لري.
د دې توپیر پوهیدل تاسو سره مرسته کوي چې پوه شي چې ولې د غیر نظارت شوي ماشین زده کړې میتودونه د راجسټریشن یا طبقه بندي مسلو حل کولو لپاره نشي کارول کیدی، ځکه چې تاسو نه پوهیږئ د محصول ډیټا ارزښت / ځواب څه کیدی شي. تاسو نشئ کولی په نورمال ډول الګوریتم وروزو که تاسو ارزښت/ځواب نه پیژنئ.
برسېره پردې، د معلوماتو د بنسټیز جوړښت پیژندلو لپاره غیر څارل شوي زده کړې کارول کیدی شي. دا الګوریتمونه د انسان متقابل عمل ته اړتیا پرته پټ نمونې یا د معلوماتو ګروپونه کشف کوي.
په معلوماتو کې د ورته والي او تضادونو موندلو ظرفیت دا د اکتشافي ډیټا تحلیلونو ، کراس پلور تخنیکونو ، مصرف کونکي برخې کولو ، او عکس پیژندنې لپاره غوره انتخاب رامینځته کوي.
لاندې سناریو ته پام وکړئ: تاسو د خوراکي توکو پلورنځي کې یاست او یوه ناپیژندل شوې میوه وګورئ چې تاسو مخکې هیڅکله نه وه لیدلې. تاسو کولی شئ په اسانۍ سره نامعلومه میوه د نورو میوو څخه د هغې د شکل، اندازې یا رنګ په اړه ستاسو د کتنو پراساس توپیر وکړئ.
غیر څارل شوي ماشین زده کړې الګوریتمونه
کلستر کول
کلستر کول بې له شکه د زده کړې ترټولو پراخه کارول شوې بې څارنې طریقه ده. دا طریقه اړونده ډاټا توکي په تصادفي ډول تولید شوي کلسترونو کې اچوي.
پخپله، د ML ماډل هر ډول نمونې، ورته والی، او/یا توپیرونه په غیر کټګور شوي ډاټا جوړښت کې کشف کوي. یو ماډل به وکوالی شي په ډیټا کې کوم طبیعي ګروپونه یا ټولګي کشف کړي.
ډولونه
د کلستر کولو ډیری ډولونه شتون لري چې کارول کیدی شي. راځئ چې لومړی تر ټولو مهم وګورو.
- ځانګړي کلسترینګ، ځینې وختونه د "سخت" کلسترینګ په نوم پیژندل کیږي، د ګروپ کولو یو ډول دی چې په کې د معلوماتو یوه برخه یوازې په یوه کلستر پورې اړه لري.
- اوورلیپینګ کلسترینګ، ډیری وختونه د "نرم" کلسترینګ په نوم پیژندل کیږي، د ډیټا شیانو ته اجازه ورکوي چې له یو څخه ډیرو کلسترونو پورې اړه ولري تر مختلفو درجو پورې. سربیره پردې، احتمالي کلسترینګ د "نرم" کلسترینګ یا د کثافت اټکل ستونزې حل کولو لپاره کارول کیدی شي ، او همدارنګه د ځینې کلسترونو پورې اړوند د ډیټا پوائنټونو احتمال یا احتمال ارزولو لپاره.
- د ګروپ شوي ډیټا توکو د درجه بندي رامینځته کول د درجه بندي کلستر کولو هدف دی ، لکه څنګه چې نوم یې په ګوته کوي. د ډیټا توکي د کلسترونو رامینځته کولو لپاره د درجه بندۍ پراساس جوړ شوي یا یوځای شوي.
قضیې وکاروئ:
- د بې نظمۍ کشف:
په ډاټا کې هر ډول بهرنی د کلستر کولو په کارولو سره کشف کیدی شي. په ټرانسپورټ او لوژستیک کې شرکتونه، د بیلګې په توګه، کولی شي د لوژیستیکي خنډونو موندلو یا د زیانمن شوي میخانیکي برخو (د وړاندوینې ساتنې) د افشا کولو لپاره د بې نظمۍ کشف وکاروي.
مالي بنسټونه کولی شي د ټیکنالوژۍ څخه کار واخلي ترڅو د درغلیو لیږد کشف کړي او چټک ځواب ورکړي، په بالقوه توګه ډیرې پیسې خوندي کوي. زموږ د ویډیو په کتلو سره د غیر معمولي پیښو او درغلۍ موندلو په اړه نور معلومات زده کړئ.
- د پیرودونکو او بازارونو ویشل:
د کلستر کولو الګوریتمونه کولی شي د هغو خلکو په ډله کې مرسته وکړي چې ورته ځانګړتیاوې لري او د ډیرو اغیزمن بازار موندنې او هدف شوي نوښتونو لپاره د مصرف کونکي شخصیتونه رامینځته کوي.
K- مانا
K-means د کلستر کولو طریقه ده چې د ویشلو یا قطع کولو په نوم هم پیژندل کیږي. دا د ډیټا پوائنټونه په یو مخکیني ټاکل شوي کلسترونو ویشي چې د K په نوم پیژندل کیږي.
د K-means میتود کې، K ان پټ دی ځکه چې تاسو کمپیوټر ته ووایاست چې تاسو په خپل ډاټا کې څومره کلسترونه پیژندل غواړئ. هر ډیټا توکي وروسته د نږدې کلستر مرکز ته ګمارل کیږي، چې د سینټرایډ (په انځور کې تور نقطې) په نوم پیژندل کیږي.
وروستی د معلوماتو ذخیره کولو ځایونو په توګه کار کوي. د کلستر کولو تخنیک څو ځله ترسره کیدی شي تر هغه چې کلسترونه ښه تعریف شوي نه وي.
فزي K- معنی
Fuzzy K-means د K-means تخنیک توسیع دی، کوم چې د کلستر کولو اوورلیپینګ کولو لپاره کارول کیږي. د K-means تخنیک برعکس، د فزي K- مانا دا په ګوته کوي چې د ډیټا ټکي ممکن په ډیری کلسترونو پورې اړه ولري چې هر یو ته د نږدېوالي مختلف درجې لري.
د ډیټا پوائنټونو او د کلستر سینټرایډ ترمینځ فاصله د نږدې کیدو محاسبه کولو لپاره کارول کیږي. د پایلې په توګه، داسې وختونه شتون لري کله چې مختلف کلسترونه تیریږي.
د ګازو مخلوط ماډلونه
د Gaussian Mixture Models (GMMs) یو میتود دی چې په احتمالي کلستر کولو کې کارول کیږي. ځکه چې معنی او توپیر نامعلوم دی، ماډلونه داسې انګیرل کیږي چې د ګوسیانو ویش یو ټاکلی شمیر شتون لري، هر یو د جلا کلستر استازیتوب کوي.
د دې لپاره چې معلومه کړي چې کوم کلستر د یو ځانګړي ډیټا نقطه پورې اړه لري، میتود په اصل کې کارول کیږي.
درجه بندي کلسترول
د درجه بندي کلستر کولو ستراتیژي کولی شي د هر ډیټا پوائنټ سره پیل شي چې مختلف کلستر ته ټاکل شوي. هغه دوه کلسترونه چې یو بل ته نږدې دي بیا په یو واحد کلستر کې مخلوط شوي. تکراري یوځای کول دوام لري تر هغه چې یوازې یو کلستر په سر کې پاتې وي.
دا طریقه د ښکته پورته یا جمع کولو په نوم پیژندل کیږي. که تاسو په ورته کلستر کې تړل شوي ټول ډیټا توکي سره پیل کړئ او بیا تقسیم کړئ تر هغه چې هر ډیټا توکي د جلا کلستر په توګه ټاکل شوي وي، دا طریقه د پورته څخه ښکته یا ویشونکي درجه بندي کلسترینګ په نوم پیژندل کیږي.
Apriori الګوریتم
د مارکیټ باسکیټ تحلیل د اپریوري الګوریتم مشهور کړی، د میوزیک پلیټ فارمونو او آنلاین پلورنځیو لپاره د مختلف وړاندیز انجنونو پایله.
دوی د لیږد ډیټاسیټونو کې د بار بار توکو سیټونو موندلو لپاره کارول کیږي ، یا د توکو ګروپونه ، د دې لپاره چې د بل مصرف پراساس د یو محصول مصرف احتمال اټکل کړي.
د مثال په توګه ، که زه په سپوټایف کې د OneRepublic راډیو غږول پیل کړم "د ستورو شمیرل ،" په دې چینل کې یوه بله سندره به یقینا د تصور ډریګن سندره وي ، لکه "بد دروغ."
دا زما د پخوانیو اوریدلو عادتونو او همدارنګه د نورو د اوریدلو نمونو پراساس دی. د Apriori میتودونه د هش ونې په کارولو سره د شیانو شمیره کوي، د ډیټا سیټ پراخوالی - لومړی.
ابعاد کمول
د ابعاد کمول یو ډول نه څارل شوي زده کړې دي چې د ستراتیژیو ټولګه کاروي ترڅو په ډیټا سیټ کې د ځانګړتیاو - یا ابعادو شمیر کم کړي. اجازه راکړئ چې روښانه کړو.
دا ستاسو د رامینځته کولو پرمهال د امکان تر حده ډیر ډیټا شاملولو لپاره لیوالتیا کیدی شي د ماشین زده کړې لپاره ډیټاسیټ. موږ غلط مه کوئ: دا ستراتیژي ښه کار کوي ځکه چې ډیر معلومات معمولا ډیرې دقیقې موندنې ترلاسه کوي.
فرض کړئ چې معلومات په N-dimensional ځای کې زیرمه شوي، د هرې ځانګړتیا سره د مختلف ابعاد استازیتوب کوي. که چیرې ډیری ډیټا شتون ولري ممکن په سلګونو ابعاد شتون ولري.
د Excel سپریډ شیټ په پام کې ونیسئ، د کالمونو سره د ځانګړتیاوو استازیتوب کوي او قطارونه د ډیټا توکو استازیتوب کوي. کله چې ډیری ابعاد شتون ولري، د ML الګوریتم ممکن په خراب ډول ترسره کړي د معلوماتو لید ستونزمن کیدی شي.
نو دا د ځانګړتیاوو یا ابعادو محدودولو لپاره منطقي کوي، او یوازې اړین معلومات وړاندې کوي. د ابعاد کمول یوازې دا دي. دا د ډیټا سیټ بشپړتیا سره موافقت پرته د مدیریت وړ مقدار ډیټا ان پټونو ته اجازه ورکوي.
د اصلي برخې تحلیل (PCA)
د اصلي برخې تحلیل د ابعاد کمولو طریقه ده. دا په لوی ډیټاسیټونو کې د ب featuresو شمیر کمولو لپاره کارول کیږي ، په پایله کې د دقیقیت قرباني کولو پرته د ډیټا خورا سادګۍ پایله ده.
د ډیټاسیټ کمپریشن د یوې میتود لخوا ترسره کیږي چې د فیچر استخراج په نوم پیژندل کیږي. دا په ګوته کوي چې د اصلي سیټ عناصر په نوي، کوچني کې مخلوط شوي. دا نوي ځانګړتیاوې د لومړنیو برخو په توګه پیژندل کیږي.
البته، دلته اضافي الګوریتمونه شتون لري چې تاسو یې په خپل غیر څارل شوي زده کړې غوښتنلیکونو کې کارولی شئ. پورته لست شوي یوازې خورا مشهور دي، له همدې امله دوی په ډیر تفصیل سره بحث کیږي.
د غیر څارل شوي زده کړې پلي کول
- د زده کړې غیر څارل شوي میتودونه د لید لید دندو لپاره کارول کیږي لکه د څیز پیژندنه.
- غیر څارل شوي ماشین زده کړه د طبي عکس العمل سیسټمونو ته مهم اړخونه ورکوي، لکه د عکس پیژندنه، طبقه بندي، او طبقه بندي، چې په رادیولوژي او رنځپوهنه کې کارول کیږي ترڅو ناروغان په چټکه او باوري توګه تشخیص کړي.
- غیر څارل شوي زده کړه کولی شي د ډیټا رجحاناتو پیژندلو کې مرسته وکړي چې د مصرف کونکي چلند په اړه د تیرو معلوماتو کارولو سره د کراس پلور خورا مؤثره ستراتیژیو رامینځته کولو لپاره کارول کیدی شي. د چیک آوټ پروسې په جریان کې ، دا د آنلاین سوداګرۍ لخوا کارول کیږي ترڅو پیرودونکو ته سم اضافې وړاندیز وکړي.
- د زده کړې غیر څارل شوي میتودونه کولی شي د معلوماتو د ډیری حجمونو له لارې د لیدونکو موندلو لپاره وپلټل شي. دا غیرمعمومیتونه کیدای شي د تجهیزاتو د خرابوالي، انساني غلطی، یا امنیتي سرغړونو خبرتیا لوړه کړي.
د بې څارنې زده کړې ستونزې
غیر څارل شوي زده کړه په مختلفو لارو کې زړه نازړه ده، د احتمال څخه د مهمو لیدونو موندلو لپاره د قیمتي ډیټا لیبل کولو څخه مخنیوي لپاره ډاټا عملیات په هرصورت، د روزنې لپاره د دې ستراتیژۍ کارولو لپاره ډیری نیمګړتیاوې شتون لري د ماشین زده کړې موډلونه چې تاسو باید خبر اوسئ. دلته ځینې مثالونه دي.
- لکه څنګه چې د ان پټ ډاټا لیبلونه نلري چې د غبرګون کلیدونو په توګه کار کوي، د غیر څارل شوي زده کړې ماډل پایلې ممکن لږ دقیق وي.
- غیر څارل شوي زده کړه په مکرر ډول د لوی ډیټاسیټونو سره کار کوي ، کوم چې کولی شي کمپیوټري پیچلتیا زیاته کړي.
- دا طریقه د تفتیش په موضوع کې د انسانانو لخوا د داخلي یا بهرني متخصصینو لخوا د محصول تصدیق ته اړتیا لري.
- الګوریتمونه باید د روزنې په مرحله کې هره ممکنه سناریو معاینه او محاسبه کړي، کوم چې یو څه وخت نیسي.
پایله
د ډیټا مؤثره کارول په ځانګړي بازار کې د رقابتي څنډې رامینځته کولو کلیدي ده.
تاسو کولی شئ د غیر څارل شوي ماشین زده کړې الګوریتمونو په کارولو سره ډاټا برخې کړئ ترڅو ستاسو د نښه شوي لیدونکو غوره توبونه معاینه کړي یا دا معلومه کړي چې یو ځانګړي انفیکشن یو ځانګړي درملنې ته څنګه ځواب ورکوي.
ډیری عملي غوښتنلیکونه شتون لري، او د ډیټا ساینس پوهان، انجینران او معماران کولی شي ستاسو سره ستاسو د اهدافو په ټاکلو او ستاسو د شرکت لپاره د ځانګړي ML حلونو رامینځته کولو کې مرسته وکړي.
یو ځواب ورکړئ ووځي