فهرست[پټ][ښکاره]
که تاسو د Python پروګرامر یاست یا که تاسو د تولید سیسټم کې د ماشین زده کړې معرفي کولو لپاره د کارولو لپاره د ځواکمن تولک کټ په لټه کې یاست، سکیکیټ زده کړه یو کتابتون دی چې تاسو ورته اړتیا لرئ وګورئ.
Scikit-learn په ښه توګه مستند او د کارولو لپاره ساده دی، که تاسو د ماشین زده کړې ته نوي یاست، غواړئ چې په چټکۍ سره پورته شئ او پرمخ لاړ شئ، یا غواړئ د ML څیړنې ترټولو تازه وسیله وکاروئ.
دا تاسو ته اجازه درکوي یوازې د کوډ په څو لینونو کې د وړاندوینې ډیټا ماډل رامینځته کړئ او بیا هغه ماډل کاروي ترڅو ستاسو ډیټا د لوړې کچې کتابتون په توګه مناسب کړي. دا انعطاف منونکی دی او د نورو سره ښه کار کوي د پیتون کتابتونونه لکه د چارټینګ لپاره Matplotlib، NumPy د سرې ویکتور کولو لپاره، او پانډا د ډیټا لید لپاره.
په دې لارښود کې، تاسو به د دې په اړه ټول ومومئ چې دا څه دي، تاسو یې څنګه کارولی شئ، د هغې د ګټو او زیانونو سره.
څه دي سایکټ - زده کړه?
Scikit-learn (د سکلیرن په نوم هم پیژندل کیږي) د احصایوي ماډلونو او ماشین زده کړې متنوع سیټ وړاندې کوي. د ډیری ماډلونو برعکس، سکلیرن د C په پرتله په Python کې رامینځته شوی. سره له دې چې په Python کې رامینځته شوی، د سکلیرن موثریت د لوړ فعالیت خطي الجبرا او سرې عملیاتو لپاره د NumPy کارولو پورې تړاو لري.
Scikit-Learn د ګوګل د سمر آف کوډ پروژې د یوې برخې په توګه رامینځته شوی او له هغه وخته راهیسې یې په ټوله نړۍ کې د ملیونونو Python-مرکز ډیټا ساینس پوهانو ژوند ساده کړی دی. د لړۍ دا برخه د کتابتون په وړاندې کولو او په یو عنصر تمرکز کوي - د ډیټاسیټ بدلونونه، کوم چې د وړاندوینې ماډل رامینځته کولو دمخه د اخیستلو لپاره یو مهم او حیاتي ګام دی.
کتابتون د SciPy (Scientific Python) پر بنسټ والړ دی، کوم چې باید نصب شي مخکې له دې چې تاسو د سکیکټ زده کړې وکاروئ. دا کڅوړه لاندې توکي لري:
- NumPy: د Python معیاري n-dimensional صف بسته
- SciPy: دا د ساینسي کمپیوټر لپاره یو بنسټیز کڅوړه ده
- پانډاس: د معلوماتو جوړښتونه او تحلیلونه
- Matplotlib: دا یو پیاوړی 2D/3D پلاټینګ کتابتون دی
- Sympy: سمبولیک ریاضي
- IPython: ښه متقابل کنسول
د سکیکټ زده کړې کتابتون غوښتنلیکونه
Scikit-learn د پرانیستې سرچینې Python کڅوړه ده چې د پیچلي ډیټا تحلیلونو او کان کیندنې ځانګړتیاو سره. دا د جوړ شوي الګوریتمونو ډیری سره راځي ترڅو تاسو سره ستاسو د ډیټا ساینس پروژو څخه ډیره ګټه ترلاسه کولو کې مرسته وکړي. د Scikit-learn کتابتون په لاندې ډول کارول کیږي.
1. رجعت
د ریګریشن تحلیل د دوه یا ډیرو متغیرونو تر مینځ د ارتباط تحلیل او پوهیدو لپاره احصایوي تخنیک دی. هغه طریقه چې د رجعت تحلیل کولو لپاره کارول کیږي د دې معلومولو کې مرسته کوي چې کوم عناصر اړوند دي، کوم چې له پامه غورځول کیدی شي، او دوی څنګه تعامل کوي. د ریګریشن تخنیکونه، د بیلګې په توګه، کیدای شي د سټاک قیمتونو چلند ښه پوهیدو لپاره وکارول شي.
د راجستریشن الګوریتمونه شامل دي:
- کرښه کنټرول
- د ریج ریګریشن
- د لاسونو فشار
- د پریکړې ونې ریګریشن
- تصادفي ځنګل
- د ویکتور ماشینونو ملاتړ (SVM)
2. طبقه بندي
د طبقه بندي کولو طریقه د څارنې زده کړې طریقه ده چې د روزنې ډیټا کاروي ترڅو د تازه مشاهدو کټګورۍ وپیژني. په طبقه بندي کې یو الګوریتم له ورکړل شوي څخه زده کوي ډاټاسیټ یا مشاهدات او بیا اضافي کتنې په ډیری ټولګیو یا ګروپونو کې طبقه بندي کوي. دوی کولی شي، د بیلګې په توګه، د سپیم په توګه د بریښنالیک اړیکو طبقه بندي کولو لپاره کارول کیدی شي یا نه.
د طبقه بندي الګوریتمونه لاندې شامل دي:
- لوژیستیک فشار
- K- نږدې ګاونډیان
- د ویکتور ماشین ملاتړ
- د پریکړې ونې
- تصادفي ځنګل
3. کلسترول
په Scikit-learn کې د کلستر کولو الګوریتمونه په اتوماتيک ډول د ورته ځانګړتیاو سره ډاټا په سیټونو کې تنظیم کولو لپاره کارول کیږي. کلستر کول د شیانو د ګروپ کولو پروسه ده ترڅو په ورته ګروپ کې د نورو ګروپونو سره ورته وي. د پیرودونکي ډاټا، د بیلګې په توګه، کیدای شي د دوی د موقعیت پر بنسټ جلا شي.
د کلستر کولو الګوریتمونه لاندې شامل دي:
- DB-SCAN
- K- مانا
- مینی-بیچ K-مینس
- سپیکٹرل کلسترول
4. د ماډل انتخاب
د ماډل انتخاب الګوریتمونه د ډیټا ساینس نوښتونو کې د کارولو لپاره د غوره پیرامیټونو او ماډلونو پرتله کولو ، اعتبار کولو او غوره کولو میتودونه چمتو کوي. د معلوماتو په پام کې نیولو سره، د ماډل انتخاب د کاندیدانو د ماډلونو له ډلې څخه د احصایوي ماډل غوره کولو ستونزه ده. په خورا اساسي شرایطو کې، د معلوماتو دمخه موجود ټولګه په پام کې نیول کیږي. په هرصورت، په دې دنده کې ممکن د تجربو ډیزاین هم شامل وي ترڅو ترلاسه شوي معلومات د ماډل انتخاب ستونزې سره مناسب وي.
د ماډل انتخاب ماډلونه چې کولی شي د پیرامیټونو تنظیم کولو سره دقت ته وده ورکړي پدې کې شامل دي:
- کراس اعتبار
- د ګریډ لټون
- میتریک
5. د ابعاد کمول
د لوړ ابعادي ځای څخه ټیټ ابعادي ځای ته د ډیټا لیږد کول ترڅو د ټیټ ابعاد نمایش د اصلي ډیټا ځینې مهم اړخونه خوندي کړي ، په مثالي توګه د هغې اصلي ابعاد ته نږدې ، د ابعاد کمولو په نوم پیژندل کیږي. د تحلیل لپاره د تصادفي متغیرونو شمیر کمیږي کله چې ابعاد کم شي. بهرنۍ ډاټا، د بیلګې په توګه، کیدای شي د لیدونو موثریت ته وده ورکړي.
د ابعاد کمولو الګوریتم لاندې شامل دي:
- د انتخاب ټاکنه
- د اصلي برخې تحلیل (PCA)
د Scikit-learn نصب کول
NumPy، SciPy، Matplotlib، IPython، Sympy، او Pandas اړین دي چې د Scikit-learn کارولو دمخه نصب شي. راځئ چې دا د کنسول څخه د پایپ په کارولو سره نصب کړو (یوازې د وینډوز لپاره کار کوي).
راځئ چې اوس Scikit-learn نصب کړو چې موږ اړین کتابتونونه نصب کړي دي.
برخی
Scikit-learn، ځینې وختونه د sklearn په نوم پیژندل کیږي، د ماشین زده کړې ماډلونو او احصایوي ماډلینګ پلي کولو لپاره د Python Toolkit دی. موږ ممکن دا د ریګریشن، طبقه بندي، او کلستر کولو لپاره د ماشین زده کړې ډیری ماډلونو جوړولو لپاره وکاروو، او همدارنګه د دې ماډلونو ارزولو لپاره احصایوي وسیلې. په دې کې د ابعاد کمول، د ځانګړتیاوو انتخاب، د ځانګړتیاوو استخراج، د یوځای کولو طریقې، او جوړ شوي ډیټاسیټونه هم شامل دي. موږ به دا هر یو په یو وخت کې وڅیړو.
1. د ډیټاسیټونو واردول
Scikit-learn کې یو شمیر مخکې جوړ شوي ډیټاسیټونه شامل دي، لکه د ایریس ډیټاسیټ، د کور قیمت ډیټاسیټ، د ټایټینیک ډیټاسیټ، او داسې نور. د دې ډیټاسیټونو کلیدي ګټې دا دي چې دوی د پیژندلو لپاره ساده دي او د ML ماډلونو سمدلاسه پراختیا لپاره کارول کیدی شي. دا ډیټاسیټونه د نویو لپاره مناسب دي. په ورته ډول، تاسو کولی شئ د اضافي ډیټاسیټونو واردولو لپاره sklearn وکاروئ. په ورته ډول، تاسو کولی شئ دا د اضافي ډیټاسیټونو واردولو لپاره وکاروئ.
2. د روزنې او ازموینې لپاره د ډیټاسیټ ویشل
Sklearn د روزنې او ازموینې برخو کې د ډیټاسیټ ویشلو وړتیا شامله کړه. د وړاندوینې فعالیت بې طرفه ارزونې لپاره د ډیټاسیټ ویشل اړین دي. موږ ممکن مشخص کړو چې زموږ څومره ډیټا باید په ریل او ټیسټ ډیټاسیټونو کې شامل شي. موږ د ریل ټیسټ سپلیټ په کارولو سره ډیټاسیټ ویشلی لکه د ریل سیټ 80٪ ډیټا لري او د ټیسټ سیټ 20٪ لري. ډیټاسیټ په لاندې ډول ویشل کیدی شي:
3. خطي ریګریشن
لاین ریګریشن د څارنې پر بنسټ د ماشین زده کړې تخنیک دی. دا د راجستریشن دنده ترسره کوي. د خپلواک متغیرونو پر بنسټ، د ریګریشن ماډل د هدف وړاندوینې ارزښت. دا اکثرا د متغیرونو او وړاندوینې ترمینځ اړیکې ټاکلو لپاره کارول کیږي. د بیاکتنې مختلف ماډلونه د ارتباط د ډول له مخې توپیر لري چې دوی د انحصار او خپلواک متغیرونو تر مینځ ارزونه کوي ، او همدارنګه د کارول شوي خپلواک متغیرونو شمیر. موږ کولی شو په ساده ډول د sklearn په کارولو سره د لاین ریګریشن ماډل په لاندې ډول رامینځته کړو:
4. لوژستیک ریګریشن
د طبقه بندي کولو یوه عامه طریقه لوژیستیکي ریګریشن دی. دا په ورته کورنۍ کې د پولینیم او خطي ریګریشن په توګه دی او د خطي طبقه بندی کورنۍ پورې اړه لري. د لوژستیک ریګریشن موندنې د پوهیدو لپاره ساده دي او د محاسبې لپاره ګړندي دي. د خطي ریګریشن په څیر، لوژستیک ریګریشن د نظارت شوي ریګریشن تخنیک دی. د محصول متغیر کټګوري دی، نو دا یوازینی توپیر دی. دا کولی شي معلومه کړي چې ایا ناروغ د زړه ناروغي لري یا نه.
د ډلبندۍ مختلف مسلې، لکه د سپیم کشف، کیدای شي د لوژیستیکي ریګریشن په کارولو سره حل شي. د شکر ناروغۍ وړاندوینه، دا معلومول چې آیا یو مصرف کوونکی به یو ځانګړی محصول واخلي یا سیال ته لاړ شي، دا معلومه کړي چې آیا یو کاروونکي به د بازار موندنې ځانګړي لینک باندې کلیک وکړي، او ډیری نور سناریوګانې یوازې یو څو مثالونه دي.
5. د پریکړې ونې
ترټولو پیاوړی او په پراخه کچه کارول شوي طبقه بندي او وړاندوینې تخنیک د پریکړې ونه ده. د پریکړې ونې د ونې جوړښت دی چې د فلو چارټ په څیر ښکاري، د هر داخلي نوډ سره د ځانګړتیا په اړه د ازموینې استازیتوب کوي، هره څانګه د ازموینې پایله استازیتوب کوي، او هر لیف نوډ (ټرمینل نوډ) د ټولګي لیبل لري.
کله چې منحصر متغیرونه د خپلواک متغیرونو سره خطي اړیکه ونلري، د بیلګې په توګه کله چې خطي ریګریشن سمې موندنې تولید نه کړي، د پریکړې ونې ګټورې دي. د DecisionTreeRegression() څیز ممکن د راجسټریشن لپاره د پریکړې ونې کارولو لپاره په ورته ډول وکارول شي.
6. تصادفي ځنګل
یو تصادفي ځنګل a ماشین زده کړه د رجعت او طبقه بندي مسلو د حل لپاره تګلاره. دا د انسبل زده کړې کاروي، کوم چې یو تخنیک دی چې د پیچلو ستونزو حل کولو لپاره ډیری ډلبندۍ سره یوځای کوي. د ځنګل یو تصادفي میتود د ډیری پریکړې ونو څخه جوړ شوی دی. دا کیدای شي د پور غوښتنلیکونو طبقه بندي کولو، د درغلیو چلند معلومولو، او د ناروغۍ د خپریدو اټکل لپاره وکارول شي.
7. کنفیوژن میټرکس
د مغشوش میټریکس یو جدول دی چې د طبقې ماډل فعالیت تشریح کولو لپاره کارول کیږي. لاندې څلور کلمې د مغشوش میټرکس معاینه کولو لپاره کارول کیږي:
- ریښتینی مثبت: دا په ګوته کوي چې ماډل د مناسبې پایلې وړاندوینه کړې او دا سمه وه.
- ریښتیني منفي: دا په ګوته کوي چې ماډل بد پایله وړاندیز کړې او دا سمه وه.
- غلط مثبت: دا په ګوته کوي چې ماډل د مناسبې پایلې تمه درلوده مګر دا واقعیا منفي وه.
- غلط منفي: دا په ګوته کوي چې ماډل د منفي پایلې تمه درلوده، پداسې حال کې چې پایله واقعیا مثبته وه.
د مغشوش میټریکس تطبیق:
Pros
- دا کارول اسانه دي.
- د سکیکټ زده کړې کڅوړه خورا د تطبیق وړ او ګټوره ده، د حقیقي نړۍ اهدافو ته خدمت کوي لکه د مصرف کونکي چلند وړاندوینه، د نیورویمیج پراختیا، او داسې نور.
- هغه کارونکي چې غواړي الګوریتمونه د دوی پلیټ فارمونو سره وصل کړي د سکیکټ - زده کړې ویب پا onه کې به د API تفصيلي اسناد ومومي.
- ډیری لیکوالان، همکاران، او د نړۍ په کچه د آنلاین ټولنې لوی ملاتړ کوي او د Scikit-Learn تازه ساتي.
له بندڅخه
- دا د ژورې مطالعې لپاره غوره انتخاب ندی.
پایله
Scikit-Learn د هر ډیټا ساینس پوه لپاره یو مهم بسته ده چې قوي درک ولري او یو څه تجربه ولري. دا لارښود باید تاسو سره د سکیلین په کارولو سره د معلوماتو مینځلو کې مرسته وکړي. د سکیکټ زده کړې ډیری نور وړتیاوې شتون لري چې تاسو به یې ومومئ کله چې تاسو د خپل ډیټا ساینس ساہسک له لارې پرمختګ کوئ. خپل نظرونه په نظرونو کې شریک کړئ.
یو ځواب ورکړئ ووځي