په نننۍ ټولنه کې، د معلوماتو ساینس خورا مهم دی!
تر دې حده چې د ډیټا ساینس پوه ته "د یوویشتمې پیړۍ ترټولو سیکسی دنده" تاج ورکړل شوی ، سره له دې چې هیڅ څوک تمه نه لري چې د ګیکۍ دندې به سیکسی وي!
په هرصورت، د ډیټا د ډیر اهمیت له امله، د ډیټا ساینس اوس مهال خورا مشهور دی.
پایتون، د خپل احصایوي تحلیل، د معلوماتو ماډلینګ، او لوستلو وړتیا سره، یو له غوره څخه دی پروګرامونې ژبې د دې معلوماتو څخه د ارزښت استخراج لپاره.
پایتون هیڅکله د خپلو برنامو حیرانولو مخه نه نیسي کله چې د ډیټا ساینس ننګونو باندې بریالي کیدو خبره راځي. دا په پراخه کچه کارول کیږي، د اعتراض پر بنسټ، خلاصې سرچینې، د لوړ فعالیت پروګرام کولو ژبه د مختلفو اضافي ځانګړتیاو سره.
پایتون د ډیټا ساینس لپاره د پام وړ کتابتونونو سره ډیزاین شوی چې برنامه کونکي هره ورځ د ستونزو حل کولو لپاره کاروي.
دلته د پام وړ د Python غوره کتابتونونه دي:
1. پانډا
پانډاس یوه بسته ده چې د پراختیا کونکو سره په طبیعي ډول د "لیبل شوي" او "اړونده" معلوماتو سره کار کولو کې مرسته کولو لپاره ډیزاین شوې. دا په دوه لوی ډیټا جوړښتونو کې جوړ شوی دی: "لړۍ" (یو اړخیز، د شیانو لیست ته ورته) او "د ډیټا چوکاټونه" (دوه اړخیزه، د میز په څیر د څو کالمونو سره).
پانډاس د ډیټا فریم شیانو ته د ډیټا جوړښتونو بدلولو ملاتړ کوي ، د ورک شوي ډیټا سره معامله کوي ، له ډیټا فریم څخه د کالمونو اضافه کول / حذف کول ، د ورک شوي فایلونو ادعا کول ، او د معلوماتو لید د هسټوګرامونو یا پلاټ بکسونو کارول.
دا د حافظې ډیټا جوړښتونو او ډیری فایل فارمیټونو ترمینځ د معلوماتو لوستلو او لیکلو لپاره یو شمیر وسیلې هم چمتو کوي.
په لنډه توګه، دا د ګړندي او ساده ډیټا پروسس کولو ، د معلوماتو راټولولو ، د معلوماتو لوستلو او لیکلو ، او د معلوماتو لید لپاره غوره دی. کله چې د ډیټا ساینس پروژه رامینځته کړئ ، تاسو به تل د خپل ډیټا اداره کولو او تحلیل کولو لپاره د حیوان کتابتون پانډاس وکاروئ.
2. ناپاک
NumPy (عدد پایتون) د ساینسي محاسبې او لومړني او پیچلي سرې عملیاتو ترسره کولو لپاره په زړه پوری وسیله ده.
کتابتون په Python کې د n-arrays او matrices سره کار کولو لپاره یو شمیر ګټورې بڼې وړاندې کوي.
دا د اریونو پروسس کول اسانه کوي چې د ورته ډیټا ډول ارزښتونه لري او په اریونو کې د ریاضیاتي عملیاتو ترسره کول (په شمول د ویکتوریزیشن). په واقعیت کې، د ریاضیاتي عملیاتو ویکٹریز کولو لپاره د NumPy سرې ډول کارول فعالیت ښه کوي او د اجرا کولو وخت کموي.
د ریاضیاتي او منطقي عملیاتو لپاره د څو اړخیزو صفونو ملاتړ د کتابتون اصلي ځانګړتیا ده. د NumPy افعال د ریښتیني شمیرو څو اړخیزه لړۍ په توګه د لیدونو او غږ څپو د شاخص کولو ، ترتیب کولو ، بیا شکل کولو او خبرو اترو لپاره کارول کیدی شي.
3. matplotlib
د Python نړۍ کې، Matplotlib یو له خورا پراخه کارول شوي کتابتونونو څخه دی. دا د جامد، متحرک، او متقابل معلوماتو لیدونو تولید لپاره کارول کیږي. Matplotlib ډیری چارټینګ او دودیز کولو اختیارونه لري.
د هسټوګرامونو په کارولو سره ، پروګرام کونکي کولی شي ګرافونه توزیع ، ټیک او ترمیم کړي. د خلاصې سرچینې کتابتون په برنامو کې د پلاټونو اضافه کولو لپاره د اعتراض پر بنسټ API چمتو کوي.
کله چې د پیچلي لیدونو رامینځته کولو لپاره دا کتابتون وکاروئ ، په هرصورت ، پراختیا کونکي باید د نورمال څخه ډیر کوډ ولیکي.
د یادولو وړ ده چې مشهور چارټینګ کتابتونونه پرته له کوم خنډ سره د Matplotlib سره یوځای شتون لري.
د نورو شیانو په مینځ کې، دا د Python سکریپټونو، Python او IPython شیلونو، Jupyter نوټ بوکونو، او ګورت کاریال سرورونه.
پلاټونه، بار چارټونه، پای چارټونه، هسټوګرامونه، سکټرپلاټونه، د تېروتنې چارټونه، د بریښنا سپیکٹرا، سټیمپلاټونه، او د بل هر ډول لید چارټ ټول د دې سره رامینځته کیدی شي.
4. سیند
د سیبورن کتابتون په Matplotlib کې جوړ شوی. Seaborn د Matplotlib په پرتله ډیر زړه راښکونکي او معلوماتي احصایوي ګرافونو جوړولو لپاره کارول کیدی شي.
Seaborn د ډیټا لید لپاره د بشپړ ملاتړ سربیره د ډیری متغیرونو ترمینځ متقابل عمل تحقیق کولو لپاره د ډیټا سیټ متمرکز API شاملوي.
سیبورن د ډیټا لید لید لپاره خورا حیرانونکي شمیر اختیارونه وړاندیز کوي ، پشمول د وخت لړۍ لید ، ګډ پلاټ ، وایلین ډیاګرامونه ، او ډیری نور.
دا د ژورو بصیرتونو سره معلوماتي لید چمتو کولو لپاره سیمانټیک نقشه او احصایوي مجموعه کاروي. پدې کې یو شمیر د ډیټاسیټ پر بنسټ چارټینګ معمولونه شامل دي چې د ډیټا چوکاټونو او صفونو سره کار کوي چې ټول ډیټاسیټونه پکې شامل دي.
د دې ډیټا لیدونو کې د بار چارټونه ، پای چارټونه ، هسټوګرامونه ، سکیټرپلوټونه ، خطا چارټونه او نور ګرافیکونه شامل دي. د Python ډیټا لید لید کتابتون کې د رنګ پیلټونو غوره کولو لپاره وسیلې هم شاملې دي ، کوم چې په ډیټاسیټ کې د رجحاناتو په څرګندولو کې مرسته کوي.
5. سایکټ - زده کړه
Scikit-learn د ډیټا ماډلینګ او ماډل ارزونې لپاره د Python ترټولو لوی کتابتون دی. دا یو له خورا ګټور Python کتابتونونو څخه دی. دا ډیری وړتیاوې لري چې یوازې د ماډلینګ هدف لپاره ډیزاین شوي.
پدې کې ټول نظارت شوي او نه څارل شوي ماشین زده کړې الګوریتمونه شامل دي ، په بیله بیا د بشپړ تعریف شوي انسمبل زده کړې او د ماشین زده کړې د ودې دندې.
دا د معلوماتو ساینس پوهانو لخوا د معمول کولو لپاره کارول کیږي ماشین زده کړه او د معلوماتو کان کیندنې فعالیتونه لکه کلستر کول، ریګریشن، د ماډل انتخاب، د ابعاد کمول، او طبقه بندي. دا د هراړخیز اسنادو سره هم راځي او په ښه توګه ترسره کوي.
Scikit-learn د څارنې او نه څارل شوي ماشین زده کړې بیلابیل ماډلونو رامینځته کولو لپاره کارول کیدی شي لکه طبقه بندي، ریګریشن، د ملاتړ ویکتور ماشینونه، بې ترتیبه ځنګلونه، نږدې ګاونډیان، نیوی بایس، د پریکړې ونې، کلستر کول او داسې نور.
د Python ماشین زده کړې کتابتون کې د معلوماتو تحلیل او د کان کیندنې دندو ترسره کولو لپاره یو شمیر ساده مګر اغیزمن اوزار شامل دي.
د نورو لوستلو لپاره ، دلته زموږ لارښود دی سکیټ - زده کړه.
6. XGBoost
XGBoost د توزیع شوي تدریجي وده کولو وسیلې کټ دی چې د سرعت ، انعطاف ، او پورټ وړتیا لپاره ډیزاین شوی. د ML الګوریتمونو پراختیا لپاره، دا د ګریډینټ بوسټینګ چوکاټ کاروي. XGBoost یو ګړندی او دقیق موازي ونې وده کولو تخنیک دی چې کولی شي د ډیټا ساینس پراخه ستونزې حل کړي.
د Gradient Boosting چوکاټ په کارولو سره، دا کتابتون د ماشین زده کړې الګوریتمونو جوړولو لپاره کارول کیدی شي.
پدې کې د ونې موازي وده شامله ده، کوم چې ټیمونو سره د ډیټا ساینس مختلف مسلو حل کولو کې مرسته کوي. بله ګټه دا ده چې پراختیا کونکي کولی شي ورته کوډ د Hadoop، SGE، او MPI لپاره وکاروي.
دا په دواړو ویشل شوي او د حافظې محدود حالتونو کې هم د باور وړ دی.
7. د ټینسر جریان
TensorFlow یو وړیا پای څخه تر پای پورې خلاصې سرچینې AI پلیټ فارم دی چې د وسیلو ، کتابتونونو او سرچینو لوی لړۍ سره. TensorFlow باید د هر هغه چا سره اشنا وي چې کار کوي د ماشین زده کړې پروژې په Python کې.
دا د خلاصې سرچینې سمبولیک ریاضي وسیله ده چې د شمیرې محاسبې لپاره د ډیټا جریان ګرافونو په کارولو سره چې د ګوګل لخوا رامینځته شوي. د ګراف نوډونه د TensorFlow ډیټا فلو ګراف کې د ریاضياتي پروسې منعکس کوي.
د ګراف څنډې، له بلې خوا، د څو اړخیز ډیټا سرې دي، چې د ټینسر په نوم هم پیژندل کیږي، چې د شبکې نوډونو ترمنځ جریان لري. دا پروګرام کونکو ته اجازه ورکوي چې د کوډ بدلولو پرته په ډیسټاپ، ګرځنده وسیله، یا سرور کې د یو یا ډیرو CPUs یا GPUs ترمنځ پروسس توزیع کړي.
TensorFlow په C او C++ کې رامینځته شوی. د TensorFlow سره، تاسو کولی شئ په ساده ډول ډیزاین او د ماشین زده کړه روزنه ماډلونه د لوړې کچې APIs لکه Keras کاروي.
دا د خلاصون ډیری درجې هم لري ، تاسو ته اجازه درکوي د خپل ماډل لپاره غوره حل غوره کړئ. TensorFlow تاسو ته اجازه درکوي د ماشین زده کړې ماډلونه کلاوډ، براوزر، یا ستاسو خپل وسیله ته ځای په ځای کړئ.
دا د دندو لپاره خورا مؤثره وسیله ده لکه د اعتراض پیژندنه، د وینا پیژندنه، او ډیری نور. دا د مصنوعي ودې سره مرسته کوي نوریال شبکې دا باید د ډیری ډیټا سرچینو سره معامله وکړي.
دلته د نورو لوستلو لپاره د TensorFlow په اړه زموږ ګړندي لارښود دی.
8. کیراس
کیرا یو وړیا او خلاص سرچینه ده د Python پر بنسټ عصبي شبکه د مصنوعي استخباراتو، ژورې زده کړې، او د معلوماتو ساینس فعالیتونو لپاره اوزار کټ. عصبي شبکې هم په ډیټا ساینس کې کارول کیږي ترڅو د مشاهدې ډیټا (عکس یا آډیو) تشریح کړي.
دا د ماډلونو رامینځته کولو ، ګراف کولو ډاټا ، او د معلوماتو ارزولو لپاره د وسیلو مجموعه ده. پدې کې دمخه لیبل شوي ډیټاسیټونه هم شامل دي چې په چټکۍ سره وارد او بار کیدی شي.
دا کارول اسانه دي، هر اړخیز، او د سپړنې څیړنې لپاره مثالی. سربیره پردې ، دا تاسو ته اجازه درکوي په بشپړ ډول وصل شوي ، قانع کونکي ، حوض کول ، تکراري ، سرایت کول ، او د عصبي شبکو نور ډولونه رامینځته کړئ.
دا ماډلونه د ډیټا ډیټا سیټونو او مسلو لپاره د بشپړ عصبي شبکې رامینځته کولو لپاره یوځای کیدی شي. دا د عصبي شبکو ماډل کولو او رامینځته کولو لپاره په زړه پوری کتابتون دی.
دا کارول ساده دي او پراختیا کونکو ته ډیر انعطاف ورکوي. کیراس د نورو Python ماشین زده کړې کڅوړو په پرتله سست دی.
دا ځکه چې دا لومړی د شاتنۍ زیربنا په کارولو سره کمپیوټري ګراف رامینځته کوي او بیا یې د عملیاتو ترسره کولو لپاره کاروي. کیراس په حیرانتیا سره څرګند او د تطبیق وړ دی کله چې د نوې څیړنې ترسره کولو خبره راځي.
9. پینټورچ
PyTorch د Python یو مشهور بسته ده ژوره زده کړه او ماشین زده کړه. دا د Python پر بنسټ د خلاصې سرچینې ساینسي کمپیوټري سافټویر دی چې په لوی ډیټاسیټونو کې د ژورې زده کړې او عصبي شبکې پلي کولو لپاره.
فیسبوک د عصبي شبکو د رامینځته کولو لپاره د دې وسیلې کټ څخه پراخه ګټه پورته کوي چې د مخ پیژندنې او اتومات ټاګ کولو په څیر فعالیتونو کې مرسته کوي.
PyTorch د ډیټا ساینس پوهانو لپاره یو پلیټ فارم دی چې غواړي د ژورې زده کړې دندې ژر تر ژره بشپړ کړي. وسیله د GPU سرعت سره د ټینسر محاسبې ترسره کولو توان ورکوي.
دا د نورو شیانو لپاره هم کارول کیږي، پشمول د متحرک کمپیوټري شبکو جوړول او په اتوماتيک ډول د ګریډینټ محاسبه کول.
خوشبختانه ، PyTorch یو په زړه پوری کڅوړه ده چې پراختیا کونکو ته اجازه ورکوي په اسانۍ سره د تیوري او څیړنې څخه روزنې او پراختیا ته لیږد کړي کله چې د ماشین زده کړې او ژورې زده کړې څیړنې ته راځي ترڅو اعظمي انعطاف او سرعت ورکړي.
10. NLTK
NLTK (د طبیعي ژبې اوزار کټ) د ډیټا ساینس پوهانو لپاره د Python مشهور بسته ده. د متن ټاګ کول، نښه کول، سیمانټیک استدلال، او د طبیعي ژبې پروسس پورې اړوند نورې دندې د NLTK سره سرته رسولی شي.
NLTK د ډیر پیچلي AI بشپړولو لپاره هم کارول کیدی شي (مصنوعي استخباراتو) دندې. NLTK په اصل کې د مختلف AI او ماشین زده کړې ښوونې تمثیلونو ملاتړ کولو لپاره رامینځته شوی ، لکه د ژبپوهنې ماډل او ادراکي تیوري.
دا اوس مهال د AI الګوریتم چلوي او په ریښتینې نړۍ کې د ماډل پرمختګ زده کوي. دا د تدریسي وسیلې په توګه او د انفرادي مطالعې وسیلې په توګه د کارونې لپاره په پراخه کچه منل شوی ، سربیره پردې د پروټوټایپ کولو او د څیړنې سیسټمونو رامینځته کولو لپاره د پلیټ فارم په توګه کارول کیږي.
طبقه بندي، تجزیه، سیمانټیک استدلال، ډډ کول، ټګ کول، او نښه کول ټول ملاتړ کیږي.
پایله
دا د ډیټا ساینس لپاره د پایتون غوره لس کتابتونونه پای ته رسوي. د پایتون ډیټا ساینس کتابتونونه په منظم ډول تازه کیږي ځکه چې د ډیټا ساینس او ماشین زده کړه خورا مشهور کیږي.
د ډیټا ساینس لپاره ډیری Python کتابتونونه شتون لري ، او د کارونکي انتخاب اکثرا د پروژې ډول لخوا ټاکل کیږي چې دوی یې کار کوي.
یو ځواب ورکړئ ووځي