Өнөөгийн нийгэмд мэдээллийн шинжлэх ухаан маш чухал юм!
Мэдээлэл судлаач "Хорин нэгдүгээр зууны хамгийн дур булаам ажил"-ын титэм хүртэж байсан ч хэн ч дэгжин ажил нь тачаангуй болно гэж найдаж байгаагүй!
Гэсэн хэдий ч өгөгдлийн асар их ач холбогдлын улмаас Data Science яг одоо нэлээд алдартай болсон.
Python нь статистик дүн шинжилгээ, өгөгдлийн загварчлал, унших чадвараараа хамгийн шилдэг нь юм програмчлалын хэл энэ өгөгдлөөс үнэ цэнийг гаргаж авахад зориулагдсан.
Python нь мэдээллийн шинжлэх ухааны сорилтуудыг даван туулахдаа програмистуудаа гайхшруулдаг. Энэ нь өргөн хэрэглэгддэг, объект хандалттай, нээлттэй эх сурвалжтай, олон төрлийн нэмэлт функц бүхий өндөр гүйцэтгэлтэй програмчлалын хэл юм.
Python нь програмистуудын бэрхшээлийг шийдвэрлэхийн тулд өдөр бүр ашигладаг өгөгдлийн шинжлэх ухааны гайхалтай сангуудаар бүтээгдсэн.
Хамгийн сайн Python номын сангууд энд байна:
1. Пандас
Pandas нь хөгжүүлэгчдэд "шошготой" болон "харилцаа" өгөгдөлтэй байгалийн аргаар ажиллахад туслах зорилготой багц юм. Энэ нь "Цуврал" (нэг хэмжээст, объектын жагсаалттай төстэй) ба "Өгөгдлийн хүрээ" (олон баганатай хүснэгт гэх мэт хоёр хэмжээст) гэсэн хоёр үндсэн өгөгдлийн бүтэц дээр суурилагдсан.
Pandas нь өгөгдлийн бүтцийг DataFrame объект руу хөрвүүлэх, дутуу өгөгдөлтэй ажиллах, DataFrame-аас багана нэмэх/устгах, дутуу файлуудыг оруулах болон өгөгдлийг дүрслэх гистограмм эсвэл график хайрцаг ашиглан.
Энэ нь мөн санах ойн өгөгдлийн бүтэц болон хэд хэдэн файлын форматуудын хооронд өгөгдөл унших, бичих хэд хэдэн хэрэгслээр хангадаг.
Товчхондоо, энэ нь өгөгдлийг хурдан бөгөөд энгийн боловсруулах, өгөгдлийг нэгтгэх, өгөгдлийг унших, бичих, өгөгдлийг дүрслэн харуулахад тохиромжтой. Өгөгдлийн шинжлэх ухааны төсөл зохиохдоо та өөрийн өгөгдлийг боловсруулах, дүн шинжилгээ хийхийн тулд Pandas амьтны номын санг үргэлж ашиглах болно.
2. Номпи
NumPy (Тоон Python) нь шинжлэх ухааны тооцоолол, үндсэн болон нарийн массивын үйлдлүүдийг хийх гайхалтай хэрэгсэл юм.
Номын сан нь Python дээр n-массив болон матрицтай ажиллахад туслах хэд хэдэн функцээр хангадаг.
Энэ нь ижил төрлийн өгөгдлийн утгыг агуулсан массивыг боловсруулах, массив дээр арифметик үйлдлүүдийг (векторжуулалтыг оролцуулан) хийхэд хялбар болгодог. Бодит байдал дээр математик үйлдлүүдийг векторжуулахын тулд NumPy массивын төрлийг ашиглах нь гүйцэтгэлийг сайжруулж, гүйцэтгэх хугацааг бууруулдаг.
Математик болон логик үйлдлийн олон хэмжээст массивыг дэмжих нь номын сангийн гол онцлог юм. NumPy функцийг бодит тоонуудын олон хэмжээст массив болгон дүрслэл, дууны долгионыг индексжүүлэх, ангилах, хэлбэржүүлэх, дамжуулахад ашиглаж болно.
3. Матплотлиб
Python ертөнцөд Matplotlib нь хамгийн өргөн хэрэглэгддэг номын сангуудын нэг юм. Энэ нь статик, хөдөлгөөнт, интерактив өгөгдлийн дүрслэлийг үүсгэхэд ашиглагддаг. Matplotlib нь диаграмм болон тохируулгын олон сонголттой.
Гистограмм ашиглан програмистууд графикуудыг тарааж, өөрчлөх, засах боломжтой. Нээлттэй эхийн номын сан нь программд график нэмэх объект хандалтат API-г өгдөг.
Энэ номын санг нарийн төвөгтэй дүрслэл үүсгэхийн тулд ашиглах үед хөгжүүлэгчид ердийнхөөс илүү код бичих ёстой.
Алдартай график номын сангууд Matplotlib-тэй зэрэгцэн оршдог гэдгийг тэмдэглэх нь зүйтэй.
Бусад зүйлсийн дотор үүнийг Python скрипт, Python болон IPython бүрхүүлүүд, Jupyter дэвтэр, болон вэб програм серверүүд.
Гүйцэтгэл, баганан диаграм, дугуй диаграм, гистограмм, тархсан диаграм, алдааны диаграм, эрчим хүчний спектр, цэгийн диаграм болон бусад төрлийн дүрслэлийн диаграмыг бүгдийг нь үүсгэж болно.
4. Далайн төрсөн
Seaborn номын сан нь Матплотлиб дээр баригдсан. Seaborn-ийг Matplotlib-ээс илүү сонирхолтой, мэдээлэл сайтай статистик график гаргахад ашиглаж болно.
Seaborn нь мэдээллийн дүрслэлд бүрэн дэмжлэг үзүүлэхээс гадна олон хувьсагчийн хоорондын харилцан үйлчлэлийг судлах нэгдсэн мэдээллийн багцад чиглэсэн API-г агуулдаг.
Seaborn нь цаг хугацааны цуврал дүрслэл, хамтарсан зураглал, хийлийн диаграм болон бусад олон төрлийн өгөгдлийг дүрслэх гайхалтай олон сонголтыг санал болгодог.
Энэ нь гүн гүнзгий ойлголт бүхий мэдээллийн дүрслэлийг үзүүлэхийн тулд семантик зураглал болон статистикийн нэгтгэлийг ашигладаг. Энэ нь бүхэл өгөгдлийн багцыг багтаасан өгөгдлийн хүрээ болон массивтай ажилладаг өгөгдлийн багцад чиглэсэн хэд хэдэн график бичих горимуудыг агуулдаг.
Түүний өгөгдлийн дүрслэлд баганан диаграм, дугуй диаграм, гистограм, тараагдсан график, алдааны диаграм болон бусад графикууд багтаж болно. Энэхүү Python өгөгдлийн дүрслэл номын сан нь өгөгдлийн багц дахь чиг хандлагыг илрүүлэхэд тусалдаг өнгөт палитр сонгох хэрэгслүүдийг агуулдаг.
5. Scikit сурах
Scikit-learn бол өгөгдлийн загварчлал, загвар үнэлгээний хамгийн том Python номын сан юм. Энэ бол хамгийн ашигтай Python номын сангуудын нэг юм. Энэ нь зөвхөн загварчлах зорилгоор бүтээгдсэн маш олон боломжуудтай.
Үүнд хяналттай болон хяналтгүй машин сургалтын бүх алгоритмууд, мөн бүрэн тодорхойлогдсон Ansemble Learning болон Boosting Machine Learning функцууд багтсан болно.
Үүнийг өгөгдөл судлаачид ердийн ажил хийхэд ашигладаг машин суралцах бөөгнөрөл, регресс, загвар сонгох, хэмжээстийг багасгах, ангилах зэрэг өгөгдөл олборлох үйл ажиллагаа. Энэ нь мөн иж бүрэн баримт бичгийн хамт ирдэг бөгөөд гайхалтай гүйцэтгэлтэй байдаг.
Scikit-learn-ийг ангилал, регресс, дэмжлэгийн вектор машин, санамсаргүй ой, хамгийн ойрын хөрш, гэнэн Бэйс, шийдвэрийн мод, кластер хийх гэх мэт олон төрлийн хяналттай болон хяналтгүй машин сургалтын загваруудыг бий болгоход ашиглаж болно.
Python машин сургалтын номын сан нь өгөгдөлд дүн шинжилгээ хийх, олборлох ажлыг гүйцэтгэхэд хялбар боловч үр ашигтай олон төрлийн хэрэгслийг агуулдаг.
Цааш уншихын тулд манай гарын авлагыг эндээс авна уу Scikit-сур.
6. XGBoost
XGBoost бол хурд, уян хатан байдал, зөөвөрлөхөд зориулагдсан хуваарилагдсан градиентийг нэмэгдүүлэх хэрэгсэл юм. ML алгоритмуудыг хөгжүүлэхийн тулд Gradient Boosting хүрээг ашигладаг. XGBoost нь өгөгдлийн шинжлэх ухааны өргөн хүрээний асуудлыг шийдэж чадах хурдан бөгөөд үнэн зөв зэрэгцээ модыг нэмэгдүүлэх техник юм.
Gradient Boosting хүрээг ашигласнаар энэ номын санг машин сургалтын алгоритм үүсгэхэд ашиглаж болно.
Үүнд өгөгдлийн шинжлэх ухааны янз бүрийн асуудлыг шийдвэрлэхэд нь багуудад тусалдаг зэрэгцээ модыг нэмэгдүүлэх зэрэг орно. Өөр нэг давуу тал нь хөгжүүлэгчид Hadoop, SGE, MPI-д ижил код ашиглах боломжтой юм.
Энэ нь тархсан болон санах ойн хязгаарлалттай аль алинд нь найдвартай байдаг.
7. Тензор урсгал
TensorFlow бол өргөн хүрээний хэрэгсэл, номын сан, нөөцтэй, эцсийн эцэст үнэгүй нээлттэй эхийн AI платформ юм. TensorFlow нь ажиллаж байгаа хэн бүхэнд танил байх ёстой машин сургалтын төслүүд Python дээр.
Энэ нь Google-ийн боловсруулсан өгөгдлийн урсгалын графикийг ашиглан тоон тооцоолол хийхэд зориулагдсан нээлттэй эхийн симбол математикийн хэрэгсэл юм. Графикийн зангилаанууд нь ердийн TensorFlow өгөгдлийн урсгалын график дахь математик процессуудыг тусгадаг.
Графикийн ирмэгүүд нь сүлжээний зангилааны хооронд урсдаг олон хэмжээст өгөгдлийн массив бөгөөд үүнийг тензор гэж нэрлэдэг. Энэ нь програмистуудад кодыг өөрчлөхгүйгээр ширээний компьютер, хөдөлгөөнт төхөөрөмж эсвэл сервер дээрх нэг буюу хэд хэдэн CPU эсвэл GPU хооронд боловсруулалтыг хуваарилах боломжийг олгодог.
TensorFlow нь C болон C++ хэл дээр боловсруулагдсан. TensorFlow-ийн тусламжтайгаар та зүгээр л дизайн хийх боломжтой Машины сургалтыг сургах Keras зэрэг өндөр түвшний API ашигладаг загварууд.
Энэ нь бас олон түвшний хийсвэрлэлтэй бөгөөд загвартаа хамгийн сайн шийдлийг сонгох боломжийг танд олгоно. TensorFlow нь танд Machine Learning загваруудыг клоуд, хөтөч эсвэл өөрийн төхөөрөмжид ашиглах боломжийг олгодог.
Энэ нь объект таних, яриа таних болон бусад олон ажилд хамгийн үр дүнтэй хэрэгсэл юм. Энэ нь хиймэл зүйл хөгжүүлэхэд тусалдаг мэдрэлийн сүлжээ Энэ нь олон тооны мэдээллийн эх сурвалжтай харьцах ёстой.
Цааш уншихын тулд TensorFlow-ийн талаарх бидний хурдан гарын авлага энд байна.
8. Керас
Керас бол үнэ төлбөргүй, нээлттэй эх сурвалж юм Python дээр суурилсан мэдрэлийн сүлжээ хиймэл оюун ухаан, гүнзгий суралцах, мэдээллийн шинжлэх ухааны үйл ажиллагаанд зориулсан хэрэгсэл. Мэдрэлийн сүлжээг Мэдээллийн шинжлэх ухаанд мөн ажиглалтын өгөгдлийг (зураг эсвэл аудио) тайлбарлахад ашигладаг.
Энэ нь загвар үүсгэх, өгөгдлийн график үүсгэх, өгөгдлийг үнэлэх хэрэгслүүдийн цуглуулга юм. Энэ нь мөн хурдан импортлох, ачаалах боломжтой урьдчилан шошготой өгөгдлийн багцуудыг агуулдаг.
Энэ нь ашиглахад хялбар, олон талт бөгөөд хайгуулын судалгаа хийхэд тохиромжтой. Цаашилбал, энэ нь танд мэдрэлийн сүлжээнүүдийн бүрэн холбогдсон, эргэлтийн, нэгтгэх, давтагдах, оруулах болон бусад хэлбэрийг үүсгэх боломжийг олгодог.
Эдгээр загваруудыг нэгтгэж, асар их өгөгдлийн багц болон асуудлуудад бүрэн хэмжээний мэдрэлийн сүлжээг бий болгох боломжтой. Энэ бол мэдрэлийн сүлжээг загварчлах, үүсгэх гайхалтай номын сан юм.
Энэ нь хэрэглэхэд хялбар бөгөөд хөгжүүлэгчдэд маш их уян хатан байдлыг өгдөг. Керас нь бусад Python машин сургалтын багцуудтай харьцуулахад удаашралтай байдаг.
Учир нь энэ нь эхлээд арын дэд бүтцийг ашиглан тооцооллын график үүсгэж, дараа нь үйл ажиллагаа явуулахад ашигладаг. Керас шинэ судалгаа хийхдээ гайхалтай илэрхийлэлтэй, дасан зохицох чадвартай.
9. ПиТорч
PyTorch бол алдартай Python багц юм гүн гүнзгий суралцах болон машин сургалт. Энэ нь Python-д суурилсан нээлттэй эхийн шинжлэх ухааны тооцооллын программ хангамж бөгөөд асар том өгөгдлийн багц дээр Deep Learning болон Neural Networks-ийг хэрэгжүүлэхэд зориулагдсан.
Facebook нь нүүр царайг таних, автоматаар шошголох зэрэг үйл ажиллагаанд туслах мэдрэлийн сүлжээг бий болгохын тулд энэхүү хэрэгслийг өргөнөөр ашигладаг.
PyTorch бол гүн гүнзгий суралцах ажлыг хурдан дуусгах хүсэлтэй өгөгдөл судлаачдад зориулсан платформ юм. Энэхүү хэрэгсэл нь GPU хурдатгалын тусламжтайгаар тензорын тооцоолол хийх боломжийг олгодог.
Үүнийг динамик тооцооллын сүлжээ байгуулах, градиентийг автоматаар тооцоолох зэрэг бусад зүйлд ашигладаг.
Аз болоход, PyTorch бол хөгжүүлэгчдэд хамгийн уян хатан байдал, хурдыг өгөхийн тулд машин суралцах, гүнзгий суралцах судалгааны талаар онол, судалгаанаас сургалт, хөгжилд хялбар шилжих боломжийг олгодог гайхалтай багц юм.
10. NLTK
NLTK (Natural Language Toolkit) нь өгөгдөл судлаачдад зориулсан алдартай Python багц юм. Текст тэмдэглэгээ, токенизаци, семантик үндэслэл болон байгалийн хэлний боловсруулалттай холбоотой бусад ажлуудыг NLTK ашиглан хийж болно.
NLTK нь илүү төвөгтэй AI-г дуусгахад ашиглагдаж болно (Хиймэл оюун) ажлын байр. NLTK нь хэл шинжлэлийн загвар, танин мэдэхүйн онол гэх мэт төрөл бүрийн хиймэл оюун ухаан, машин сургалтын сургалтын парадигмуудыг дэмжих зорилгоор анх бүтээгдсэн.
Одоогийн байдлаар энэ нь хиймэл оюун ухааны алгоритмыг жолоодож, бодит ертөнцөд загвар хөгжүүлэхэд суралцаж байна. Судалгааны системийг загварчлах, хөгжүүлэх платформ болгон ашиглахаас гадна сургалтын хэрэглэгдэхүүн болон бие даасан сургалтын хэрэглэгдэхүүн болгон ашиглах зорилгоор өргөнөөр ашиглаж ирсэн.
Ангилал, задлан шинжлэх, семантик үндэслэл, ишлэл, шошго, тэмдэглэгээ зэргийг дэмждэг.
Дүгнэлт
Энэ нь мэдээллийн шинжлэх ухааны шилдэг арван Python номын санд багтаж байна. Өгөгдлийн шинжлэх ухаан болон машин сургалт улам бүр түгээмэл болж байгаа тул Python мэдээллийн шинжлэх ухааны номын сангууд тогтмол шинэчлэгддэг.
Өгөгдлийн шинжлэх ухаанд зориулсан хэд хэдэн Python номын сан байдаг бөгөөд хэрэглэгчийн сонголт нь тэдний ажиллаж буй төслийн төрлөөс ихээхэн хамаардаг.
хариу үлдээх