Sa karon nga katilingban, ang siyensya sa datos hinungdanon kaayo!
Daghan kaayo nga ang data scientist gikoronahan nga "Sexiest Job of the Twenty-First Century," bisan pa nga walay usa nga nagdahom nga ang mga geeky nga trabaho mahimong sexy!
Bisan pa, tungod sa dako nga importansya sa datos, ang Data Science popular kaayo karon.
Ang Python, uban ang pag-analisar sa istatistika, pagmodelo sa datos, ug pagkabasa, usa sa labing kaayo mga sinultian nga programming alang sa pagkuha sa bili gikan niini nga datos.
Wala’y hunong ang Python sa pagtingala sa mga programmer niini kung bahin sa pagbuntog sa mga hagit sa syensya sa datos. Kini usa ka kaylap nga gigamit, object-oriented, open-source, high-performance programming language nga adunay lain-laing mga dugang nga bahin.
Ang Python gidisenyo uban ang talagsaong mga librarya alang sa data science nga gigamit sa mga programmer matag adlaw aron masulbad ang mga kalisdanan.
Ania ang labing kaayo nga librarya sa Python nga tagdon:
1. Pandas
Ang Pandas usa ka pakete nga gidisenyo aron matabangan ang mga nag-develop sa pagtrabaho sa "gimarkahan" ug "relasyon" nga datos sa natural nga paagi. Gitukod kini sa duha ka dagkong istruktura sa datos: "Serye" (usa ka dimensyon, susama sa listahan sa mga butang) ug "Data Frames" (two-dimensional, sama sa usa ka lamesa nga adunay daghang mga kolum).
Gisuportahan sa mga Panda ang pag-convert sa mga istruktura sa datos sa mga butang sa DataFrame, pag-atubang sa nawala nga datos, pagdugang / pagtangtang sa mga kolum gikan sa DataFrame, pag-imput sa nawala nga mga file, ug paglantaw sa datos gamit ang histograms o plot boxes.
Naghatag usab kini og daghang mga himan alang sa pagbasa ug pagsulat sa datos tali sa mga istruktura sa datos sa memorya ug daghang mga format sa file.
Sa laktod nga pagkasulti, maayo kini alang sa paspas ug yano nga pagproseso sa datos, pagtipon sa datos, pagbasa ug pagsulat sa datos, ug paghanduraw sa datos. Kung maghimo usa ka proyekto sa siyensya sa datos, kanunay nimong gamiton ang librarya sa mananap nga Pandas aron pagdumala ug pag-analisar sa imong datos.
2. numpy
Ang NumPy (Numerical Python) usa ka talagsaon nga himan alang sa paghimo sa siyentipikong pagkalkula ug sukaranan ug sopistikado nga mga operasyon sa array.
Naghatag ang librarya og daghang makatabang nga mga bahin alang sa pagtrabaho sa mga n-array ug matrices sa Python.
Gipasayon niini ang pagproseso sa mga arrays nga adunay mga value sa samang tipo sa datos ug sa paghimo sa mga operasyon sa aritmetika sa mga arrays (lakip ang vectorization). Sa pagkatinuod, ang paggamit sa NumPy array type aron ma-vector ang mga operasyon sa matematika makapauswag sa performance ug makapamenos sa oras sa pagpatuman.
Ang suporta alang sa multidimensional arrays alang sa matematika ug lohikal nga mga operasyon mao ang kinauyokan nga bahin sa librarya. Ang mga function sa NumPy mahimong magamit sa pag-index, paghan-ay, pag-usab sa porma, ug pagpakigsulti sa mga biswal ug mga sound wave isip multidimensional nga han-ay sa tinuod nga mga numero.
3. matplotlib
Sa kalibutan sa Python, ang Matplotlib usa sa labing kaylap nga gigamit nga mga librarya. Gigamit kini aron makamugna og static, animated, ug interactive nga mga visualization sa datos. Ang Matplotlib adunay daghang mga kapilian sa pag-chart ug pag-customize.
Gamit ang histograms, ang mga programmer mahimong magkatag, mag-tweak, ug mag-edit sa mga graph. Ang open-source nga librarya naghatag ug object-oriented nga API para sa pagdugang sa mga laraw sa mga programa.
Kung gigamit kini nga librarya aron makamugna og komplikado nga mga visualization, bisan pa, ang mga developer kinahanglan nga magsulat labi pa nga code kaysa sa normal.
Angay nga hinumdoman nga ang mga sikat nga librarya sa pag-chart nag-uban sa Matplotlib nga wala’y babag.
Lakip sa ubang mga butang, gigamit kini sa mga script sa Python, mga kabhang sa Python ug IPython, mga notebook sa Jupyter, ug aplikasyon sa web mga tigtagad.
Ang mga plot, bar chart, pie chart, histograms, scatterplots, error chart, power spectra, stemplots, ug bisan unsang lain nga matang sa visualization chart mahimong mabuhat uban niini.
4. Kadagatan sa dagat
Ang librarya sa Seaborn gitukod sa Matplotlib. Mahimong gamiton ang Seaborn sa paghimo og mas madanihon ug informative nga statistical graphs kay sa Matplotlib.
Ang Seaborn naglakip sa usa ka integrated data set-oriented API alang sa pag-imbestiga sa mga interaksyon tali sa daghang mga variable, dugang sa hingpit nga suporta alang sa data visualization.
Ang Seaborn nagtanyag usa ka makapakurat nga gidaghanon sa mga kapilian alang sa pagtan-aw sa datos, lakip ang pagtan-aw sa serye sa oras, hiniusa nga mga laraw, mga diagram sa biyolin, ug daghan pa.
Gigamit niini ang semantic mapping ug statistical aggregation aron mahatagan og informative visualizations nga adunay lawom nga pagsabot. Naglakip kini sa daghang mga rutina sa pag-chart nga nakabase sa dataset nga nagtrabaho sa mga frame sa datos ug mga arrays nga naglakip sa tibuok dataset.
Ang mga data visualization niini mahimong maglakip sa mga bar chart, pie chart, histograms, scatterplots, error chart, ug uban pang mga graphic. Kini nga librarya sa visualization sa data sa Python naglakip usab sa mga himan alang sa pagpili sa mga paleta sa kolor, nga makatabang sa pagbutyag sa mga uso sa usa ka dataset.
5. Scikit-pagkat-on
Ang Scikit-pagkat-on mao ang pinakadako nga librarya sa Python alang sa pagmodelo sa datos ug pagtimbang-timbang sa modelo. Usa kini sa labing makatabang nga librarya sa Python. Kini adunay daghang mga kapabilidad nga gidisenyo alang lamang sa katuyoan sa pagmodelo.
Naglakip kini sa tanan nga Supervised ug Unsupervised Machine Learning nga mga algorithm, ingon man ang hingpit nga gipiho nga Ensemble Learning ug Boosting Machine Learning function.
Gigamit kini sa mga data scientist sa pagbuhat sa naandan pagkat-on sa makina ug data mining nga mga kalihokan sama sa clustering, regression, model selection, dimensionality reduction, ug classification. Kini usab adunay komprehensibo nga dokumentasyon ug maayo nga nahimo.
Ang Scikit-pagkat-on mahimong gamiton sa paghimo og lain-laing mga Supervised ug Unsupervised Machine Learning nga mga modelo sama sa Classification, Regression, Support Vector Machines, Random Forests, Nearest Neighbors, Naive Bayes, Decision Trees, Clustering, ug uban pa.
Ang librarya sa pagkat-on sa makina sa Python naglakip sa lainlain nga yano-apan-episyente nga mga himan alang sa pagpahigayon sa pagtuki sa datos ug mga buluhaton sa pagmina.
Alang sa dugang nga pagbasa, ania ang among giya sa Scikit-kat-on.
6. XGBoost
Ang XGBoost usa ka gipang-apod-apod nga gradient boosting toolkit nga gidisenyo alang sa katulin, kadali, ug kadali. Aron mapalambo ang mga algorithm sa ML, gigamit niini ang balangkas sa Gradient Boosting. Ang XGBoost usa ka paspas ug tukma nga parallel tree boosting technique nga makasulbad sa daghang mga problema sa data science.
Gamit ang balangkas sa Gradient Boosting, kini nga librarya mahimong magamit sa paghimo og mga algorithm sa pagkat-on sa makina.
Naglakip kini sa parallel tree boosting, nga nagtabang sa mga team sa pagsulbad sa lainlaing mga isyu sa data science. Ang laing kaayohan mao nga ang mga developers makagamit sa samang code alang sa Hadoop, SGE, ug MPI.
Masaligan usab kini sa parehas nga gipang-apod-apod ug gipugngan sa memorya nga mga sitwasyon.
7. dagan sa tensor
Ang TensorFlow usa ka libre nga end-to-end open-source AI nga plataporma nga adunay daghang mga himan, librarya, ug mga kapanguhaan. Ang TensorFlow kinahanglan nga pamilyar sa bisan kinsa nga nagtrabaho mga proyekto sa pagkat-on sa makina sa Python.
Kini usa ka open-source symbolic math toolkit para sa numerical calculation gamit ang data flow graphs nga gimugna sa Google. Ang mga graph node nagpakita sa mga proseso sa matematika sa usa ka tipikal nga TensorFlow data flow graph.
Ang mga sulab sa graph, sa laing bahin, mao ang multidimensional data arrays, nailhan usab nga mga tensor, nga nag-agay tali sa mga node sa network. Gitugotan niini ang mga programmer nga mag-apod-apod sa pagproseso sa usa o daghang mga CPU o GPU sa usa ka desktop, mobile device, o server nga wala’y pagbag-o sa code.
Ang TensorFlow naugmad sa C ug C++. Uban sa TensorFlow, mahimo ka nga magdesinyo ug tren Machine Learning mga modelo nga naggamit ug taas nga lebel nga mga API sama sa Keras.
Adunay usab kini daghang ang-ang sa abstraction, nga nagtugot kanimo sa pagpili sa labing kaayo nga solusyon alang sa imong modelo. Gitugotan ka usab sa TensorFlow nga i-deploy ang mga modelo sa Machine Learning sa panganod, usa ka browser, o imong kaugalingon nga aparato.
Kini ang labing epektibo nga himan alang sa mga trabaho sama sa pag-ila sa butang, pag-ila sa sinultihan, ug daghan pa. Nakatabang kini sa pag-uswag sa artipisyal neural networks nga kinahanglan makiglabot sa daghang mga tinubdan sa datos.
Ania ang among dali nga giya sa TensorFlow alang sa dugang nga pagbasa.
8. Keras
Ang Keras usa ka libre ug bukas nga gigikanan Ang neural network nga nakabase sa Python toolkit alang sa artificial intelligence, lawom nga pagkat-on, ug mga kalihokan sa data science. Ang mga neural network gigamit usab sa Data Science aron mahubad ang datos sa obserbasyon (mga litrato o audio).
Kini usa ka koleksyon sa mga himan alang sa paghimo og mga modelo, pag-graph sa datos, ug pagtimbang-timbang sa datos. Naglakip usab kini sa pre-labeled datasets nga dali nga ma-import ug ma-load.
Sayon kini gamiton, daghag gamit, ug sulundon alang sa eksplorasyon nga panukiduki. Dugang pa, kini nagtugot kanimo sa paghimo sa hingpit nga konektado, convolutional, pooling, balik-balik, pag-embed, ug uban pang mga porma sa Neural Networks.
Kini nga mga modelo mahimong i-merge aron makahimo og usa ka hingpit nga Neural Network alang sa daghang mga set sa datos ug mga isyu. Kini usa ka talagsaon nga librarya alang sa pagmodelo ug paghimo og mga neural network.
Kini yano nga gamiton ug naghatag sa mga developer og daghang pagka-flexible. Ang Keras hinay kung itandi sa ubang mga pakete sa pagkat-on sa makina sa Python.
Kini tungod kay kini una nga nagmugna og computational graph nga naggamit sa backend nga imprastraktura ug dayon gigamit kini sa pagpahigayon sa mga operasyon. Ang Keras dili katuohan nga makapahayag ug mapahiangay kung bahin sa paghimo sa bag-ong panukiduki.
9. PyTorch
Ang PyTorch usa ka popular nga pakete sa Python alang sa lawom nga pagkat-on ug pagkat-on sa makina. Kini usa ka Python-based open-source scientific computing software alang sa pagpatuman sa Deep Learning ug Neural Networks sa dagkong mga dataset.
Gigamit sa Facebook ang kini nga toolkit aron makahimo mga neural network nga makatabang sa mga kalihokan sama sa pag-ila sa nawong ug auto-tagging.
Ang PyTorch usa ka plataporma alang sa mga data scientist nga gusto nga makompleto ang lawom nga mga trabaho sa pagkat-on sa madali. Gitugotan sa himan ang mga kalkulasyon sa tensor nga himuon gamit ang pagpadali sa GPU.
Gigamit usab kini alang sa ubang mga butang, lakip ang paghimo sa mga dinamikong computational network ug awtomatikong pagkalkula sa mga gradient.
Maayo na lang, ang PyTorch usa ka hinanduraw nga pakete nga nagtugot sa mga developer nga dali nga magbalhin gikan sa teorya ug panukiduki hangtod sa pagbansay ug pag-uswag kung bahin sa pagkat-on sa makina ug panukiduki sa lawom nga pagkat-on aron mahatagan ang labing kadaghan nga kadali ug kadali.
10. NLTK
Ang NLTK (Natural Language Toolkit) kay sikat nga Python package para sa data scientists. Ang pag-tag sa teksto, tokenization, semantic nga pangatarungan, ug uban pang mga buluhaton nga may kalabutan sa natural nga pagproseso sa pinulongan mahimong matuman sa NLTK.
Ang NLTK mahimo usab nga gamiton aron makompleto ang mas komplikado nga AI (Artipisyal nga Intelligence) mga trabaho. Ang NLTK orihinal nga gimugna aron suportahan ang lainlaing AI ug machine learning nga mga paradigma sa pagtudlo, sama sa linguistic nga modelo ug cognitive theory.
Kini karon nagmaneho sa AI algorithm ug pagkat-on sa pagpauswag sa modelo sa aktuwal nga kalibutan. Kini kaylap nga gisagop alang sa paggamit isip usa ka himan sa pagtudlo ug isip usa ka indibidwal nga himan sa pagtuon, dugang pa nga gigamit isip usa ka plataporma alang sa prototyping ug pagpalambo sa mga sistema sa panukiduki.
Ang klasipikasyon, pag-parse, semantic nga pangatarungan, stemming, tagging, ug tokenization tanan gisuportahan.
Panapos
Kana nagtapos sa nag-unang napulo nga mga librarya sa Python alang sa siyensya sa datos. Ang mga librarya sa siyensya sa datos sa Python kanunay nga gi-update samtang ang siyensya sa datos ug pagkat-on sa makina nahimong mas popular.
Adunay daghang mga librarya sa Python alang sa Data Science, ug ang pagpili sa tiggamit kasagaran gitino sa matang sa proyekto nga ilang gitrabaho.
Leave sa usa ka Reply