Sa loob ng maraming taon, ang malalim na pag-aaral ay nagiging mga headline sa tech. At, ito ay simpleng upang maunawaan kung bakit.
Binabago ng sangay na ito ng artificial intelligence ang mga sektor mula sa pangangalagang pangkalusugan hanggang sa pagbabangko tungo sa transportasyon, na nagbibigay-daan sa mga dating hindi maiisip na pagsulong.
Ang malalim na pag-aaral ay binuo sa isang hanay ng mga sopistikadong algorithm na natututong kunin at hulaan ang mga kumplikadong pattern mula sa napakalaking dami ng data.
Titingnan natin ang pinakamahusay na 15 malalim na algorithm ng pag-aaral sa post na ito, mula sa Convolutional Neural Networks hanggang sa Generative Adversarial Networks hanggang sa Long Short-Term Memory network.
Ang post na ito ay magbibigay ng mahahalagang insight sa kung ikaw ay isang baguhan o isang dalubhasa sa malalim na pag-aaral.
1. Mga Transformer Network
Nagbago ang mga network ng transformer computer vision at natural na language processing (NLP) na mga aplikasyon. Sinusuri nila ang mga papasok na data at gumagamit ng mga proseso ng atensyon upang makuha ang mga pangmatagalang relasyon. Ginagawa nitong mas mabilis ang mga ito kaysa sa mga nakasanayang sequence-to-sequence na mga modelo.
Ang mga network ng transformer ay unang inilarawan sa publikasyong "Attention Is All You Need" ni Vaswani et al.
Binubuo ang mga ito ng isang encoder at isang decoder (2017). Ang modelo ng transpormer ay nagpakita ng pagganap sa iba't ibang mga aplikasyon ng NLP, kabilang ang damdamin pagsusuri, pagkategorya ng teksto, at pagsasalin ng makina.
Ang mga modelong nakabatay sa transformer ay maaari ding gamitin sa computer vision para sa mga aplikasyon. Maaari silang magsagawa ng object recognition at image captioning.
2. Mga Long Short-Term Memory Network (LSTMs)
Ang Long Short-Term Memory Networks (LSTMs) ay isang anyo ng neural network lalo na binuo upang mahawakan ang sequential input. Ang mga ito ay tinutukoy bilang "mahabang panandaliang" dahil maaari nilang maalala ang kaalaman mula sa isang mahabang panahon habang nakakalimutan din ang hindi kinakailangang impormasyon.
Gumagana ang mga LSTM sa ilang “gate” na namamahala sa daloy ng impormasyon sa loob ng network. Depende sa kung ang impormasyon ay hinuhusgahan na makabuluhan o hindi, ang mga gate na ito ay maaaring ipasok o pigilan ito.
Ang diskarteng ito ay nagbibigay-daan sa mga LSTM na maalala o makalimutan ang impormasyon mula sa mga nakaraang hakbang sa oras, na mahalaga para sa mga gawain tulad ng pagkilala sa pagsasalita, pagproseso ng natural na wika, at hula ng serye ng oras.
Ang mga LSTM ay lubhang kapaki-pakinabang sa anumang kaso kung saan mayroon kang sequential data na kailangang suriin o hulaan. Kadalasang ginagamit ang mga ito sa voice recognition software para i-convert ang mga binibigkas na salita sa text, o in pamilihan ng sapi pagsusuri upang hulaan ang mga presyo sa hinaharap batay sa nakaraang data.
3. Self Organizing Maps (SOMs)
Ang mga SOM ay isang uri ng artipisyal neural network na maaaring matuto at kumakatawan sa kumplikadong data sa isang mababang-dimensional na kapaligiran. Gumagana ang pamamaraan sa pamamagitan ng pagbabago ng high-dimensional na data ng input sa isang two-dimensional na grid, na ang bawat unit o neuron ay kumakatawan sa ibang bahagi ng input space.
Ang mga neuron ay pinagsama-sama at lumikha ng isang topological na istraktura, na nagpapahintulot sa kanila na matuto at mag-adjust sa input data. Kaya, ang SOM ay batay sa hindi pinangangasiwaang pag-aaral.
Hindi kailangan ng algorithm may label na data upang matuto mula sa. Sa halip, ginagamit nito ang mga tampok na istatistika ng data ng pag-input upang tumuklas ng mga pattern at ugnayan sa mga variable.
Sa yugto ng pagsasanay, nakikipagkumpitensya ang mga neuron upang maging pinakamahusay na indikasyon ng data ng pag-input. At, sila ay nag-aayos sa sarili sa isang makabuluhang istraktura. Ang mga SOM ay may malawak na hanay ng mga application, kabilang ang pagkilala sa imahe at pagsasalita, pagmimina ng data, at pagkilala sa pattern.
Ang mga ito ay kapaki-pakinabang para sa pagpapakita ng kumplikadong data, pag-cluster ng mga nauugnay na data point, at pag-detect ng mga abnormalidad o outlier.
4. Deep Reinforcement Learning
malalim Pagpapatibay ng Pagkatuto ay isang uri ng machine learning kung saan ang isang ahente ay sinanay na gumawa ng mga desisyon batay sa isang reward system. Gumagana ito sa pamamagitan ng pagpapaalam sa ahente na makipag-ugnayan sa kapaligiran nito at matuto sa pamamagitan ng pagsubok at pagkakamali.
Ang ahente ay ginagantimpalaan para sa bawat aksyon na ginagawa nito, at ang layunin nito ay matutunan kung paano i-optimize ang mga benepisyo nito sa paglipas ng panahon. Ito ay maaaring gamitin para turuan ang mga ahente na maglaro, magmaneho ng mga sasakyan, at mamahala ng mga robot.
Ang Q-Learning ay isang kilalang paraan ng Deep Reinforcement Learning. Gumagana ito sa pamamagitan ng pagtatasa sa halaga ng paggawa ng isang partikular na aksyon sa isang partikular na estado at pag-update sa pagtatantya na iyon habang nakikipag-ugnayan ang ahente sa kapaligiran.
Pagkatapos ay ginagamit ng ahente ang mga pagtatantya na ito upang matukoy kung aling pagkilos ang pinakamalamang na magreresulta sa pinakamalaking reward. Ginamit ang Q-Learning upang turuan ang mga ahente na maglaro ng mga laro ng Atari, gayundin upang mapabuti ang paggamit ng enerhiya sa mga data center.
Ang Deep Q-Networks ay isa pang sikat na Deep Reinforcement Learning method (DQN). Ang mga DQN ay katulad ng Q-Learning dahil tinatantya nila ang mga halaga ng pagkilos gamit ang isang malalim na neural network sa halip na isang talahanayan.
Nagbibigay-daan ito sa kanila na harapin ang malaki, kumplikadong mga setting na may maraming alternatibong aksyon. Ginamit ang mga DQN upang sanayin ang mga ahente na maglaro tulad ng Go at Dota 2, gayundin upang lumikha ng mga robot na maaaring matutong maglakad.
5. Mga Recurrent Neural Network (RNNs)
Ang mga RNN ay isang uri ng neural network na maaaring magproseso ng sunud-sunod na data habang pinapanatili ang isang panloob na estado. Isaalang-alang ito na katulad ng isang taong nagbabasa ng isang libro, kung saan ang bawat salita ay hinuhukay na may kaugnayan sa mga nauna rito.
Ang mga RNN samakatuwid ay mainam para sa mga gawain tulad ng pagkilala sa pagsasalita, pagsasalin ng wika, at kahit na hulaan ang susunod na salita sa isang parirala.
Gumagana ang mga RNN sa pamamagitan ng paggamit ng mga feedback loop upang ikonekta ang output ng bawat hakbang pabalik sa input ng susunod na hakbang. Nagbibigay-daan ito sa network na gamitin ang impormasyon ng naunang hakbang sa oras upang ipaalam ang mga hula nito para sa mga hakbang sa hinaharap. Sa kasamaang palad, nangangahulugan din ito na ang mga RNN ay mahina sa nawawalang gradient na isyu, kung saan ang mga gradient na ginagamit para sa pagsasanay ay nagiging napakaliit at ang network ay nahihirapang matuto ng mga pangmatagalang relasyon.
Sa kabila ng maliwanag na hadlang na ito, natagpuan ng mga RNN ang paggamit sa isang malawak na hanay ng mga application. Kasama sa mga application na ito ang natural na pagpoproseso ng wika, pagkilala sa pagsasalita, at maging ang paggawa ng musika.
Google translate, halimbawa, ay gumagamit ng isang RNN-based system upang magsalin sa mga wika, habang si Siri, ang virtual assistant, ay gumagamit ng isang RNN-based na system upang makita ang boses. Ginamit din ang mga RNN upang hulaan ang mga presyo ng stock at lumikha ng makatotohanang teksto at graphics.
6. Mga Capsule Network
Ang Capsule Networks ay isang bagong uri ng disenyo ng neural network na maaaring matukoy ang mga pattern at ugnayan sa data nang mas epektibo. Inayos nila ang mga neuron sa "mga kapsula" na nag-encode ng ilang aspeto ng isang input.
Sa ganitong paraan makakagawa sila ng mas tumpak na mga hula. Kinukuha ng Capsule Networks ang mga kumplikadong katangian mula sa input data sa pamamagitan ng paggamit ng maraming layer ng mga kapsula.
Ang pamamaraan ng Capsule Networks ay nagbibigay-daan sa kanila na matuto ng mga hierarchical na representasyon ng ibinigay na input. Maaari silang maayos na mag-encode ng mga spatial na koneksyon sa pagitan ng mga item sa loob ng isang larawan sa pamamagitan ng pakikipag-ugnayan sa pagitan ng mga kapsula.
Ang pagkakakilanlan ng bagay, pagse-segment ng larawan, at pagproseso ng natural na wika ay lahat ng mga aplikasyon ng Capsule Networks.
Ang mga Capsule Network ay may potensyal na magtrabaho sa autonomous na pagmamaneho mga teknolohiya. Tinutulungan nila ang system sa pagkilala at pagkilala sa pagitan ng mga item tulad ng mga sasakyan, tao, at mga palatandaan ng trapiko. Maaaring maiwasan ng mga system na ito ang mga banggaan sa pamamagitan ng paggawa ng mas tumpak na mga hula tungkol sa pag-uugali ng mga bagay sa kanilang kapaligiran.
7. Variational Autoencoders (VAEs)
Ang mga VAE ay isang anyo ng deep learning tool na ginagamit para sa hindi pinangangasiwaang pag-aaral. Sa pamamagitan ng pag-encode ng data sa mas mababang-dimensional na espasyo at pagkatapos ay pag-decode nito pabalik sa orihinal na format, maaari nilang matutunang makita ang mga pattern sa data.
Para silang isang salamangkero na kayang gawing sombrero ang isang kuneho at pagkatapos ay bumalik sa isang kuneho! Ang mga VAE ay kapaki-pakinabang para sa pagbuo ng mga makatotohanang visual o musika. At, magagamit ang mga ito upang makagawa ng bagong data na maihahambing sa orihinal na data.
Ang mga VAE ay katulad ng secret codebreaker. Maaari nilang matuklasan ang pinagbabatayan istraktura ng data sa pamamagitan ng paghahati-hati nito sa mas simpleng mga piraso, katulad ng kung paano pinaghiwa-hiwalay ang isang palaisipan. Maaari nilang gamitin ang impormasyong iyon upang bumuo ng bagong data na mukhang orihinal pagkatapos nilang ayusin ang mga bahagi.
Maaari itong maging madaling gamitin para sa pag-compress ng napakalaking file o paggawa ng mga sariwang graphics o musika sa isang partikular na istilo. Ang mga VAE ay maaari ding gumawa ng bagong nilalaman, gaya ng mga balita o lyrics ng musika.
8. Mga Generative Adversarial Network (GAN)
Ang mga GAN (Generative Adversarial Networks) ay isang anyo ng isang malalim na sistema ng pag-aaral na bumubuo ng bagong data na kahawig ng orihinal. Gumagana sila sa pamamagitan ng pagsasanay ng dalawang network: isang generator at isang network ng discriminator.
Ang generator ay gumagawa ng bagong data na maihahambing sa orihinal.
At, sinusubukan ng discriminator na makilala ang orihinal at nilikhang data. Ang dalawang network ay sinanay nang magkasabay, kung saan sinusubukan ng generator na linlangin ang discriminator at ang discriminator na sinusubukang tukuyin nang maayos ang orihinal na data.
Isaalang-alang ang mga GAN bilang isang krus sa pagitan ng isang manghuhuwad at isang tiktik. Ang generator ay gumagana nang katulad sa isang palsipikado, na gumagawa ng bagong likhang sining na kahawig ng orihinal.
Ang discriminator ay gumaganap bilang isang detective, sinusubukang makilala ang pagitan ng tunay na likhang sining at pamemeke. Ang dalawang network ay sinanay nang magkasabay, kung saan ang generator ay nagpapabuti sa paggawa ng mga kapani-paniwalang peke at ang discriminator ay nagpapabuti sa pagkilala sa kanila.
Ang mga GAN ay may ilang gamit, mula sa paggawa ng mga makatotohanang larawan ng mga tao o hayop hanggang sa paglikha ng bagong musika o pagsulat. Maaari ding gamitin ang mga ito para sa pagpapalaki ng data, na kinabibilangan ng pagsasama-sama ng ginawang data sa totoong data upang bumuo ng mas malaking dataset para sa pagsasanay ng mga modelo ng machine learning.
9. Deep Q-Networks (DQNs)
Ang Deep Q-Networks (DQNs) ay isang uri ng algorithm para sa reinforcement learning sa paggawa ng desisyon. Gumagana sila sa pamamagitan ng pag-aaral ng Q-function na hinuhulaan ang inaasahang gantimpala para sa paggawa ng isang partikular na aksyon sa isang partikular na kundisyon.
Ang Q-function ay itinuro sa pamamagitan ng pagsubok at error, na may algorithm na sumusubok sa iba't ibang mga aksyon at natututo mula sa mga kinalabasan.
Isaalang-alang ito tulad ng a video game character na nag-eeksperimento sa iba't ibang mga aksyon at pagtuklas kung alin ang humahantong sa tagumpay! Sinasanay ng mga DQN ang Q-function gamit ang isang malalim na neural network, na ginagawa itong mga epektibong tool para sa mahihirap na gawain sa paggawa ng desisyon.
Tinalo pa nila ang mga human champion sa mga laro tulad ng Go at chess, pati na rin sa robotics at self-driving na mga sasakyan. Kaya, sa kabuuan, gumagana ang mga DQN sa pamamagitan ng pag-aaral mula sa karanasan upang mapahusay ang kanilang mga kasanayan sa paggawa ng desisyon sa paglipas ng panahon.
10. Radial Basis Function Networks (RBFNs)
Ang Radial Basis Function Networks (RBFNs) ay isang uri ng neural network na ginagamit upang tantiyahin ang mga function at magsagawa ng mga gawain sa pag-uuri. Gumagana ang mga ito sa pamamagitan ng pagbabago ng data ng pag-input sa isang mas mataas na dimensyon na espasyo gamit ang isang koleksyon ng mga function ng radial basis.
Ang output ng network ay isang linear na kumbinasyon ng mga base function, at ang bawat radial basis function ay kumakatawan sa isang center point sa input space.
Ang mga RBFN ay lalong epektibo para sa mga sitwasyong may kumplikadong input-output na pakikipag-ugnayan, at maaaring ituro ang mga ito gamit ang malawak na hanay ng mga diskarte, kabilang ang pinangangasiwaan at hindi pinangangasiwaang pag-aaral. Ginamit ang mga ito para sa anumang bagay mula sa mga hula sa pananalapi hanggang sa pagkilala sa larawan at pagsasalita hanggang sa mga medikal na diagnostic.
Isaalang-alang ang mga RBFN bilang isang GPS system na gumagamit ng serye ng mga anchor point upang mahanap ang daan nito sa mapanghamong lupain. Ang output ng network ay isang kumbinasyon ng mga anchor point, na nakatayo para sa radial basis function.
Maaari kaming mag-browse sa kumplikadong impormasyon at makabuo ng mga tumpak na hula tungkol sa kung paano lalabas ang isang senaryo sa pamamagitan ng paggamit ng mga RBFN.
11. Multilayer Perceptrons (MLPs)
Ang isang karaniwang anyo ng neural network na tinatawag na multilayer perceptron (MLP) ay ginagamit para sa mga pinangangasiwaang gawain sa pag-aaral tulad ng pag-uuri at pagbabalik. Gumagana ang mga ito sa pamamagitan ng pag-stack ng ilang mga layer ng mga naka-link na node, o mga neuron, na ang bawat layer ay hindi linear na nagbabago sa papasok na data.
Sa isang MLP, ang bawat neuron ay nakakakuha ng input mula sa mga neuron sa layer sa ibaba at nagpapadala ng signal sa mga neuron sa layer sa itaas. Ang output ng bawat neuron ay tinutukoy gamit ang isang activation function, na nagbibigay sa network ng nonlinearity.
May kakayahan silang matuto ng mga sopistikadong representasyon ng input data dahil maaari silang magkaroon ng ilang nakatagong layer.
Nailapat ang mga MLP sa iba't ibang gawain, tulad ng pagsusuri ng damdamin, pagtuklas ng pandaraya, at pagkilala sa boses at larawan. Ang mga MLP ay maaaring ihambing sa isang pangkat ng mga imbestigador na nagtutulungan upang masira ang isang mahirap na kaso.
Sama-sama, maaari nilang pagsama-samahin ang mga katotohanan at lutasin ang krimen sa kabila ng katotohanan na ang bawat isa ay may partikular na lugar ng espesyalidad.
12. Convolutional Neural Networks (CNNs)
Pinoproseso ang mga larawan at video gamit ang convolutional neural network (CNNs), isang anyo ng neural network. Gumagana ang mga ito sa pamamagitan ng paggamit ng isang hanay ng mga natututunang filter, o mga kernel, upang kunin ang mga makabuluhang katangian mula sa data ng pag-input.
Ang mga filter ay dumausdos sa ibabaw ng input na larawan, nagsasagawa ng mga convolution upang bumuo ng isang tampok na mapa na kumukuha ng mahahalagang aspeto ng larawan.
Dahil natututo ang mga CNN ng hierarchical na representasyon ng mga katangian ng larawan, partikular na nakakatulong ang mga ito para sa mga sitwasyong kinasasangkutan ng napakalaking volume ng visual na data. Ginamit ng ilang application ang mga ito, tulad ng pagtuklas ng bagay, pagkakategorya ng larawan, at pagtuklas ng mukha.
Isaalang-alang ang mga CNN bilang isang pintor na gumagamit ng ilang mga brush upang lumikha ng isang obra maestra. Ang bawat brush ay isang kernel, at ang artist ay maaaring bumuo ng isang kumplikado, makatotohanang imahe sa pamamagitan ng paghahalo ng maraming mga kernel. Maaari naming kunin ang mga makabuluhang katangian mula sa mga larawan at gamitin ang mga ito upang tumpak na hulaan ang mga nilalaman ng larawan sa pamamagitan ng paggamit ng mga CNN.
13. Mga Deep Belief Network (DBNs)
Ang mga DBN ay isang anyo ng neural network na ginagamit para sa mga hindi pinangangasiwaang gawain sa pag-aaral gaya ng pagbabawas ng dimensional at pag-aaral ng tampok. Gumagana ang mga ito sa pamamagitan ng pag-stack ng ilang layer ng Restricted Boltzmann Machines (RBMs), na mga two-layer neural network na may kakayahang matutong buuin muli ang input data.
Ang mga DBN ay lubhang kapaki-pakinabang para sa mga isyu sa high-dimensional na data dahil maaari silang matuto ng isang compact at mahusay na representasyon ng input. Ginamit ang mga ito para sa anumang bagay mula sa pagkilala sa boses hanggang sa pagkakategorya ng larawan hanggang sa pagtuklas ng droga.
Halimbawa, gumamit ang mga mananaliksik ng isang DBN upang tantiyahin ang nagbubuklod na kaugnayan ng mga kandidato ng gamot sa estrogen receptor. Ang DBN ay sinanay sa isang koleksyon ng mga kemikal na katangian at nagbubuklod na mga kaugnayan, at nagawa nitong tumpak na mahulaan ang nagbubuklod na kaugnayan ng mga bagong kandidato sa droga.
Itinatampok nito ang paggamit ng mga DBN sa pagbuo ng gamot at iba pang high-dimensional na data application.
14. Autoencoders
Ang mga autoencoder ay mga neural network na ginagamit para sa mga hindi pinangangasiwaang gawain sa pag-aaral. Nilalayon nilang buuin muli ang data ng input, na nagpapahiwatig na matututo silang i-encode ang impormasyon sa isang compact na representasyon at pagkatapos ay i-decode ito pabalik sa orihinal na input.
Napaka-epektibo ng mga autoencoder para sa pag-compress ng data, pag-alis ng ingay, at pagtuklas ng anomalya. Magagamit din ang mga ito para sa feature learning, kung saan ang compact na representasyon ng autoencoder ay ibinibigay sa isang pinangangasiwaang gawain sa pag-aaral.
Isaalang-alang ang mga autoencoder na mga mag-aaral na kumukuha ng mga tala sa klase. Ang mag-aaral ay nakikinig sa lektura at nagsusulat ng mga pinaka-kaugnay na punto sa isang maigsi at mahusay na paraan.
Sa ibang pagkakataon, maaaring pag-aralan at alalahanin ng mag-aaral ang aralin gamit ang kanilang mga tala. Ang isang autoencoder, sa kabilang banda, ay nag-e-encode ng input data sa isang compact na representasyon na maaaring pagkatapos ay gamitin para sa iba't ibang layunin tulad ng anomalya detection o data compression.
15. Mga Restricted Boltzmann Machines( RBMs)
Ang mga RBM (Restricted Boltzmann Machines) ay isang uri ng generative neural network na ginagamit para sa mga hindi pinangangasiwaang gawain sa pag-aaral. Binubuo ang mga ito ng isang nakikitang layer at isang nakatagong layer, na may mga neuron sa bawat layer, na naka-link ngunit hindi sa loob ng parehong layer.
Ang mga RBM ay sinanay gamit ang isang pamamaraan na kilala bilang contrastive divergence, na nangangailangan ng pagbabago ng mga timbang sa pagitan ng nakikita at nakatagong mga layer upang ma-optimize ang posibilidad ng data ng pagsasanay. Ang mga RBM ay maaaring lumikha ng bagong data pagkatapos na sanayin sa pamamagitan ng sampling mula sa natutunang pamamahagi.
Ang pagkilala sa larawan at pananalita, collaborative na pag-filter, at pagtuklas ng anomalya ay lahat ng mga application na gumamit ng mga RBM. Ginamit din ang mga ito sa mga system ng rekomendasyon upang lumikha ng mga iniangkop na rekomendasyon sa pamamagitan ng pag-aaral ng mga pattern mula sa gawi ng user.
Ang mga RBM ay ginamit din sa pag-aaral ng tampok upang lumikha ng isang compact at mahusay na representasyon ng high-dimensional na data.
Wrap-Up at Mga Pangangakong Pag-unlad sa Horizon
Ang mga pamamaraan ng malalim na pag-aaral, tulad ng Convolutional Neural Networks (CNNs) at Recurrent Neural Networks (RNNs), ay kabilang sa mga pinaka-advanced na artificial intelligence approach. Binago ng mga CNN ang pagkilala sa larawan at audio, habang ang mga RNN ay sumulong nang malaki sa natural na pagpoproseso ng wika at sequential data analysis.
Ang susunod na hakbang sa ebolusyon ng mga diskarteng ito ay malamang na tumuon sa pagpapabuti ng kanilang kahusayan at scalability, na nagbibigay-daan sa kanila na pag-aralan ang mas malaki at mas kumplikadong mga dataset, pati na rin ang pagpapahusay sa kanilang interpretability at kakayahang matuto mula sa mas kaunting label na data.
Ang malalim na pag-aaral ay may posibilidad na payagan ang mga tagumpay sa mga larangan tulad ng pangangalagang pangkalusugan, pananalapi, at mga autonomous na sistema habang umuunlad ito.
Mag-iwan ng Sagot