Urteak daramatzate deep learning teknologiaren goiburuak izaten. Eta, erraza da ulertzea zergatik.
Adimen artifizialaren adar honek osasungintzatik bankutik garraiora bitarteko sektoreak eraldatzen ari da, orain arte pentsaezinak diren aurrerapenak ahalbidetuz.
Ikaskuntza sakona datu-bolumen handietatik eredu konplikatuak ateratzen eta iragartzen ikasten duten algoritmo sofistikatuen multzo batean eraikitzen da.
Ikasketa sakoneko 15 algoritmo onenak ikusiko ditugu argitalpen honetan, sare neuronal konboluzionaletatik hasi eta kontrako sare sortzaileetaraino epe laburreko memoria sareetara.
Argitalpen honek ezinbesteko argibideak emango ditu a zaren ala ez jakiteko hasiberria edo ikaskuntza sakonean aditua.
1. Transformadore-sareak
Sare transformadoreak eraldatu egin dira Ikusmen informatikoa eta hizkuntza naturalaren prozesatzeko (NLP) aplikazioak. Sarrerako datuak aztertzen dituzte eta arreta-prozesuak erabiltzen dituzte epe luzeko harremanak atzemateko. Horrek sekuentziaz sekuentzia eredu konbentzionalak baino azkarrago bihurtzen ditu.
Transformadore-sareak Vaswani et al-en "Arreta behar duzun guztia" argitalpenean deskribatu ziren lehen aldiz.
Kodetzaile batek eta deskodegailu batek osatzen dute (2017). Transformadorearen ereduak errendimendua erakutsi du NLP aplikazio ezberdinetan, besteak beste sentimenduen azterketa, testuen kategorizazioa eta itzulpen automatikoa.
Transformadoreetan oinarritutako ereduak ordenagailu bidezko ikusmenean ere erabil daitezke aplikazioetarako. Objektuen antzematea eta irudien azpitituluak egin ditzakete.
2. Epe Laburreko Memoria Sareak (LSTM)
Epe Laburreko Memoria Sareak (LSTM) forma bat dira sare neural bereziki sarrera sekuentziala kudeatzeko eraikia. “Epe laburrerako” deitzen zaie, aspaldiko ezagutzak gogora ditzaketelako, beharrezkoa ez den informazioa ere ahaztuz.
LSTMek sare barruko informazio-fluxua zuzentzen duten "ate" batzuen bidez funtzionatzen dute. Informazioa esanguratsutzat jotzen den ala ez, ate hauek sartzen utzi edo eragotzi dezakete.
Teknika honi esker, LSTM-ek iraganeko denbora-urratsetako informazioa gogoratu edo ahaztea ahalbidetzen du, eta hori ezinbestekoa da hizketa-ezagutzea, hizkuntza naturalaren prozesamendua eta denbora-serieen iragarpena bezalako zereginetarako.
LSTMak oso onuragarriak dira ebaluatu edo aurreikusi beharreko datu sekuentzialak dituzun edozein kasutan. Ahotsa ezagutzeko softwarean erabili ohi dira ahozko hitzak testu bihurtzeko, edo burtsa aurreko datuetan oinarrituta etorkizuneko prezioak aurreikusteko analisia.
3. Norberak antolatutako mapak (SOM)
SOMak artifizial moduko bat dira ikas dezakeen neurona-sarea eta datu konplikatuak irudikatu dimentsio baxuko ingurune batean. Metodoak dimentsio handiko sarrerako datuak bi dimentsioko sareta batean eraldatuz funtzionatzen du, unitate edo neurona bakoitzak sarrera-espazioaren zati ezberdin bat ordezkatzen duelarik.
Neuronak elkarrekin lotzen dira eta egitura topologiko bat sortzen dute, sarrerako datuak ikasteko eta egokitzeko aukera emanez. Beraz, SOM gainbegiratu gabeko ikaskuntzan oinarritzen da.
Algoritmoak ez du behar etiketatutako datuak ikasteko. Horren ordez, sarrerako datuen ezaugarri estatistikoak erabiltzen ditu aldagaien arteko ereduak eta korrelazioak ezagutzeko.
Prestakuntza-etapan, neuronak lehiatzen dira sarrerako datuen adierazle onena izateko. Eta, egitura esanguratsu batean autoantolatzen dira. SOMek aplikazio sorta zabala dute, besteak beste, irudiak eta hizkerak hautematea, datuen meatzaritza eta ereduen ezagutza.
Baliagarriak dira datu konplikatuak bistaratzea, erlazionatutako datu-puntuak multzokatuz eta anomaliak edo kanpokoak detektatuz.
4. Indartze Sakoneko Ikaskuntza
Deep Sendotze-ikaskuntza ikaskuntza automatiko moduko bat da, non agente bat sari-sistema batean oinarrituta erabakiak hartzeko trebatzen den. Agenteari bere ingurunearekin elkarreragin eta saiakuntza bidez ikasten utziz funtzionatzen du.
Agentea egiten duen ekintza bakoitzagatik saritzen da, eta bere helburua denboran zehar onurak nola optimizatzen ikastea da. Hau agenteei jolasten, autoak gidatzen eta robotak kudeatzen irakasteko erabil daiteke.
Q-Learning Deep Reinforcement Learning metodo ezaguna da. Egoera jakin batean ekintza jakin bat egiteak duen balioa ebaluatuz eta kalkulu hori eguneratuz funtzionatzen du, agenteak ingurunearekin elkarreragiten duen heinean.
Ondoren, agenteak balioespen hauek erabiltzen ditu saririk handiena lortzeko litekeen ekintza zein den zehazteko. Q-Learning eragileak Atari jokoetara jolasteko hezteko erabili da, baita datu-zentroetan energiaren erabilera hobetzeko ere.
Deep Q-Networks Deep Reinforcement Learning metodo (DQN) ospetsua da. DQN-ak Q-Learning-en antzekoak dira, izan ere, ekintza-balioak kalkulatzen dituzte sare neuronal sakon bat erabiliz, taula bat baino.
Horrek aukera ematen die ezarpen handi eta konplikatuei aurre egiteko ekintza alternatibo ugarirekin. DQNak agenteak Go eta Dota 2 bezalako jokoetara jolasteko trebatzeko erabili dira, baita ibiltzen ikas dezaketen robotak sortzeko ere.
5. Sare neuronal errekurrenteak (RNN)
RNN-ak barne-egoera mantenduz datu sekuentzialak prozesatu ditzaketen neurona-sare moduko bat dira. Demagun liburu bat irakurtzen duen pertsona baten antzekoa, non hitz bakoitza bere aurrekoekin erlazionatuta digeritzen den.
Hortaz, RNNak aproposak dira hizketa-ezagutzea, hizkuntza-itzultzea eta esaldi bateko hurrengo hitza aurreikustea bezalako zereginetarako.
RNN-ek feedback begiztak erabiliz funtzionatzen dute denbora-pauso bakoitzaren irteera hurrengo denbora-pausoaren sarrerarekin konektatzeko. Horri esker, sareak aurreko denbora-urratsen informazioa erabil dezake etorkizuneko denbora-urratsei buruzko aurreikuspenen berri emateko. Zoritxarrez, horrek ere esan nahi du RNN-ak desagertzen den gradientearen arazoaren aurrean zaurgarriak direla, zeinetan trebakuntzarako erabiltzen diren gradienteak oso txikiak bihurtzen dira eta sareak epe luzerako harremanak ikasteko borrokan jartzen du.
Itxurazko muga hori izan arren, RNN-ek aplikazio ugaritan aurkitu dute erabilera. Aplikazio hauek hizkuntza naturalaren prozesamendua, hizketa-ezagutzea eta baita musika-ekoizpena ere.
Google itzultzailea, adibidez, RNNn oinarritutako sistema bat erabiltzen du hizkuntzak itzultzeko, eta Siri, laguntzaile birtualak, berriz, RNNn oinarritutako sistema bat erabiltzen du ahotsa detektatzeko. RNNak ere erabili dira akzioen prezioak aurreikusteko eta testu eta grafiko errealistak sortzeko.
6. Kapsula Sareak
Capsule Networks sare neuronalaren diseinu mota berri bat da, datuen ereduak eta korrelazioak modu eraginkorragoan identifikatu ditzakeena. Sarrera baten zenbait alderdi kodetzen dituzten "kapsuletan" antolatzen dituzte neuronak.
Horrela iragarpen zehatzagoak egin ditzakete. Capsule Networks-ek propietate konplikatuak ateratzen ditu sarrerako datuetatik, kapsula geruza ugari erabiliz.
Capsule Networks-en teknikak emandako sarreraren irudikapen hierarkikoak ikasteko aukera ematen die. Irudi baten barneko elementuen arteko konexio espazialak behar bezala kode ditzakete kapsulen artean komunikatuz.
Objektuen identifikazioa, irudien segmentazioa eta hizkuntza naturalaren prozesamendua Capsule Networks-en aplikazioak dira.
Kapsula sareek enplegatzeko aukera dute gidaritza autonomoa teknologiak. Sistemari laguntzen diote autoak, pertsonak eta trafiko seinaleak bezalako elementuak ezagutzen eta bereizten. Sistema hauek talkak saihestu ditzakete beren inguruneko objektuen portaerari buruzko iragarpen zehatzagoak eginez.
7. Autokodetzaile aldakorra (VAE)
VAEak gainbegiratu gabeko ikaskuntzarako erabiltzen den deep learning tresna bat dira. Datuak dimentsio baxuko espazio batean kodetuz eta, ondoren, jatorrizko formatura deskodetuz, datuetan ereduak antzematen ikas dezakete.
Untxi bat kapela bihurtu eta gero untxi bihur dezakeen mago bat bezalakoak dira! VAEak onuragarriak dira ikus-entzunezko edo musika errealistak sortzeko. Eta, jatorrizko datuekin konparagarriak diren datu berriak sortzeko erabil daitezke.
VAEs secret codebreaker antzekoak dira. Azpikoa deskubritu dezakete datuen egitura zati sinpleagoetan zatituz, puzzle bat nola apurtzen den bezala. Informazio hori erabil dezakete jatorrizkoaren itxura duten datu berriak sortzeko, piezak sailkatu ondoren.
Hau erabilgarria izan daiteke fitxategi izugarriak konprimitzeko edo estilo jakin bateko grafiko edo musika freskoak sortzeko. VAEek eduki freskoak ere sor ditzakete, hala nola, albisteak edo musika-letzak.
8. Sortzaileen aurkako sareak (GAN)
GANak (Generative Adversarial Networks) jatorrizkoaren antza duten datu berriak sortzen dituen deep learning sistema baten forma dira. Bi sare entrenatuz funtzionatzen dute: sorgailu bat eta diskriminatzaile sare bat.
Sorgailuak jatorrizkoaren parekoak diren datu berriak sortzen ditu.
Eta diskriminatzaileak jatorrizko datuak eta sortutako datuak bereizten saiatzen da. Bi sareak batera entrenatzen dira, sorgailua diskriminatzailea engainatzen saiatzen da eta diskriminatzailea jatorrizko datuak behar bezala identifikatzen saiatzen da.
Demagun GANak faltsutzaile eta detektibe baten arteko gurutzaketa direla. Sorgailuak faltsutzaile baten antzera funtzionatzen du, jatorrizkoaren antza duten artelan berriak sortzen.
Diskriminatzaileak detektibe gisa jokatzen du, benetako artelanak eta faltsukeriak bereizten saiatzen da. Bi sareak batera trebatzen dira, sorgailuak faltsuak sinesgarriak egiten hobetzen ditu eta diskriminatzaileak hobetzen ditu horiek ezagutzen.
GANek hainbat erabilera dituzte, gizakien edo animalien irudi errealistak ekoizten hasi eta musika edo idazketa berriak sortzeraino. Datuak handitzeko ere erabil daitezke, hau da, ekoiztutako datuak datu errealekin konbinatuz datu multzo handiago bat eraikitzeko, ikasketa automatikoko ereduak entrenatzeko.
9. Q-sare sakonak (DQN)
Deep Q-Networks (DQN) erabakiak hartzeko indartzeko ikasteko algoritmo moduko bat dira. Baldintza jakin batean ekintza jakin bat egiteagatik espero den saria iragartzen duen Q-funtzioa ikasiz funtzionatzen dute.
Q-funtzioa saiakera eta akatsen bidez irakasten da, algoritmoak hainbat ekintza saiatuz eta emaitzetatik ikasten.
Demagun bat bezala bideo-joko pertsonaia hainbat ekintzarekin esperimentatzen eta zeinek arrakasta lortzen duten deskubritzen! DQN-ek Q-funtzioa entrenatzen dute sare neuronal sakon bat erabiliz, erabakiak hartzeko zeregin zailetarako tresna eraginkor bihurtuz.
Giza txapeldunak ere garaitu dituzte Goa eta xakea bezalako jokoetan, baita robotikan eta auto gidatzen duten autoetan ere. Beraz, oro har, DQNek esperientziatik ikasiz egiten dute lan erabakiak hartzeko gaitasunak denboran zehar hobetzeko.
10. Oinarri Erradialaren Funtzio Sareak (RBFN)
Oinarri Erradialaren Funtzio Sareak (RBFN) funtzioak hurbiltzeko eta sailkapen zereginak egiteko erabiltzen den neurona-sare moduko bat dira. Sarrerako datuak goi-dimentsioko espazio batean eraldatuz funtzionatzen dute, oinarri erradialen funtzioen bilduma erabiliz.
Sarearen irteera oinarrizko funtzioen konbinazio lineal bat da, eta oinarrizko funtzio erradial bakoitzak sarrerako espazioko erdigune bat adierazten du.
RBFN-ak bereziki eraginkorrak dira sarrera-irteera interakzio korapilatsuak dituzten egoeretarako, eta teknika ugari erabiliz irakats daitezke, gainbegiratuta eta gainbegiratu gabeko ikaskuntza barne. Finantza-iragarpenetarako erabili izan dira, argazki eta hizkera aitortzeko eta diagnostiko medikoetarako.
Hartu RBFN-ak lur zailetan zehar bidea aurkitzeko aingura-puntu batzuk erabiltzen dituen GPS sistema gisa. Sarearen irteera aingura puntuen konbinazioa da, oinarri erradialen funtzioak ordezkatzen dituztenak.
Informazio konplikatua arakatu eta iragarpen zehatzak sor ditzakegu eszenatoki bat nola gertatuko den RBFNak erabiliz.
11. Geruza anitzeko pertzeptroiak (MLP)
Geruza anitzeko pertzeptron (MLP) izeneko neurona-sarearen forma tipikoa erabiltzen da sailkapena eta erregresioa bezalako ikaskuntza-zeregin gainbegiratuetarako. Lotutako nodo edo neuronen hainbat geruza pilatuz funtzionatzen dute, geruza bakoitzak sarrerako datuak modu ez-linealean aldatzen dituelarik.
MLP batean, neurona bakoitzak beheko geruzan dauden neuronen sarrera jasotzen du eta goiko geruzan dauden neuronei seinale bat bidaltzen die. Neurona bakoitzaren irteera aktibazio-funtzio baten bidez zehazten da, eta horrek sareari ez-linealtasuna ematen dio.
Sarrerako datuen irudikapen sofistikatuak ikasteko gai dira, ezkutuko hainbat geruza izan ditzaketelako.
MLPak hainbat zereginetan aplikatu dira, hala nola, sentimenduen analisia, iruzurra hautematea eta ahotsa eta irudia ezagutzeko. MLPak kasu zail bat argitzeko elkarrekin lan egiten duten ikertzaile talde batekin aldera daitezke.
Elkarrekin, gertaerak bildu eta delitua ebatzi dezakete bakoitzak espezialitate-eremu jakin bat izan arren.
12. Sare neuronal konboluzionalak (CNN)
Irudiak eta bideoak sare neuronal konboluzionalak (CNN) erabiliz prozesatzen dira, neurona-sare modu bat. Iragazki edo nukleoen multzo bat erabiliz funtzionatzen dute sarrerako datuetatik ezaugarri esanguratsuak ateratzeko.
Iragazkiak sarrerako irudiaren gainean irristatu egiten dira, eta zirkuluak exekutatzen dituzte, irudiaren funtsezko alderdiak jasotzen dituen ezaugarri-mapa bat eraikitzeko.
CNN-ak irudien ezaugarrien irudikapen hierarkikoak ikasteko gai direnez, bereziki lagungarriak dira ikusizko datu-bolumen handiak dituzten egoeretarako. Hainbat aplikaziok erabili dituzte, hala nola, objektuen detekzioa, irudien kategorizazioa eta aurpegien detekzioa.
Demagun CNNak maisulan bat sortzeko hainbat pintzel erabiltzen dituen margolari gisa. Pintzel bakoitza nukleo bat da, eta artistak irudi konplexu eta errealista bat eraiki dezake nukleo asko nahastuz. Argazkietatik ezaugarri esanguratsuak atera ditzakegu eta CNNak erabiliz irudiaren edukia zehatz-mehatz aurreikusteko erabil ditzakegu.
13. Sinesmen sakoneko sareak (DBN)
DBN-ak gainbegiratu gabeko ikaskuntza-zereginetarako erabiltzen den neurona-sare bat dira, hala nola dimentsio-murrizketa eta ezaugarrien ikaskuntza. Boltzmann Restricted Machines (RBM) hainbat geruza pilatuz funtzionatzen dute, hau da, sarrerako datuak berreraikitzen ikasteko bi geruzako sare neuronalak dira.
DBNak oso onuragarriak dira dimentsio handiko datuen arazoetarako, sarreraren irudikapen trinko eta eraginkorra ikas dezaketelako. Ahotsaren aitorpenetik, argazkien kategorizaziora eta sendagaiak aurkitzeko edozertarako erabili izan dira.
Esaterako, ikertzaileek DBN bat erabili zuten botika hautagaiek estrogeno-hartzailearekin duten lotura-afintasuna kalkulatzeko. DBN ezaugarri kimikoen eta lotura-afinitateen bilduma batean trebatu zen, eta droga hautagai berrien lotura-afintasuna zehaztasunez aurreikusteko gai izan zen.
Honek droga garapenean eta dimentsio handiko beste datu-aplikazioetan DBN-en erabilera nabarmentzen du.
14. Autokodetzaileak
Autokodetzaileak gainbegiratu gabeko ikaskuntza-zereginetarako erabiltzen diren neurona-sareak dira. Sarrerako datuak berreraiki nahi dira, eta horrek esan nahi du informazioa irudikapen trinko batean kodetzen ikasiko dutela eta, ondoren, jatorrizko sarreran deskodetzen ikasiko dutela.
Autokodetzaileak oso eraginkorrak dira datuak konprimitzeko, zarata kentzeko eta anomaliak detektatzeko. Ezaugarrien ikaskuntzarako ere erabil daitezke, non autokodetzailearen irudikapen trinkoa gainbegiratutako ikaskuntza-zeregin batean sartzen den.
Demagun autokodetzaileak klasean oharrak hartzen dituzten ikasleak direla. Ikasleak hitzaldia entzuten du eta puntu garrantzitsuenak apuntatzen ditu modu zehatz eta eraginkorrean.
Geroago, ikasleak ikasgaia ikasi eta gogoratu dezake bere oharrak erabiliz. Kodegailu automatiko batek, berriz, sarrerako datuak irudikapen trinko batean kodetzen ditu, eta, ondoren, hainbat helburutarako erabil daiteke, hala nola anomaliak detektatzeko edo datuak konprimitzeko.
15. Boltzmann makinak (RBM) mugatuak
RBMak (Restricted Boltzmann Machines) sare neuronal sortzaile moduko bat dira, gainbegiratu gabeko ikaskuntza-zereginetarako erabiltzen dena. Geruza ikusgai batez eta geruza ezkutu batez osatuta daude, geruza bakoitzean neuronak, lotuta baina ez geruza beraren barruan.
RBMak dibergentzia kontrastiboa deritzon teknika erabiliz entrenatzen dira, ikusgarri eta ezkutuko geruzen arteko pisuak aldatzea dakar entrenamenduaren datuen probabilitatea optimizatzeko. RBMek datu berriak sor ditzakete ikasitako banaketaren laginketa eginez trebatu ondoren.
Irudiak eta hizketa-ezagutzea, lankidetza-iragazkia eta anomaliak hautematea dira RBMak erabili dituzten aplikazioak. Gomendio sistemetan ere erabili dira neurrira gomendioak sortzeko, erabiltzailearen portaeraren ereduak ikasiz.
RBMak funtzioen ikaskuntzan ere erabili dira dimentsio handiko datuen irudikapen trinko eta eraginkorra sortzeko.
Bilketa eta garapen itxaropentsuak Horizontean
Ikasketa sakoneko metodoak, hala nola, Sare Neuronal Konboluzionalak (CNN) eta Sare Neuronal Errekurrenteak (RNN), adimen artifizialaren ikuspegi aurreratuenen artean daude. CNN-ek irudi eta audio-ezagutza eraldatu dute, eta RNN-ek, berriz, nabarmen aurreratu dute hizkuntza naturalaren prozesamenduan eta datu sekuentzialeko analisian.
Ikuspegi hauen bilakaeraren hurrengo urratsa litekeena da haien eraginkortasuna eta eskalagarritasuna hobetzera bideratzea, datu multzo handiagoak eta korapilatsuagoak aztertzeko aukera emanez, baita haien interpretagarritasuna eta etiketa gutxiagoko datuetatik ikasteko gaitasuna ere.
Deep-ikaskuntzak osasungintza, finantzak eta sistema autonomoak bezalako esparruetan aurrerapausoak emateko aukera du aurrera egin ahala.
Utzi erantzun bat