I årevis har dyp læring skapt overskriftene innen teknologi. Og det er enkelt å forstå hvorfor.
Denne grenen av kunstig intelligens forvandler sektorer som spenner fra helsetjenester til bank til transport, og muliggjør tidligere utenkelige fremskritt.
Deep learning er bygget på et sett med sofistikerte algoritmer som lærer å trekke ut og forutsi kompliserte mønstre fra enorme mengder data.
Vi skal se på de beste 15 dyplæringsalgoritmene i dette innlegget, fra konvolusjonelle nevrale nettverk til generative motstridende nettverk til nettverk med lang korttidsminne.
Dette innlegget vil gi viktig innsikt i om du er en nybegynner eller ekspert på dyp læring.
1. Transformatornettverk
Transformatornettverk har forvandlet seg datasyn og applikasjoner for naturlig språkbehandling (NLP). De analyserer innkommende data og bruker oppmerksomhetsprosesser for å fange langsiktige forhold. Dette gjør dem raskere enn konvensjonelle sekvens-til-sekvens-modeller.
Transformatornettverk ble først beskrevet i publikasjonen "Attention Is All You Need" av Vaswani et al.
De består av en koder og en dekoder (2017). Transformatormodellen har demonstrert ytelse i en rekke NLP-applikasjoner, inkludert sentiment analyse, tekstkategorisering og maskinoversettelse.
Transformatorbaserte modeller kan også brukes i datasyn for applikasjoner. De kan utføre objektgjenkjenning og bildeteksting.
2. Langtidsminnenettverk (LSTM)
Long Short-Term Memory Networks (LSTM) er en form for nevrale nettverket spesielt bygget for å håndtere sekvensiell input. De blir referert til som "lang kort sikt" fordi de kan huske kunnskap fra lenge siden samtidig som de glemmer unødvendig informasjon.
LSTM-er opererer gjennom noen "porter" som styrer informasjonsflyten i nettverket. Avhengig av om informasjonen vurderes som betydelig eller ikke, kan disse portene enten slippe den inn eller forhindre den.
Denne teknikken gjør det mulig for LSTM-er å huske eller glemme informasjon fra tidligere tidstrinn, noe som er avgjørende for oppgaver som talegjenkjenning, naturlig språkbehandling og tidsserieprediksjon.
LSTM-er er ekstremt fordelaktige i alle tilfeller der du har sekvensielle data som må evalueres eller forutses. De brukes ofte i stemmegjenkjenningsprogramvare for å konvertere talte ord til tekst, eller i aksjemarked analyse for å forutsi fremtidige priser basert på tidligere data.
3. Selvorganiserende kart (SOMs)
SOM er en slags kunstig nevrale nettverk som kan lære og representerer kompliserte data i et lavdimensjonalt miljø. Metoden fungerer ved å transformere høydimensjonale inngangsdata til et todimensjonalt rutenett, med hver enhet eller nevron som representerer en annen del av inngangsrommet.
Nevronene er koblet sammen og skaper en topologisk struktur, slik at de kan lære og tilpasse seg inndataene. Så SOM er basert på uovervåket læring.
Algoritmen trenger ikke merkede data å lære av. I stedet bruker den de statistiske egenskapene til inndataene for å oppdage mønstre og korrelasjoner mellom variablene.
Under treningsstadiet konkurrerer nevroner om å være den beste indikasjonen på inndataene. Og de selvorganiserer seg til en meningsfull struktur. SOM-er har et bredt spekter av applikasjoner, inkludert bilde- og talegjenkjenning, datautvinning og mønstergjenkjenning.
De er nyttige for visualisere kompliserte data, gruppering av relaterte datapunkter og oppdager abnormiteter eller avvik.
4. Dyp forsterkningslæring
Dyp Forsterkningslæring er en slags maskinlæring der en agent er opplært til å ta beslutninger basert på et belønningssystem. Den fungerer ved å la agenten samhandle med omgivelsene og lære gjennom prøving og feiling.
Agenten blir belønnet for hver handling den gjør, og formålet er å lære å optimalisere fordelene over tid. Dette kan brukes til å lære agenter å spille spill, kjøre biler og til og med administrere roboter.
Q-Learning er en velkjent metode for Deep Reinforcement Learning. Den opererer ved å vurdere verdien av å utføre en bestemt handling i en bestemt tilstand og oppdatere dette estimatet etter hvert som agenten samhandler med miljøet.
Agenten bruker deretter disse estimatene for å bestemme hvilken handling som mest sannsynlig vil resultere i den største belønningen. Q-Learning har blitt brukt til å utdanne agenter til å spille Atari-spill, samt for å forbedre energibruken i datasentre.
Deep Q-Networks er en annen kjent metode for Deep Reinforcement Learning (DQN). DQN-er ligner på Q-Learning ved at de estimerer handlingsverdier ved å bruke et dypt nevralt nettverk i stedet for en tabell.
Dette gjør dem i stand til å håndtere store, kompliserte innstillinger med en rekke alternative handlinger. DQN-er har blitt brukt til å lære opp agenter til å spille spill som Go og Dota 2, samt å lage roboter som kan lære å gå.
5. Tilbakevendende nevrale nettverk (RNN)
RNN-er er en slags nevrale nettverk som kan behandle sekvensielle data mens de beholder en intern tilstand. Vurder det som en person som leser en bok, der hvert ord er fordøyd i forhold til de som kom før det.
RNN-er er derfor ideelle for oppgaver som talegjenkjenning, språkoversettelse og til og med prognoser for neste ord i en setning.
RNN-er fungerer ved å bruke tilbakemeldingsløkker for å koble utgangen fra hvert tidstrinn tilbake til inngangen til neste tidstrinn. Dette gjør nettverket i stand til å bruke informasjon om tidligere tidstrinn for å informere om sine spådommer for fremtidige tidstrinn. Dessverre betyr dette også at RNN-er er sårbare for problemet med forsvinnende gradient, der gradientene som brukes til trening blir veldig små og nettverket sliter med å lære langsiktige relasjoner.
Til tross for denne tilsynelatende begrensningen, har RNN-er funnet bruk i et bredt spekter av applikasjoner. Disse applikasjonene inkluderer naturlig språkbehandling, talegjenkjenning og til og med musikkproduksjon.
Google Trans, for eksempel, bruker et RNN-basert system for å oversette på tvers av språk, mens Siri, den virtuelle assistenten, bruker et RNN-basert system for å oppdage stemme. RNN-er har også blitt brukt til å forutsi aksjekurser og lage realistisk tekst og grafikk.
6. Kapselnettverk
Capsule Networks er en ny type nevrale nettverksdesign som kan identifisere mønstre og korrelasjoner i data mer effektivt. De organiserer nevroner i "kapsler" som koder for visse aspekter av en inngang.
På denne måten kan de gjøre mer nøyaktige spådommer. Capsule Networks trekker ut gradvis kompliserte egenskaper fra inndata ved å bruke mange lag med kapsler.
Capsule Networks' teknikk gjør dem i stand til å lære hierarkiske representasjoner av den gitte inngangen. De kan riktig kode romlige forbindelser mellom elementer inne i et bilde ved å kommunisere mellom kapsler.
Objektidentifikasjon, bildesegmentering og naturlig språkbehandling er alle bruksområder for Capsule Networks.
Capsule Networks har potensial til å bli ansatt i autonom kjøring teknologier. De hjelper systemet med å gjenkjenne og skille mellom gjenstander som biler, mennesker og trafikkskilt. Disse systemene kan unngå kollisjoner ved å gjøre mer presise spådommer om oppførselen til objekter i deres miljø.
7. Variasjonelle autoenkodere (VAE)
VAE er en form for dyp læringsverktøy som brukes til uovervåket læring. Ved å kode data inn i et rom med lavere dimensjon og deretter dekode dem tilbake til det opprinnelige formatet, kan de lære å oppdage mønstre i data.
De er som en tryllekunstner som kan forvandle en kanin til en hatt og deretter tilbake til en kanin! VAE-er er gunstige for å generere realistiske bilder eller musikk. Og de kan brukes til å produsere nye data som er sammenlignbare med de opprinnelige dataene.
VAE-er ligner på hemmelig kodebryter. De kan oppdage det underliggende struktur av data ved å dele det opp i enklere biter, omtrent som hvordan et puslespill brytes ned. De kan bruke denne informasjonen til å bygge nye data som ser ut som originalen etter at de har sortert ut delene.
Dette kan være nyttig for å komprimere enorme filer eller produsere fersk grafikk eller musikk i en bestemt stil. VAE-er kan også produsere ferskt innhold, for eksempel nyheter eller musikktekster.
8. Generative Adversarial Networks (GAN)
GAN (Generative Adversarial Networks) er en form for et dypt læringssystem som genererer nye data som ligner originalen. De opererer ved å trene to nettverk: et generator- og et diskriminatornettverk.
Generatoren produserer nye data som er sammenlignbare med originalen.
Og diskriminatoren prøver å skille mellom de opprinnelige og opprettede dataene. De to nettverkene trenes i tandem, med generatoren som prøver å lure diskriminatoren og diskriminatoren prøver å identifisere de originale dataene på riktig måte.
Betrakt GAN som en krysning mellom en forfalsker og en detektiv. Generatoren fungerer på samme måte som en forfalsker, og produserer nye kunstverk som ligner originalen.
Diskriminatoren fungerer som en detektiv, og prøver å skille mellom ekte kunstverk og forfalskning. De to nettverkene er opplært i tandem, med generatoren som forbedrer seg i å lage plausible forfalskninger og diskriminatoren blir bedre i å gjenkjenne dem.
GAN-er har flere bruksområder, alt fra å produsere realistiske bilder av mennesker eller dyr til å lage ny musikk eller skrive. De kan også brukes til dataforsterkning, som innebærer å kombinere produserte data med ekte data for å bygge et større datasett for opplæring av maskinlæringsmodeller.
9. Deep Q-Networks (DQN)
Deep Q-Networks (DQNs) er en slags læringsalgoritme for forsterkning av beslutninger. De opererer ved å lære en Q-funksjon som forutsier forventet belønning for å utføre en bestemt handling i en bestemt tilstand.
Q-funksjonen læres ved prøving og feiling, med algoritmen som prøver ulike handlinger og lærer av resultatene.
Vurder det som en videospill karakter som eksperimenterer med ulike handlinger og oppdager hvilke som fører til suksess! DQN-er trener Q-funksjonen ved å bruke et dypt nevralt nettverk, noe som gjør dem til effektive verktøy for vanskelige beslutningsoppgaver.
De har til og med beseiret menneskelige mestere i spill som Go og sjakk, så vel som i robotikk og selvkjørende biler. Så alt i alt jobber DQN-er ved å lære av erfaring for å forbedre beslutningsevnen over tid.
10. Radial Basis Function Networks (RBFN)
Radial Basis Function Networks (RBFNs) er en slags nevrale nettverk som brukes til å tilnærme funksjoner og utføre klassifiseringsoppgaver. De opererer ved å transformere inndataene til et høyere dimensjonalt rom ved å bruke en samling av radielle basisfunksjoner.
Utgangen fra nettverket er en lineær kombinasjon av basisfunksjonene, og hver radiell basisfunksjon representerer et midtpunkt i inngangsrommet.
RBFN-er er spesielt effektive for situasjoner med kompliserte input-output-interaksjoner, og de kan undervises ved hjelp av et bredt spekter av teknikker, inkludert overvåket og uovervåket læring. De har blitt brukt til alt fra økonomiske spådommer til bilde- og talegjenkjenning til medisinsk diagnostikk.
Betrakt RBFN-er som et GPS-system som bruker en rekke ankerpunkter for å finne veien gjennom utfordrende terreng. Utgangen fra nettverket er en kombinasjon av ankerpunktene, som står for de radielle basisfunksjonene.
Vi kan bla gjennom komplisert informasjon og generere presise spådommer om hvordan et scenario vil slå ut ved å bruke RBFN-er.
11. Multilayer Perceptrons (MLPs)
En typisk form for nevrale nettverk kalt en multilayer perceptron (MLP) brukes til overvåket læringsoppgaver som klassifisering og regresjon. De opererer ved å stable flere lag med koblede noder, eller nevroner, med hvert lag som ikke-lineært endrer innkommende data.
I en MLP får hvert nevron input fra nevronene i laget under og sender et signal til nevronene i laget over. Hver nevrons utgang bestemmes ved hjelp av en aktiveringsfunksjon, som gir nettverket ikke-linearitet.
De er i stand til å lære sofistikerte representasjoner av inndataene siden de kan ha flere skjulte lag.
MLP-er har blitt brukt på en rekke oppgaver, for eksempel sentimentanalyse, svindeldeteksjon og stemme- og bildegjenkjenning. MLP-er kan sammenlignes med en gruppe etterforskere som jobber sammen for å knekke en vanskelig sak.
Sammen kan de sette sammen fakta og løse forbrytelsen til tross for at hver har et spesielt spesialområde.
12. Convolutional Neural Networks (CNN)
Bilder og videoer behandles ved hjelp av konvolusjonelle nevrale nettverk (CNN), en form for nevrale nettverk. De fungerer ved å bruke et sett med lærbare filtre, eller kjerner, for å trekke ut betydelige egenskaper fra inndataene.
Filtrene glir over inngangsbildet, og utfører konvolusjoner for å bygge et funksjonskart som fanger viktige aspekter av bildet.
Siden CNN-er er i stand til å lære hierarkiske representasjoner av bildekarakteristikkene, er de spesielt nyttige for situasjoner som involverer enorme mengder visuelle data. Flere applikasjoner har benyttet seg av dem, for eksempel objektgjenkjenning, bildekategorisering og ansiktsgjenkjenning.
Betrakt CNN som en maler som bruker flere børster for å lage et mesterverk. Hver børste er en kjerne, og kunstneren kan bygge et komplekst, realistisk bilde ved å blande mange kjerner. Vi kan trekke ut betydelige egenskaper fra bilder og bruke dem til nøyaktig å forutsi innholdet i bildet ved å bruke CNN.
13. Deep Belief Networks (DBN)
DBN-er er en form for nevrale nettverk som brukes til uovervåkede læringsoppgaver som dimensjonalitetsreduksjon og funksjonslæring. De fungerer ved å stable flere lag med begrensede Boltzmann-maskiner (RBM), som er to-lags nevrale nettverk som er i stand til å lære å rekonstituere inndata.
DBN-er er svært fordelaktige for høydimensjonale dataproblemer fordi de kan lære en kompakt og effektiv representasjon av input. De har blitt brukt til alt fra stemmegjenkjenning til bildekategorisering til narkotikaoppdagelse.
For eksempel brukte forskere en DBN for å estimere bindingsaffiniteten til medisinkandidater til østrogenreseptoren. DBN ble trent på en samling av kjemiske egenskaper og bindingsaffiniteter, og den var i stand til nøyaktig å forutsi bindingsaffiniteten til nye medikamentkandidater.
Dette fremhever bruken av DBN-er i legemiddelutvikling og andre høydimensjonale dataapplikasjoner.
14. Autoenkodere
Autoenkodere er nevrale nettverk som brukes til uovervåkede læringsoppgaver. De er ment å rekonstruere inndataene, noe som innebærer at de vil lære å kode informasjonen til en kompakt representasjon og deretter dekode den tilbake til den opprinnelige inngangen.
Autoenkodere er svært effektive for datakomprimering, fjerning av støy og oppdagelse av anomalier. De kan også brukes til funksjonslæring, der autoenkoderens kompakte representasjon mates inn i en overvåket læringsoppgave.
Betrakt autoenkodere som elever som tar notater i klassen. Studenten lytter til forelesningen og noterer ned de mest relevante punktene på en kortfattet og effektiv måte.
Senere kan eleven studere og huske leksjonen ved å bruke notatene sine. En autokoder på den annen side koder inngangsdataene til en kompakt representasjon som senere kan brukes til forskjellige formål som for eksempel avviksdeteksjon eller datakomprimering.
15. Begrensede Boltzmann-maskiner (RBM)
RBM-er (Restricted Boltzmann Machines) er et slags generativt nevralt nettverk som brukes til læringsoppgaver uten tilsyn. De består av et synlig lag og et skjult lag, med nevroner i hvert lag, koblet sammen, men ikke innenfor samme lag.
RBM-er trenes ved hjelp av en teknikk kjent som kontrastiv divergens, som innebærer å endre vektene mellom de synlige og skjulte lagene for å optimere sannsynligheten for treningsdataene. RBM-er kan lage ferske data etter å ha blitt trent ved prøvetaking fra den lærte distribusjonen.
Bilde- og talegjenkjenning, samarbeidsfiltrering og avviksdeteksjon er alle applikasjoner som har brukt RBM-er. De har også blitt brukt i anbefalingssystemer for å lage skreddersydde anbefalinger ved å lære mønstre fra brukeratferd.
RBM-er har også blitt brukt i funksjonslæring for å lage en kompakt og effektiv representasjon av høydimensjonale data.
Avslutning og lovende utvikling på horisonten
Dyplæringsmetoder, som Convolutional Neural Networks (CNNs) og Recurrent Neural Networks (RNNs), er blant de mest avanserte kunstig intelligens-tilnærmingene. CNN-er har transformert bilde- og lydgjenkjenning, mens RNN-er har avansert betydelig innen naturlig språkbehandling og sekvensiell dataanalyse.
Det neste trinnet i utviklingen av disse tilnærmingene vil sannsynligvis fokusere på å forbedre effektiviteten og skalerbarheten, slik at de kan analysere større og mer kompliserte datasett, samt å forbedre deres tolkningsmuligheter og evne til å lære av mindre merkede data.
Dyplæring har muligheten til å tillate gjennombrudd på felt som helsevesen, finans og autonome systemer etter hvert som den utvikler seg.
Legg igjen en kommentar