I årevis har deep learning skabt overskrifter inden for teknologi. Og det er nemt at forstå hvorfor.
Denne gren af kunstig intelligens forvandler sektorer lige fra sundhedspleje til bankvæsen til transport, hvilket muliggør hidtil utænkelige fremskridt.
Deep learning er bygget på et sæt sofistikerede algoritmer, der lærer at udtrække og forudsige komplicerede mønstre fra enorme mængder af data.
Vi vil se på de bedste 15 dybe læringsalgoritmer i dette indlæg, fra konvolutionelle neurale netværk til generative modstridende netværk til langtidshukommelsesnetværk.
Dette indlæg vil give væsentlig indsigt i, om du er en begynder eller ekspert i deep learning.
1. Transformer netværk
Transformatornetværk har transformeret sig computersyn og naturlig sprogbehandling (NLP) applikationer. De analyserer indgående data og anvender opmærksomhedsprocesser til at fange langsigtede relationer. Dette gør dem hurtigere end konventionelle sekvens-til-sekvens-modeller.
Transformer-netværk blev først beskrevet i publikationen "Attention Is All You Need" af Vaswani et al.
De består af en koder og en dekoder (2017). Transformatormodellen har demonstreret ydeevne i en række NLP-applikationer, herunder følelser analyse, tekstkategorisering og maskinoversættelse.
Transformer-baserede modeller kan også bruges i computervision til applikationer. De kan udføre objektgenkendelse og billedtekstning.
2. Langtidshukommelsesnetværk (LSTM'er)
Long Short-Term Memory Networks (LSTM'er) er en form for neurale netværk specielt bygget til at håndtere sekventiel input. De omtales som "lang kort sigt", fordi de kan genkalde viden fra lang tid siden, samtidig med at de glemmer unødvendig information.
LSTM'er opererer gennem nogle "gates", der styrer strømmen af information inde i netværket. Afhængigt af om informationen vurderes væsentlig eller ej, kan disse porte enten lukke den ind eller forhindre den.
Denne teknik gør det muligt for LSTM'er at genkalde eller glemme information fra tidligere tidstrin, hvilket er afgørende for opgaver som talegenkendelse, naturlig sprogbehandling og forudsigelse af tidsserier.
LSTM'er er yderst fordelagtige i alle tilfælde, hvor du har sekventielle data, der skal evalueres eller forudses. De bruges ofte i stemmegenkendelsessoftware til at konvertere talte ord til tekst eller i aktiemarkedet analyse for at forudsige fremtidige priser baseret på tidligere data.
3. Selvorganiserende kort (SOM'er)
SOM'er er en slags kunstige neurale netværk, der kan lære og repræsentere komplicerede data i et lavdimensionelt miljø. Metoden fungerer ved at transformere højdimensionelle inputdata til et todimensionelt gitter, hvor hver enhed eller neuron repræsenterer en anden del af inputrummet.
Neuronerne er forbundet med hinanden og skaber en topologisk struktur, der giver dem mulighed for at lære og tilpasse sig inputdataene. Så SOM er baseret på uovervåget læring.
Algoritmen behøver ikke mærkede data at lære af. I stedet bruger den de statistiske træk ved inputdataene til at opdage mønstre og sammenhænge mellem variablerne.
Under træningsfasen konkurrerer neuroner om at være den bedste indikation af inputdata. Og de selvorganiserer sig til en meningsfuld struktur. SOM'er har en bred vifte af applikationer, herunder billed- og talegenkendelse, datamining og mønstergenkendelse.
De er nyttige til visualisering af komplicerede data, gruppering af relaterede datapunkter og detektering af abnormiteter eller afvigelser.
4. Dyb forstærkningslæring
Dyb Forstærkningslæring er en slags maskinlæring, hvor en agent trænes til at træffe beslutninger baseret på et belønningssystem. Det fungerer ved at lade agenten interagere med sine omgivelser og lære via forsøg og fejl.
Agenten belønnes for hver handling, den udfører, og dens formål er at lære, hvordan man optimerer fordelene over tid. Dette kan bruges til at lære agenter at spille spil, køre biler og endda styre robotter.
Q-Learning er en velkendt Deep Reinforcement Learning-metode. Det fungerer ved at vurdere værdien af at udføre en bestemt handling i en bestemt tilstand og opdatere dette skøn, når agenten interagerer med miljøet.
Agenten anvender derefter disse estimater til at bestemme, hvilken handling der med størst sandsynlighed vil resultere i den største belønning. Q-Learning er blevet brugt til at uddanne agenter til at spille Atari-spil, samt til at forbedre energiforbruget i datacentre.
Deep Q-Networks er en anden berømt Deep Reinforcement Learning-metode (DQN). DQN'er ligner Q-Learning, idet de estimerer handlingsværdier ved hjælp af et dybt neuralt netværk i stedet for en tabel.
Dette sætter dem i stand til at håndtere enorme, komplicerede indstillinger med adskillige alternative handlinger. DQN'er er blevet brugt til at træne agenter til at spille spil som Go og Dota 2, samt til at skabe robotter, der kan lære at gå.
5. Tilbagevendende neurale netværk (RNN'er)
RNN'er er en slags neurale netværk, der kan behandle sekventielle data, mens de bevarer en intern tilstand. Betragt det som en person, der læser en bog, hvor hvert ord er fordøjet i forhold til dem, der kom før det.
RNN'er er derfor ideelle til opgaver som talegenkendelse, sprogoversættelse og endda forudsigelse af det næste ord i en sætning.
RNN'er fungerer ved at bruge feedback-loops til at forbinde output fra hvert tidstrin tilbage til input fra det næste tidstrin. Dette gør det muligt for netværket at bruge information om tidligere tidstrin til at informere om dets forudsigelser for fremtidige tidstrin. Desværre betyder det også, at RNN'er er sårbare over for problemet med forsvindende gradient, hvor de gradienter, der bruges til træning, bliver meget små, og netværket kæmper for at lære langsigtede relationer.
På trods af denne tilsyneladende begrænsning har RNN'er fundet anvendelse i en lang række applikationer. Disse applikationer inkluderer naturlig sprogbehandling, talegenkendelse og endda musikproduktion.
Google Translate, for eksempel anvender et RNN-baseret system til at oversætte på tværs af sprog, mens Siri, den virtuelle assistent, bruger et RNN-baseret system til at registrere stemme. RNN'er er også blevet brugt til at forudsige aktiekurser og skabe realistisk tekst og grafik.
6. Kapselnetværk
Capsule Networks er en ny slags neuralt netværksdesign, der kan identificere mønstre og korrelationer i data mere effektivt. De organiserer neuroner i "kapsler", der koder for visse aspekter af et input.
På denne måde kan de lave mere præcise forudsigelser. Capsule Networks udvinder gradvist komplicerede egenskaber fra inputdata ved at anvende adskillige lag af kapsler.
Capsule Networks' teknik gør dem i stand til at lære hierarkiske repræsentationer af det givne input. De kan korrekt kode rumlige forbindelser mellem elementer inde i et billede ved at kommunikere mellem kapsler.
Objektidentifikation, billedsegmentering og naturlig sprogbehandling er alle anvendelser af Capsule Networks.
Capsule Networks har potentialet til at blive ansat i autonom kørsel teknologier. De hjælper systemet med at genkende og skelne mellem ting som biler, mennesker og trafikskilte. Disse systemer kan undgå kollisioner ved at lave mere præcise forudsigelser om opførsel af objekter i deres omgivelser.
7. Variational Autoencoders (VAE'er)
VAE'er er en form for dybdelæringsværktøj, der bruges til uovervåget læring. Ved at kode data ind i et rum med lavere dimensioner og derefter afkode dem tilbage til det originale format, kan de lære at få øje på mønstre i data.
De er som en tryllekunstner, der kan forvandle en kanin til en hat og derefter tilbage til en kanin! VAE'er er gavnlige til at generere realistiske billeder eller musik. Og de kan bruges til at producere nye data, der kan sammenlignes med de originale data.
VAE'er ligner hemmelig kodebryder. De kan opdage det underliggende datastruktur ved at opdele det i enklere stykker, ligesom hvordan et puslespil er opdelt. De kan bruge disse oplysninger til at bygge nye data, der ligner originalen, efter at de har sorteret delene fra.
Dette kan være praktisk til at komprimere enorme filer eller producere frisk grafik eller musik i en bestemt stil. VAE'er kan også producere nyt indhold, såsom nyhedshistorier eller musiktekster.
8. Generative Adversarial Networks (GAN'er)
GAN'er (Generative Adversarial Networks) er en form for et dybt læringssystem, der genererer nye data, der ligner originalen. De opererer ved at træne to netværk: et generator- og et diskriminatornetværk.
Generatoren producerer nye data, der er sammenlignelige med originalen.
Og diskriminatoren forsøger at skelne mellem de oprindelige og oprettede data. De to netværk trænes i tandem, hvor generatoren forsøger at narre diskriminatoren, og diskriminatoren forsøger at identificere de originale data korrekt.
Betragt GAN'er som en krydsning mellem en falskner og en detektiv. Generatoren fungerer på samme måde som en forfalsker og producerer nyt kunstværk, der ligner originalen.
Diskriminatoren fungerer som en detektiv, der forsøger at skelne mellem ægte kunst og forfalskning. De to netværk trænes i tandem, hvor generatoren bliver bedre til at lave plausible forfalskninger, og diskriminatoren bliver bedre til at genkende dem.
GAN'er har flere anvendelsesmuligheder, lige fra at producere realistiske billeder af mennesker eller dyr til at skabe ny musik eller skrift. De kan også bruges til dataforøgelse, hvilket involverer at kombinere producerede data med rigtige data for at opbygge et større datasæt til træning af maskinlæringsmodeller.
9. Deep Q-Networks (DQN'er)
Deep Q-Networks (DQN'er) er en slags forstærkende læringsalgoritme for beslutningstagning. De opererer ved at lære en Q-funktion, der forudsiger den forventede belønning for at udføre en bestemt handling i en bestemt tilstand.
Q-funktionen læres ved at prøve og fejle, hvor algoritmen forsøger forskellige handlinger og lærer af resultaterne.
Betragt det som en video game karakter, der eksperimenterer med forskellige handlinger og opdager, hvilke der fører til succes! DQN'er træner Q-funktionen ved hjælp af et dybt neuralt netværk, hvilket gør dem til effektive værktøjer til vanskelige beslutningsopgaver.
De har endda besejret menneskelige mestre i spil som Go og skak, såvel som i robotteknologi og selvkørende biler. Så alt i alt arbejder DQN'er ved at lære af erfaring for at forbedre deres beslutningsevner over tid.
10. Radial Basis Function Networks (RBFN'er)
Radial Basis Function Networks (RBFN'er) er en slags neurale netværk, der bruges til at tilnærme funktioner og udføre klassifikationsopgaver. De fungerer ved at transformere inputdataene til et højere dimensionelt rum ved hjælp af en samling af radiale basisfunktioner.
Outputtet af netværket er en lineær kombination af basisfunktionerne, og hver radial basisfunktion repræsenterer et midtpunkt i inputrummet.
RBFN'er er især effektive til situationer med komplicerede input-output-interaktioner, og de kan undervises ved hjælp af en bred vifte af teknikker, herunder overvåget og uovervåget læring. De er blevet brugt til alt fra økonomiske forudsigelser til billed- og talegenkendelse til medicinsk diagnostik.
Betragt RBFN'er som et GPS-system, der bruger en række ankerpunkter til at finde vej på tværs af udfordrende terræn. Netværkets output er en kombination af ankerpunkterne, som står for de radiale basisfunktioner.
Vi kan gennemse komplicerede oplysninger og generere præcise forudsigelser om, hvordan et scenarie vil blive ved at bruge RBFN'er.
11. Multilayer Perceptrons (MLP'er)
En typisk form for neuralt netværk kaldet en multilayer perceptron (MLP) bruges til overvågede læringsopgaver som klassificering og regression. De fungerer ved at stable flere lag af sammenkædede noder eller neuroner, hvor hvert lag ikke-lineært ændrer de indkommende data.
I en MLP får hver neuron input fra neuronerne i laget under og sender et signal til neuronerne i laget ovenfor. Hver neurons output bestemmes ved hjælp af en aktiveringsfunktion, som giver netværket ulinearitet.
De er i stand til at lære sofistikerede repræsentationer af inputdataene, da de kan have flere skjulte lag.
MLP'er er blevet anvendt til en række forskellige opgaver, såsom sentimentanalyse, svindeldetektion og stemme- og billedgenkendelse. MLP'er kan sammenlignes med en gruppe af efterforskere, der arbejder sammen om at knække en vanskelig sag.
Sammen kan de sammensætte fakta og opklare forbrydelsen på trods af, at hver især har et særligt specialeområde.
12. Convolutional Neural Networks (CNN'er)
Billeder og videoer behandles ved hjælp af konvolutionelle neurale netværk (CNN'er), en form for neurale netværk. De fungerer ved at anvende et sæt lærbare filtre eller kerner til at udtrække væsentlige karakteristika fra inputdataene.
Filtrene glider hen over inputbilledet og udfører foldninger for at bygge et funktionskort, der fanger væsentlige aspekter af billedet.
Da CNN'er er i stand til at lære hierarkiske repræsentationer af billedets karakteristika, er de særligt nyttige i situationer, der involverer enorme mængder af visuelle data. Adskillige applikationer har gjort brug af dem, såsom objektgenkendelse, billedkategorisering og ansigtsgenkendelse.
Betragt CNN'er som en maler, der bruger flere pensler til at skabe et mesterværk. Hver børste er en kerne, og kunstneren kan bygge et komplekst, realistisk billede ved at blande mange kerner. Vi kan udtrække væsentlige egenskaber fra fotos og bruge dem til nøjagtigt at forudsige indholdet af billedet ved at bruge CNN'er.
13. Deep Belief Networks (DBN'er)
DBN'er er en form for neuralt netværk, der bruges til uovervågede læringsopgaver såsom dimensionsreduktion og funktionsindlæring. De fungerer ved at stable flere lag af Restricted Boltzmann Machines (RBM'er), som er to-lags neurale netværk, der er i stand til at lære at rekonstituere inputdata.
DBN'er er meget gavnlige for højdimensionelle dataproblemer, fordi de kan lære en kompakt og effektiv repræsentation af inputtet. De er blevet brugt til alt fra stemmegenkendelse til billedkategorisering til opdagelse af lægemidler.
For eksempel brugte forskere en DBN til at estimere bindingsaffiniteten af medicinkandidater til østrogenreceptoren. DBN'et blev trænet i en samling af kemiske karakteristika og bindingsaffiniteter, og det var i stand til nøjagtigt at forudsige bindingsaffiniteten af nye lægemiddelkandidater.
Dette fremhæver brugen af DBN'er i lægemiddeludvikling og andre højdimensionelle dataapplikationer.
14. Autoencodere
Autoencodere er neurale netværk, der bruges til uovervågede læringsopgaver. De er beregnet til at rekonstruere inputdataene, hvilket indebærer, at de vil lære at indkode informationen til en kompakt repræsentation og derefter afkode den tilbage til den oprindelige input.
Autoencodere er meget effektive til datakomprimering, fjernelse af støj og registrering af anomalier. De kan også bruges til feature learning, hvor autoencoderens kompakte repræsentation føres ind i en overvåget læringsopgave.
Betragt autoencodere som elever, der tager noter i klassen. Den studerende lytter til forelæsningen og noterer de mest relevante punkter ned på en kortfattet og effektiv måde.
Senere kan eleven studere og huske lektionen ved hjælp af deres noter. En autoencoder koder på den anden side inputdataene til en kompakt repræsentation, der efterfølgende kan bruges til forskellige formål, såsom anomalidetektion eller datakomprimering.
15. Begrænsede Boltzmann-maskiner (RBM'er)
RBM'er (Restricted Boltzmann Machines) er en slags generativt neuralt netværk, der bruges til uovervågede læringsopgaver. De består af et synligt lag og et skjult lag, med neuroner i hvert lag, forbundet, men ikke inden for det samme lag.
RBM'er trænes ved hjælp af en teknik kendt som kontrastiv divergens, som indebærer ændring af vægten mellem de synlige og skjulte lag for at optimere sandsynligheden for træningsdataene. RBM'er kan oprette nye data efter at være blevet trænet ved stikprøver fra den lærte distribution.
Billed- og talegenkendelse, kollaborativ filtrering og anomalidetektion er alle applikationer, der har brugt RBM'er. De er også blevet brugt i anbefalingssystemer til at skabe skræddersyede anbefalinger ved at lære mønstre fra brugeradfærd.
RBM'er er også blevet brugt i feature learning for at skabe en kompakt og effektiv repræsentation af højdimensionelle data.
Afslutning og lovende udvikling på horisonten
Dyb læringsmetoder, såsom Convolutional Neural Networks (CNN'er) og Recurrent Neural Networks (RNN'er), er blandt de mest avancerede kunstig intelligens-tilgange. CNN'er har transformeret billed- og lydgenkendelse, mens RNN'er har udviklet sig betydeligt inden for naturlig sprogbehandling og sekventiel dataanalyse.
Det næste trin i udviklingen af disse tilgange vil sandsynligvis fokusere på at forbedre deres effektivitet og skalerbarhed, så de kan analysere større og mere komplicerede datasæt, samt forbedre deres fortolkningsmuligheder og evne til at lære af mindre mærkede data.
Dyb læring har mulighed for at tillade gennembrud inden for områder som sundhedspleje, økonomi og autonome systemer, efterhånden som den udvikler sig.
Giv en kommentar