I flera år har djupinlärning skapat rubrikerna inom teknik. Och det är enkelt att förstå varför.
Denna gren av artificiell intelligens förvandlar sektorer som sträcker sig från sjukvård till bank till transport, vilket möjliggör tidigare otänkbara framsteg.
Deep learning bygger på en uppsättning sofistikerade algoritmer som lär sig att extrahera och förutsäga komplicerade mönster från enorma mängder data.
Vi kommer att titta på de bästa 15 djupinlärningsalgoritmerna i det här inlägget, från Convolutional Neural Networks till Generative Adversarial Networks till Long Short-Term Memory-nätverk.
Det här inlägget kommer att ge viktiga insikter om huruvida du är en nybörjare eller expert på djupinlärning.
1. Transformatornätverk
Transformatornätverk har förändrats dator vision och naturliga språkbehandlingsapplikationer (NLP). De analyserar inkommande data och använder uppmärksamhetsprocesser för att fånga långsiktiga relationer. Detta gör dem snabbare än konventionella sekvens-till-sekvens-modeller.
Transformatornätverk beskrevs först i publikationen "Attention Is All You Need" av Vaswani et al.
De består av en kodare och en avkodare (2017). Transformatormodellen har visat prestanda i en mängd olika NLP-tillämpningar, inklusive känsla analys, textkategorisering och maskinöversättning.
Transformatorbaserade modeller kan också användas i datorseende för applikationer. De kan utföra objektigenkänning och bildtextning.
2. Långtidsminnesnätverk (LSTM)
Long Short-Term Memory Networks (LSTM) är en form av neurala nätverk speciellt byggd för att hantera sekventiell inmatning. De kallas "lång kort sikt" eftersom de kan återkalla kunskap från en lång tid tillbaka samtidigt som de glömmer onödig information.
LSTM fungerar genom vissa "grindar" som styr informationsflödet inuti nätverket. Beroende på om informationen bedöms som betydande eller inte, kan dessa grindar antingen släppa in den eller förhindra den.
Denna teknik gör det möjligt för LSTM:er att återkalla eller glömma information från tidigare tidssteg, vilket är avgörande för uppgifter som taligenkänning, naturlig språkbehandling och tidsserieprediktion.
LSTM:er är extremt fördelaktiga i alla fall där du har sekventiell data som måste utvärderas eller prognostiseras. De används ofta i röstigenkänningsprogram för att konvertera talade ord till text, eller i aktiemarknaden analys för att prognostisera framtida priser baserat på tidigare data.
3. Självorganiserande kartor (SOM)
SOM är en sorts artificiell neurala nätverk som kan lära sig och representerar komplicerade data i en lågdimensionell miljö. Metoden fungerar genom att omvandla högdimensionell indata till ett tvådimensionellt rutnät, där varje enhet eller neuron representerar en annan del av inmatningsutrymmet.
Neuronerna är sammanlänkade och skapar en topologisk struktur, vilket gör att de kan lära sig och anpassa sig till indata. Så, SOM är baserat på oövervakat lärande.
Algoritmen behöver inte märkta data att lära av. Istället använder den de statistiska egenskaperna hos indata för att upptäcka mönster och korrelationer mellan variablerna.
Under träningsstadiet tävlar neuroner om att vara den bästa indikationen på indata. Och de organiserar sig själv till en meningsfull struktur. SOM har ett brett utbud av applikationer, inklusive bild- och taligenkänning, datautvinning och mönsterigenkänning.
De är användbara för visualisera komplicerade data, gruppera relaterade datapunkter och upptäcka avvikelser eller extremvärden.
4. Djup förstärkningsinlärning
Djup Förstärkningslärande är en sorts maskininlärning där en agent utbildas i att fatta beslut baserat på ett belöningssystem. Den fungerar genom att låta agenten interagera med sin omgivning och lära sig genom att trial and error.
Agenten belönas för varje åtgärd den gör, och dess syfte är att lära sig hur man optimerar dess fördelar över tid. Detta kan användas för att lära agenter att spela spel, köra bilar och till och med hantera robotar.
Q-Learning är en välkänd metod för Deep Reinforcement Learning. Den fungerar genom att bedöma värdet av att utföra en viss åtgärd i ett visst tillstånd och uppdatera den uppskattningen när agenten interagerar med miljön.
Agenten använder sedan dessa uppskattningar för att avgöra vilken åtgärd som mest sannolikt kommer att resultera i den största belöningen. Q-Learning har använts för att utbilda agenter att spela Atari-spel, samt för att förbättra energianvändningen i datacenter.
Deep Q-Networks är en annan berömd Deep Reinforcement Learning-metod (DQN). DQN:er liknar Q-Learning genom att de uppskattar åtgärdsvärden med hjälp av ett djupt neuralt nätverk snarare än en tabell.
Detta gör det möjligt för dem att hantera enorma, komplicerade inställningar med många alternativa åtgärder. DQN har använts för att utbilda agenter att spela spel som Go och Dota 2, samt för att skapa robotar som kan lära sig att gå.
5. Återkommande neurala nätverk (RNN)
RNN är ett slags neuralt nätverk som kan bearbeta sekventiell data samtidigt som det behåller ett internt tillstånd. Se att det liknar en person som läser en bok, där varje ord smälts i förhållande till de som kom före det.
RNN:er är därför idealiska för uppgifter som taligenkänning, språköversättning och till och med prognostisering av nästa ord i en fras.
RNN:er fungerar genom att använda återkopplingsslingor för att koppla utgången från varje tidssteg tillbaka till ingången för nästa tidssteg. Detta gör det möjligt för nätverket att använda tidigare steginformation för att informera sina förutsägelser för framtida tidssteg. Tyvärr betyder detta också att RNN:er är sårbara för problemet med försvinnande gradienter, där gradienterna som används för träning blir väldigt små och nätverket kämpar för att lära sig långsiktiga relationer.
Trots denna uppenbara begränsning har RNN:er funnit användning i ett brett spektrum av applikationer. Dessa applikationer inkluderar naturlig språkbehandling, taligenkänning och till och med musikproduktion.
Google Translate, till exempel, använder ett RNN-baserat system för att översätta över språk, medan Siri, den virtuella assistenten, använder ett RNN-baserat system för att upptäcka röst. RNN har också använts för att prognostisera aktiekurser och skapa realistisk text och grafik.
6. Kapselnätverk
Capsule Networks är en ny sorts neurala nätverksdesign som kan identifiera mönster och korrelationer i data mer effektivt. De organiserar neuroner i "kapslar" som kodar för vissa aspekter av en input.
På så sätt kan de göra mer exakta förutsägelser. Capsule Networks extraherar progressivt komplicerade egenskaper från indata genom att använda flera lager av kapslar.
Capsule Networks teknik gör det möjligt för dem att lära sig hierarkiska representationer av den givna inmatningen. De kan korrekt koda rumsliga anslutningar mellan objekt inuti en bild genom att kommunicera mellan kapslar.
Objektidentifiering, bildsegmentering och naturlig språkbehandling är alla tillämpningar av Capsule Networks.
Capsule Networks har potential att bli anställd i autonom körning tekniker. De hjälper systemet att känna igen och särskilja föremål som bilar, människor och trafikskyltar. Dessa system kan undvika kollisioner genom att göra mer exakta förutsägelser om beteendet hos objekt i deras miljö.
7. Varierande autokodare (VAE)
VAE är en form av djupinlärningsverktyg som används för oövervakat lärande. Genom att koda data till ett mindre dimensionellt utrymme och sedan avkoda det tillbaka till det ursprungliga formatet kan de lära sig att upptäcka mönster i data.
De är som en magiker som kan förvandla en kanin till en hatt och sedan tillbaka till en kanin! VAEs är fördelaktiga för att generera realistiska bilder eller musik. Och de kan användas för att producera ny data som är jämförbar med originaldata.
VAE liknar hemlig kodbrytare. De kan upptäcka det underliggande datastruktur genom att dela upp det i enklare bitar, ungefär som hur ett pussel bryts ner. De kan använda den informationen för att bygga ny data som ser ut som originalet efter att de har sorterat ut delarna.
Detta kan vara praktiskt för att komprimera enorma filer eller producera fräsch grafik eller musik i en viss stil. VAEs kan också producera färskt innehåll, såsom nyheter eller musiktexter.
8. Generative Adversarial Networks (GAN)
GAN (Generative Adversarial Networks) är en form av ett system för djupinlärning som genererar ny data som liknar originalet. De verkar genom att utbilda två nätverk: ett generator- och ett diskriminatornätverk.
Generatorn producerar ny data som är jämförbar med originalet.
Och diskriminatorn försöker skilja mellan den ursprungliga och skapade data. De två nätverken tränas i tandem, där generatorn försöker lura diskriminatorn och diskriminatorn försöker korrekt identifiera originaldata.
Betrakta GAN som en korsning mellan en förfalskare och en detektiv. Generatorn fungerar på samma sätt som en förfalskare och producerar nya konstverk som liknar originalet.
Diskriminatorn fungerar som en detektiv som försöker skilja mellan äkta konstverk och förfalskning. De två nätverken tränas i tandem, där generatorn blir bättre på att göra trovärdiga förfalskningar och diskriminatorn blir bättre på att känna igen dem.
GAN har flera användningsområden, allt från att producera realistiska bilder av människor eller djur till att skapa ny musik eller skrivande. De kan också användas för dataförstärkning, vilket innebär att kombinera producerad data med verklig data för att bygga en större datauppsättning för träning av maskininlärningsmodeller.
9. Deep Q-Networks (DQN)
Deep Q-Networks (DQN) är en sorts beslutsfattande förstärkningsinlärningsalgoritm. De verkar genom att lära sig en Q-funktion som förutsäger den förväntade belöningen för att utföra en viss handling i ett visst tillstånd.
Q-funktionen lärs ut genom att trial and error, med algoritmen som försöker göra olika åtgärder och lära sig av resultaten.
Se det som en videospel karaktär som experimenterar med olika handlingar och upptäcker vilka som leder till framgång! DQN:er tränar Q-funktionen med hjälp av ett djupt neuralt nätverk, vilket gör dem till effektiva verktyg för svåra beslutsfattande uppgifter.
De har till och med besegrat mästare i spel som Go och schack, såväl som i robotik och självkörande bilar. Så sammantaget arbetar DQN:er genom att lära sig av erfarenhet för att förbättra sina beslutsfärdigheter över tid.
10. Radial Basis Function Networks (RBFN)
Radial Basis Function Networks (RBFN) är ett slags neuralt nätverk som används för att approximera funktioner och utföra klassificeringsuppgifter. De fungerar genom att omvandla indata till ett högre dimensionellt utrymme med hjälp av en samling radiella basfunktioner.
Nätverkets utdata är en linjär kombination av basfunktionerna, och varje radiell basfunktion representerar en mittpunkt i ingångsutrymmet.
RBFN är särskilt effektiva för situationer med komplicerade input-output-interaktioner, och de kan läras ut med ett brett utbud av tekniker, inklusive övervakat och oövervakat lärande. De har använts för allt från ekonomiska förutsägelser till bild- och taligenkänning till medicinsk diagnostik.
Se RBFN som ett GPS-system som använder en serie ankarpunkter för att hitta vägen över utmanande terräng. Nätverkets utgång är en kombination av ankarpunkterna, som står för de radiella basfunktionerna.
Vi kan bläddra igenom komplicerad information och generera exakta förutsägelser om hur ett scenario kommer att bli genom att använda RBFN.
11. Multilayer Perceptrons (MLP)
En typisk form av neuralt nätverk som kallas en multilayer perceptron (MLP) används för övervakade inlärningsuppgifter som klassificering och regression. De fungerar genom att stapla flera lager av länkade noder, eller neuroner, där varje lager olinjärt ändrar inkommande data.
I en MLP får varje neuron input från neuronerna i lagret under och skickar en signal till neuronerna i lagret ovanför. Varje neurons utgång bestäms med hjälp av en aktiveringsfunktion, som ger nätverket olinjäritet.
De kan lära sig sofistikerade representationer av indata eftersom de kan ha flera dolda lager.
MLP har använts för en mängd olika uppgifter, såsom sentimentanalys, bedrägeriupptäckt och röst- och bildigenkänning. MLPs kan jämföras med en grupp utredare som arbetar tillsammans för att knäcka ett svårt fall.
Tillsammans kan de pussla ihop fakta och lösa brottet trots att var och en har ett speciellt specialområde.
12. Convolutional Neural Networks (CNN)
Bilder och videor bearbetas med hjälp av konvolutionella neurala nätverk (CNN), en form av neurala nätverk. De fungerar genom att använda en uppsättning inlärbara filter, eller kärnor, för att extrahera betydande egenskaper från indata.
Filtren glider över ingångsbilden och utför veckningar för att bygga en funktionskarta som fångar väsentliga aspekter av bilden.
Eftersom CNN:er kan lära sig hierarkiska representationer av bildens egenskaper, är de särskilt användbara för situationer som involverar enorma mängder visuell data. Flera applikationer har använt dem, såsom objektdetektering, bildkategorisering och ansiktsdetektering.
Se CNN som en målare som använder flera penslar för att skapa ett mästerverk. Varje borste är en kärna, och konstnären kan bygga en komplex, realistisk bild genom att blanda många kärnor. Vi kan extrahera betydande egenskaper från foton och använda dem för att exakt förutsäga innehållet i bilden genom att använda CNN.
13. Deep Belief Networks (DBN)
DBN: er är en form av neurala nätverk som används för oövervakade inlärningsuppgifter som dimensionalitetsreduktion och funktionsinlärning. De fungerar genom att stapla flera lager av Restricted Boltzmann Machines (RBM), som är tvålagers neurala nätverk som kan lära sig att rekonstruera indata.
DBN:er är mycket fördelaktiga för högdimensionella datafrågor eftersom de kan lära sig en kompakt och effektiv representation av indata. De har använts för allt från röstigenkänning till bildkategorisering till drogupptäckt.
Till exempel använde forskare en DBN för att uppskatta bindningsaffiniteten hos läkemedelskandidater till östrogenreceptorn. DBN tränades på en samling kemiska egenskaper och bindningsaffiniteter, och den kunde exakt förutsäga bindningsaffiniteten för nya läkemedelskandidater.
Detta belyser användningen av DBN i läkemedelsutveckling och andra högdimensionella datatillämpningar.
14. Autokodare
Autokodare är neurala nätverk som används för oövervakade inlärningsuppgifter. De är avsedda att rekonstruera indata, vilket innebär att de kommer att lära sig att koda informationen till en kompakt representation och sedan avkoda den tillbaka till den ursprungliga ingången.
Autokodare är mycket effektiva för datakomprimering, brusborttagning och avvikelsedetektering. De kan också användas för funktionsinlärning, där autokodarens kompakta representation matas in i en övervakad inlärningsuppgift.
Betrakta autoencoders som elever som gör anteckningar i klassen. Studenten lyssnar på föreläsningen och antecknar de mest relevanta punkterna på ett kortfattat och effektivt sätt.
Senare kan eleven studera och komma ihåg lektionen med sina anteckningar. En autokodare, å andra sidan, kodar indata till en kompakt representation som sedan kan användas för olika ändamål såsom avvikelsedetektering eller datakomprimering.
15. Begränsade Boltzmann-maskiner (RBM)
RBM (Restricted Boltzmann Machines) är ett slags generativt neuralt nätverk som används för oövervakade inlärningsuppgifter. De består av ett synligt lager och ett dolt lager, med nervceller i varje lager, länkade men inte inom samma lager.
RBM:er tränas med en teknik som kallas kontrastiv divergens, vilket innebär att vikterna mellan de synliga och dolda lagren ändras för att optimera sannolikheten för träningsdata. RBM:er kan skapa färska data efter att ha tränats genom provtagning från den lärda distributionen.
Bild- och taligenkänning, kollaborativ filtrering och avvikelsedetektering är alla applikationer som har använt RBM. De har också använts i rekommendationssystem för att skapa skräddarsydda rekommendationer genom att lära sig mönster från användarbeteende.
RBM har också använts vid inlärning av funktioner för att skapa en kompakt och effektiv representation av högdimensionell data.
Sammanfattning och lovande utveckling på horisonten
Metoder för djupinlärning, såsom Convolutional Neural Networks (CNN) och Recurrent Neural Networks (RNNs), är bland de mest avancerade metoderna för artificiell intelligens. CNN:er har förändrat bild- och ljudigenkänning, medan RNN:er har avancerat avsevärt inom naturligt språkbehandling och sekventiell dataanalys.
Nästa steg i utvecklingen av dessa tillvägagångssätt kommer sannolikt att fokusera på att förbättra deras effektivitet och skalbarhet, vilket gör det möjligt för dem att analysera större och mer komplicerade datauppsättningar, samt att förbättra deras tolkningsbarhet och förmåga att lära av mindre märkta data.
Deep learning har möjligheten att tillåta genombrott inom områden som sjukvård, ekonomi och autonoma system när det utvecklas.
Kommentera uppropet