A mélyreható tanulás évek óta a szalagcímek közé tartozik a technológia területén. És egyszerű megérteni, miért.
A mesterséges intelligencia ezen ága átalakítja az egészségügytől a bankszektoron át a közlekedésig terjedő ágazatokat, ami korábban elképzelhetetlen fejlődést tesz lehetővé.
A mély tanulás olyan kifinomult algoritmusokra épül, amelyek megtanulnak bonyolult mintákat kinyerni és előre jelezni hatalmas mennyiségű adatból.
Ebben a bejegyzésben a legjobb 15 mély tanulási algoritmust fogjuk megvizsgálni, a konvolúciós neurális hálózatoktól a generatív ellenséges hálózatokon át a hosszú rövid távú memóriahálózatokig.
Ez a bejegyzés alapvető betekintést nyújt abba, hogy Ön a kezdő vagy a mély tanulás szakértője.
1. Transzformátorhálózatok
A transzformátor hálózatok átalakultak számítógépes látás és természetes nyelvi feldolgozó (NLP) alkalmazások. Elemezik a bejövő adatokat, és figyelemfelkeltő folyamatokat alkalmaznak a hosszú távú kapcsolatok rögzítésére. Ez gyorsabbá teszi őket, mint a hagyományos sorozatról-szekvenciára modellek.
A transzformátor hálózatokat először Vaswani és munkatársai „Attention Is All You Need” című kiadványában írták le.
Ezek egy kódolóból és egy dekódolóból állnak (2017). A transzformátormodell számos NLP-alkalmazásban bizonyította teljesítményét, többek között hangulat elemzés, szövegkategorizálás és gépi fordítás.
A transzformátor alapú modellek számítógépes látásban is használhatók alkalmazásokhoz. Képesek tárgyfelismerést és képfeliratozást végezni.
2. Hosszú távú rövid távú memóriahálózatok (LSTM)
A hosszú rövid távú memóriahálózatok (LSTM) egy formája neurális hálózat kifejezetten a szekvenciális bevitel kezelésére készült. „Hosszú rövid távúnak” nevezik őket, mert fel tudják idézni a régebbi ismereteket, miközben elfelejtik a szükségtelen információkat.
Az LSTM-ek bizonyos „kapukon” keresztül működnek, amelyek szabályozzák a hálózaton belüli információáramlást. Attól függően, hogy az információt jelentősnek ítélik-e vagy sem, ezek a kapuk vagy beengedik, vagy megakadályozzák.
Ez a technika lehetővé teszi az LSTM-ek számára, hogy előhívják vagy elfelejtsék a múltbeli lépésekből származó információkat, ami kritikus fontosságú olyan feladatoknál, mint a beszédfelismerés, a természetes nyelvi feldolgozás és az idősorok előrejelzése.
Az LSTM-ek rendkívül előnyösek minden olyan esetben, amikor szekvenciális adatokkal kell rendelkeznie, amelyeket ki kell értékelni vagy előre jelezni kell. Gyakran használják a hangfelismerő szoftverekben a kimondott szavak szöveggé vagy szöveggé alakítására részvénypiac elemzés a jövőbeli árak előrejelzéséhez a korábbi adatok alapján.
3. Önszervező térképek (SOM-ok)
A SOM-ok egyfajta mesterségesek neurális hálózat, amely képes tanulni és bonyolult adatokat ábrázolnak alacsony dimenziós környezetben. A módszer úgy működik, hogy a nagydimenziós bemeneti adatokat egy kétdimenziós rácsmá alakítja, ahol minden egység vagy neuron a bemeneti tér más-más részét képviseli.
A neuronok összekapcsolódnak, és topológiai struktúrát hoznak létre, lehetővé téve számukra a tanulást és a bemeneti adatokhoz való alkalmazkodást. Tehát a SOM felügyelet nélküli tanuláson alapul.
Az algoritmus nem kell címkézett adatok tanulni belőle. Ehelyett a bemeneti adatok statisztikai jellemzőit használja fel a változók közötti minták és korrelációk felfedezésére.
A képzési szakaszban a neuronok versengenek a bemeneti adatok legjobb jelzéséért. És önszerveződnek értelmes struktúrává. A SOM-ok számos alkalmazással rendelkeznek, beleértve a kép- és beszédfelismerést, az adatbányászatot és a mintafelismerést.
Hasznosak a bonyolult adatok megjelenítése, a kapcsolódó adatpontok klaszterezése, valamint a rendellenességek vagy kiugró értékek észlelése.
4. Mély megerősítéses tanulás
Mély Erősítő tanulás egyfajta gépi tanulás, amelyben az ügynököt arra képezik, hogy jutalmazási rendszeren alapuló döntéseket hozzon. Úgy működik, hogy hagyja, hogy az ügynök kölcsönhatásba lépjen a környezetével, és próba-hibán keresztül tanuljon.
Az ügynök minden tevékenységéért jutalmat kap, és célja, hogy megtanulja, hogyan optimalizálhatja az előnyeit idővel. Ezt fel lehet használni arra, hogy megtanítsák az ügynököket játszani, autókat vezetni és még robotokat is kezelni.
A Q-Learning egy jól ismert Deep Reforcement Learning módszer. Úgy működik, hogy felméri egy bizonyos művelet értékét egy adott állapotban, és frissíti ezt a becslést, amikor az ágens kölcsönhatásba lép a környezettel.
Az ügynök ezután ezeket a becsléseket használja fel annak meghatározására, hogy melyik cselekvés eredményezi a legnagyobb valószínűséggel a legnagyobb jutalmat. A Q-Learning-et arra használták, hogy az ügynököket Atari-játékokra tanítsák, valamint az adatközpontok energiafelhasználásának javítására.
A Deep Q-Networks egy másik híres Deep Reforcement Learning módszer (DQN). A DQN-ek hasonlóak a Q-Learninghez, mivel a műveleti értékeket egy mély neurális hálózat segítségével becsülik meg, nem pedig egy táblázatot.
Ez lehetővé teszi számukra, hogy hatalmas, bonyolult beállításokkal foglalkozzanak számos alternatív művelettel. A DQN-eket arra használták, hogy ügynököket képezzenek ki olyan játékokra, mint a Go és a Dota 2, valamint olyan robotok létrehozására, amelyek képesek járni.
5. Ismétlődő neurális hálózatok (RNN-ek)
Az RNN-ek egyfajta neurális hálózat, amely képes szekvenciális adatokat feldolgozni, miközben megtartja a belső állapotot. Tekintsük hasonlónak egy könyvet olvasó emberhez, ahol minden egyes szót az előtte lévőhöz képest emészt fel.
Az RNN-ek ezért ideálisak olyan feladatokhoz, mint a beszédfelismerés, a nyelvi fordítás, vagy akár a kifejezés következő szavának előrejelzése is.
Az RNN-ek úgy működnek, hogy visszacsatoló hurok segítségével kapcsolják össze az egyes időlépések kimenetét a következő lépés bemenetével. Ez lehetővé teszi a hálózat számára, hogy felhasználja a korábbi időlépési információkat, hogy tájékoztassa a jövőbeli időlépésekre vonatkozó előrejelzéseit. Sajnos ez azt is jelenti, hogy az RNN-ek sebezhetőek az eltűnő gradiens-problémával szemben, amelyben a képzéshez használt gradiensek nagyon kicsivé válnak, és a hálózat küzd a hosszú távú kapcsolatok elsajátításáért.
E látszólagos megszorítás ellenére az RNN-ek az alkalmazások széles körében találtak alkalmazást. Ezek az alkalmazások magukban foglalják a természetes nyelvi feldolgozást, a beszédfelismerést és még a zenegyártást is.
Google Translatepéldául egy RNN-alapú rendszert használ a nyelvek közötti fordításhoz, míg a Siri, a virtuális asszisztens egy RNN-alapú rendszert használ a hang észlelésére. Az RNN-eket a részvényárfolyamok előrejelzésére, valamint valósághű szövegek és grafikák készítésére is használják.
6. Kapszula hálózatok
A Capsule Networks egy újfajta neurális hálózat, amely hatékonyabban képes azonosítani az adatok mintáit és összefüggéseit. A neuronokat „kapszulákba” rendezik, amelyek a bemenet bizonyos aspektusait kódolják.
Így pontosabb előrejelzéseket tudnak készíteni. A Capsule Networks egyre bonyolultabb tulajdonságokat von ki a bemeneti adatokból számos kapszularéteg alkalmazásával.
A Capsule Networks technikája lehetővé teszi számukra, hogy megtanulják az adott bemenet hierarchikus ábrázolását. A kapszulák közötti kommunikáció révén megfelelően kódolni tudják a térbeli kapcsolatokat a képen belüli elemek között.
Az objektumok azonosítása, a képszegmentálás és a természetes nyelvi feldolgozás mind a Capsule Networks alkalmazásai.
A kapszulahálózatokban megvan a lehetőség, hogy alkalmazzák őket önálló vezetés technológiákat. Segítik a rendszert az olyan tárgyak felismerésében és megkülönböztetésében, mint például az autók, az emberek és a közlekedési táblák. Ezek a rendszerek elkerülhetik az ütközéseket azáltal, hogy pontosabb előrejelzéseket készítenek a környezetükben lévő objektumok viselkedéséről.
7. Változatos automatikus kódolók (VAE)
A VAE a mély tanulási eszköz egy formája, amelyet felügyelet nélküli tanuláshoz használnak. Ha az adatokat egy alacsonyabb dimenziójú térbe kódolják, majd visszakódolják az eredeti formátumba, akkor megtanulhatják, hogy észrevegyék az adatok mintáit.
Olyanok, mint egy bűvész, aki egy nyulat kalappá, majd nyuszivá tud alakítani! A VAE hasznos a valósághű látvány vagy zene létrehozásához. És felhasználhatók új adatok előállítására, amelyek összehasonlíthatók az eredeti adatokkal.
A VAE hasonló a titkos kódtörőhöz. Felfedezhetik az alapját az adatok felépítése egyszerűbb darabokra bontva, hasonlóan ahhoz, ahogy egy rejtvényt bontanak fel. Ezeket az információkat felhasználhatják új adatok létrehozására, amelyek úgy néznek ki, mint az eredeti, miután kiválogatták az alkatrészeket.
Ez hasznos lehet hatalmas fájlok tömörítéséhez, vagy friss grafikák vagy zenék készítéséhez bizonyos stílusban. A VAE-k friss tartalmat is készíthetnek, például híreket vagy zenei szövegeket.
8. Generatív ellenséges hálózatok (GAN-ok)
A GAN-ok (Generative Adversarial Networks) egy mély tanulási rendszer egyik formája, amely az eredetihez hasonló új adatokat generál. Két hálózat képzésével működnek: egy generátor és egy diszkriminátor hálózat.
A generátor új adatokat állít elő, amelyek összehasonlíthatók az eredetivel.
És a megkülönböztető megpróbál különbséget tenni az eredeti és a létrehozott adatok között. A két hálózat tandemben van kiképezve, a generátor megpróbálja megtéveszteni a megkülönböztetőt, a megkülönböztető pedig megpróbálja megfelelően azonosítani az eredeti adatokat.
Tekintsük a GAN-okat egy hamisító és egy nyomozó keresztezésének. A generátor a hamisítóhoz hasonlóan működik, új, az eredetire hasonlító műalkotást készítve.
A megkülönböztető nyomozóként viselkedik, és megpróbál különbséget tenni a valódi műalkotás és a hamisítás között. A két hálózatot párhuzamosan képezik ki, a generátor javítja a valószínű hamisítványok készítését, a megkülönböztető pedig ezek felismerésében.
A GAN-oknak számos felhasználási területük van, kezdve az emberekről vagy állatokról készült valósághű képek készítésétől az új zene vagy írás létrehozásáig. Használhatók adatbővítésre is, amely magában foglalja az előállított adatok valós adatokkal való kombinálását, hogy nagyobb adatkészletet építsenek fel a gépi tanulási modellek betanításához.
9. Mély Q-hálózatok (DQN)
A Deep Q-Networks (DQN) egyfajta döntéshozatalt megerősítő tanulási algoritmus. Úgy működnek, hogy megtanulnak egy Q-függvényt, amely megjósolja egy bizonyos cselekvés egy adott körülmények között történő végrehajtásának várható jutalmát.
A Q-függvényt próbálgatással tanítják, az algoritmus különféle műveleteket kísérel meg, és tanul az eredményekből.
Tekintsd úgy, mint a videojáték karakter kísérletezik különféle akciókkal, és felfedezi, hogy melyek vezetnek sikerhez! A DQN-ek mély neurális hálózat segítségével képezik a Q-függvényt, így hatékony eszközökké válnak a nehéz döntéshozatali feladatokhoz.
Még emberi bajnokokat is legyőztek olyan játékokban, mint a Go és a sakk, valamint a robotikában és az önvezető autókban. Összességében tehát a DQN-ek úgy működnek, hogy a tapasztalatokból tanulnak, és idővel fejlesztik döntéshozatali készségeiket.
10. Radial Basis Function Networks (RBFN)
A Radial Basis Function Network (RBFN) egyfajta neurális hálózat, amelyet funkciók közelítésére és osztályozási feladatok végrehajtására használnak. Úgy működnek, hogy a bemeneti adatokat radiális bázisfüggvények gyűjteményével egy magasabb dimenziós térré alakítják.
A hálózat kimenete a bázisfüggvények lineáris kombinációja, és minden radiális bázisfüggvény egy középpontot jelent a bemeneti térben.
Az RBFN-ek különösen hatékonyak bonyolult input-output interakciós helyzetekben, és technikák széles skálájával taníthatók, beleértve a felügyelt és felügyelet nélküli tanulást is. A pénzügyi előrejelzésektől a kép- és beszédfelismerésen át az orvosi diagnosztikáig mindenre felhasználták.
Tekintsük az RBFN-eket olyan GPS-rendszernek, amely egy sor horgonypontot használ, hogy megtalálja az utat a kihívásokkal teli terepen. A hálózat kimenete a rögzítési pontok kombinációja, amelyek a radiális bázisfüggvényeket képviselik.
Az RBFN-ek használatával böngészhetünk bonyolult információk között, és pontos előrejelzéseket generálhatunk arról, hogy egy forgatókönyv hogyan fog alakulni.
11. Többrétegű perceptronok (MLP-k)
A többrétegű perceptronnak (MLP) nevezett neurális hálózat tipikus formáját olyan felügyelt tanulási feladatokhoz használják, mint az osztályozás és a regresszió. Több réteg összekapcsolt csomópont vagy neuron egymásra halmozásával működnek, és mindegyik réteg nemlineárisan módosítja a bejövő adatokat.
Az MLP-ben minden neuron bemenetet kap az alábbi réteg neuronjaitól, és jelet küld a fenti réteg neuronjainak. Minden egyes neuron kimenetét egy aktiválási függvény határozza meg, amely a hálózat nemlinearitást adja.
Képesek megtanulni a bemeneti adatok kifinomult reprezentációit, mivel több rejtett réteget is tartalmazhatnak.
Az MLP-ket számos feladatra alkalmazták, mint például a hangulatelemzés, a csalások felderítése, valamint a hang- és képfelismerés. Az MLP-ket a nyomozók egy csoportjához lehet hasonlítani, akik együtt dolgoznak egy nehéz eset feltárásán.
Együtt összeszedhetik a tényeket, és megoldhatják a bűncselekményt annak ellenére, hogy mindegyiküknek van egy speciális területe.
12. Konvolúciós neurális hálózatok (CNN-ek)
A képeket és videókat konvolúciós neurális hálózatok (CNN) segítségével dolgozzák fel, amely a neurális hálózat egy formája. Úgy működnek, hogy megtanulható szűrőket vagy kerneleket alkalmaznak, hogy jelentős jellemzőket vonjanak ki a bemeneti adatokból.
A szűrők a bemeneti kép felett siklanak, és konvolúciókat hajtanak végre, hogy felállítsák a kép lényeges aspektusait rögzítő jellemzőtérképet.
Mivel a CNN-ek képesek megtanulni a képjellemzők hierarchikus ábrázolását, különösen hasznosak olyan helyzetekben, amelyek hatalmas mennyiségű vizuális adatot tartalmaznak. Számos alkalmazás alkalmazta őket, például tárgyfelismerés, képkategorizálás és arcfelismerés.
Tekintsük a CNN-t festőnek, aki több ecsetet használ egy remekmű létrehozásához. Minden ecset egy kernel, és a művész összetett, valósághű képet építhet sok mag keverésével. A fényképekből jelentős jellemzőket kinyerhetünk, és ezeket felhasználhatjuk a kép tartalmának pontos előrejelzésére a CNN-ek segítségével.
13. Deep Belief Networks (DBN-ek)
A DBN-ek a neurális hálózatok egy formája, amelyet olyan felügyelet nélküli tanulási feladatokhoz használnak, mint a dimenziócsökkentés és a jellemzők tanulása. Több rétegű korlátozott Boltzmann-gépek (RBM) egymásra halmozásával működnek, amelyek kétrétegű neurális hálózatok, amelyek képesek megtanulni a bemeneti adatok helyreállítását.
A DBN-ek nagyon előnyösek nagydimenziós adatproblémák esetén, mivel képesek megtanulni a bemenet kompakt és hatékony ábrázolását. A hangfelismeréstől a képkategorizáláson át a gyógyszerkutatásig bármire felhasználták őket.
Például a kutatók DBN-t használtak a gyógyszerjelöltek ösztrogénreceptorhoz való kötődési affinitásának becslésére. A DBN-t a kémiai jellemzők és kötési affinitások gyűjteményére képezték ki, és képes volt pontosan megjósolni az új gyógyszerjelöltek kötési affinitását.
Ez kiemeli a DBN-ek használatát a gyógyszerfejlesztésben és más nagy dimenziós adatalkalmazásokban.
14. Automatikus kódolók
Az automatikus kódolók olyan neurális hálózatok, amelyeket felügyelet nélküli tanulási feladatokhoz használnak. Céljuk a bemeneti adatok rekonstrukciója, ami azt jelenti, hogy megtanulják az információt tömör reprezentációba kódolni, majd visszakódolni az eredeti bemenetre.
Az automatikus kódolók nagyon hatékonyak az adattömörítéshez, a zaj eltávolításához és az anomáliák észleléséhez. Használhatók jellemzők tanulására is, ahol az autoencoder kompakt reprezentációja egy felügyelt tanulási feladatba kerül.
Tekintsük az automatikus kódolókat olyan tanulóknak, akik jegyzetelnek az órán. A hallgató meghallgatja az előadást, és tömören és hatékonyan lejegyzi a legfontosabbakat.
Később a tanuló jegyzetei segítségével tanulmányozhatja és emlékezhet a leckére. Az autoencoder ezzel szemben a bemeneti adatokat egy kompakt reprezentációba kódolja, amelyet később különböző célokra, például anomáliák észlelésére vagy adattömörítésre lehet használni.
15. Korlátozott Boltzmann-gépek (RBM-ek)
Az RBM-ek (Restricted Boltzmann Machines) egyfajta generatív neurális hálózat, amelyet felügyelet nélküli tanulási feladatokhoz használnak. Egy látható és egy rejtett rétegből állnak, mindegyik rétegben neuronok kapcsolódnak egymáshoz, de nem ugyanazon a rétegen belül.
Az RBM-eket a kontrasztív divergencia néven ismert technikával képezik, amely magában foglalja a látható és rejtett rétegek közötti súlyok megváltoztatását a képzési adatok valószínűségének optimalizálása érdekében. Az RBM-ek friss adatokat hozhatnak létre, miután betanították őket a tanult eloszlásból való mintavételezéssel.
A kép- és beszédfelismerés, a kollaboratív szűrés és az anomália-észlelés mind olyan alkalmazások, amelyek RBM-eket alkalmaztak. Az ajánlási rendszerekben is alkalmazták, hogy személyre szabott ajánlásokat hozzanak létre a felhasználói viselkedésből származó minták megtanulásával.
Az RBM-eket a funkciók tanulásában is használták a nagy dimenziós adatok kompakt és hatékony megjelenítésének létrehozására.
Összefoglaló és ígéretes fejlesztések a láthatáron
A mély tanulási módszerek, mint például a konvolúciós neurális hálózatok (CNN-ek) és a visszatérő neurális hálózatok (RNN-ek), a legfejlettebb mesterséges intelligencia-megközelítések közé tartoznak. A CNN-ek átalakították a kép- és hangfelismerést, míg az RNN-ek jelentősen előrehaladtak a természetes nyelvi feldolgozás és a szekvenciális adatelemzés terén.
E megközelítések fejlődésének következő lépése valószínűleg a hatékonyság és a skálázhatóság javítására összpontosít, lehetővé téve számukra a nagyobb és bonyolultabb adatkészletek elemzését, valamint javítja az értelmezhetőségüket és a kevésbé címkézett adatokból való tanulási képességüket.
A mélyreható tanulás előrehaladtával áttöréseket tesz lehetővé olyan területeken, mint az egészségügy, a pénzügy és az autonóm rendszerek.
Hagy egy Válaszol