Hluboké učení se již léta dostává na titulky v technice. A je jednoduché pochopit proč.
Toto odvětví umělé inteligence transformuje sektory od zdravotnictví přes bankovnictví až po dopravu, což umožňuje dříve nemyslitelný pokrok.
Hluboké učení je postaveno na sadě sofistikovaných algoritmů, které se učí extrahovat a předvídat komplikované vzorce z masivních objemů dat.
V tomto příspěvku se podíváme na 15 nejlepších algoritmů hlubokého učení, od konvolučních neuronových sítí přes generativní adversariální sítě až po sítě s dlouhou krátkodobou pamětí.
Tento příspěvek poskytne základní informace o tom, zda jste a začátečník nebo odborník na hluboké učení.
1. Transformátorové sítě
Transformátorové sítě se transformovaly počítačového vidění a aplikace pro zpracování přirozeného jazyka (NLP). Analyzují příchozí data a využívají procesy pozornosti k zachycení vztahů na dlouhé vzdálenosti. Díky tomu jsou rychlejší než konvenční modely sekvencí.
Transformátorové sítě byly poprvé popsány v publikaci „Attention Is All You Need“ od Vaswaniho a kol.
Skládají se z kodéru a dekodéru (2017). Model transformátoru prokázal výkon v různých aplikacích NLP, včetně analýza sentimentu, kategorizace textu a strojový překlad.
Modely založené na transformátorech lze také využít v počítačovém vidění pro aplikace. Mohou provádět rozpoznávání objektů a popisování obrázků.
2. Sítě s dlouhou krátkodobou pamětí (LSTM)
Sítě s dlouhou krátkodobou pamětí (LSTM) jsou formou nervová síť speciálně navržený pro zpracování sekvenčního vstupu. Jsou označovány jako „dlouhodobé“, protože si mohou vybavit znalosti z dávné minulosti a zároveň zapomenout nepotřebné informace.
LSTM fungují prostřednictvím některých „brán“, které řídí tok informací uvnitř sítě. V závislosti na tom, zda jsou informace považovány za významné nebo ne, je tyto brány mohou buď vpustit dovnitř, nebo jim zabránit.
Tato technika umožňuje LSTM vyvolat nebo zapomenout informace z minulých časových kroků, což je zásadní pro úkoly, jako je rozpoznávání řeči, zpracování přirozeného jazyka a predikce časových řad.
LSTM jsou mimořádně přínosné v každém případě, kdy máte sekvenční data, která je třeba vyhodnotit nebo předpovědět. Často se používají v softwaru pro rozpoznávání hlasu k převodu mluvených slov na text nebo v burza cenných papírů analýzy pro předpovídání budoucích cen na základě předchozích údajů.
3. Samoorganizující se mapy (SOM)
SOM jsou jakési umělé neuronové sítě, které se mohou učit a představují komplikovaná data v nízkorozměrném prostředí. Metoda funguje tak, že transformuje vysokorozměrná vstupní data do dvourozměrné mřížky, přičemž každá jednotka nebo neuron představuje jinou část vstupního prostoru.
Neurony jsou propojeny a vytvářejí topologickou strukturu, která jim umožňuje učit se a přizpůsobovat se vstupním datům. SOM je tedy založen na učení bez dozoru.
Algoritmus nepotřebuje označené údaje učit se od. Místo toho používá statistické rysy vstupních dat k objevování vzorců a korelací mezi proměnnými.
Během trénovací fáze neurony soutěží o nejlepší indikaci vstupních dat. A samy se organizují do smysluplné struktury. SOM mají širokou škálu aplikací, včetně rozpoznávání obrazu a řeči, dolování dat a rozpoznávání vzorů.
Jsou užitečné pro vizualizace složitých dat, shlukování souvisejících datových bodů a zjišťování abnormalit nebo odlehlých hodnot.
4. Hluboké posilování učení
Hluboký Posílení učení je druh strojového učení, ve kterém je agent trénován k rozhodování na základě systému odměn. Funguje tak, že umožňuje agentovi interagovat se svým okolím a učit se metodou pokusů a omylů.
Agent je odměněn za každou akci, kterou udělá, a jeho účelem je naučit se, jak v průběhu času optimalizovat jeho výhody. Toho lze využít k výuce agentů hrát hry, řídit automobily a dokonce řídit roboty.
Q-Learning je známá metoda Deep Reinforcement Learning. Funguje tak, že vyhodnocuje hodnotu provedení určité akce v konkrétním stavu a aktualizuje tento odhad, když agent interaguje s prostředím.
Agent pak použije tyto odhady k určení, která akce s největší pravděpodobností povede k nejvyšší odměně. Q-Learning se používá ke vzdělávání agentů v hraní her Atari a také ke zlepšení spotřeby energie v datových centrech.
Deep Q-Networks je další slavná metoda Deep Reinforcement Learning (DQN). DQN jsou podobné Q-Learningu v tom, že odhadují akční hodnoty pomocí hluboké neuronové sítě spíše než pomocí tabulky.
To jim umožňuje vypořádat se s rozsáhlými, komplikovanými nastaveními s mnoha alternativními akcemi. DQN byly použity k výcviku agentů pro hraní her, jako je Go a Dota 2, a také k vytvoření robotů, kteří se mohou naučit chodit.
5. Rekurentní neuronové sítě (RNN)
RNN jsou druhem neuronové sítě, která dokáže zpracovávat sekvenční data při zachování vnitřního stavu. Považujte to za podobné, jako když člověk čte knihu, kde je každé slovo stráveno ve vztahu k těm, která před ním byla.
RNN jsou proto ideální pro úkoly, jako je rozpoznávání řeči, překlad jazyka a dokonce předpovídání dalšího slova ve frázi.
RNN fungují pomocí zpětnovazebních smyček k propojení výstupu každého časového kroku zpět se vstupem dalšího časového kroku. To umožňuje síti využívat předchozí informace o časovém kroku k informování svých předpovědí pro budoucí časové kroky. Bohužel to také znamená, že RNN jsou zranitelné vůči problému mizejícího gradientu, ve kterém jsou gradienty používané pro trénink velmi malé a síť se snaží naučit dlouhodobé vztahy.
Navzdory tomuto zjevnému omezení našly RNN uplatnění v široké škále aplikací. Tyto aplikace zahrnují zpracování přirozeného jazyka, rozpoznávání řeči a dokonce i hudební produkci.
Překladač Google, například používá systém založený na RNN k překladu mezi jazyky, zatímco Siri, virtuální asistentka, využívá systém založený na RNN k detekci hlasu. RNN byly také použity k předpovídání cen akcií a vytváření realistického textu a grafiky.
6. Sítě kapslí
Capsule Networks je nový druh návrhu neuronové sítě, který dokáže efektivněji identifikovat vzory a korelace v datech. Organizují neurony do „kapslí“, které kódují určité aspekty vstupu.
Tímto způsobem mohou dělat přesnější předpovědi. Capsule Networks extrahují ze vstupních dat postupně komplikované vlastnosti pomocí mnoha vrstev kapslí.
Technika Capsule Networks jim umožňuje naučit se hierarchické reprezentace daného vstupu. Mohou správně zakódovat prostorová spojení mezi položkami uvnitř obrázku pomocí komunikace mezi kapslemi.
Identifikace objektů, segmentace obrázků a zpracování přirozeného jazyka jsou všechny aplikace Capsule Networks.
Capsule Networks mají potenciál být využity autonomní řízení technologií. Pomáhají systému rozpoznávat a rozlišovat mezi položkami, jako jsou automobily, lidé a dopravní značky. Tyto systémy se mohou vyhnout kolizím tím, že budou přesněji předpovídat chování objektů v jejich prostředí.
7. Variační automatické kodéry (VAE)
VAE jsou formou nástroje hlubokého učení, který se používá pro učení bez dozoru. Zakódováním dat do prostoru s nižší dimenzí a následným dekódováním zpět do původního formátu se mohou naučit rozpoznávat vzory v datech.
Jsou jako kouzelník, který dokáže proměnit králíka v klobouk a pak zpět v zajíčka! VAE jsou výhodné pro generování realistických obrazů nebo hudby. A mohou být použity k vytváření nových dat, která jsou srovnatelná s původními daty.
VAE jsou podobné tajnému lapači kódu. Mohou objevit podstatu struktura dat tím, že jej rozložíte na jednodušší kousky, podobně jako když se rozděluje hádanka. Tyto informace mohou využít k vytvoření nových dat, která budou vypadat jako originál poté, co vytřídí díly.
To se může hodit při kompresi obrovských souborů nebo vytváření svěží grafiky nebo hudby v určitém stylu. VAE mohou také vytvářet nový obsah, jako jsou zprávy nebo texty hudby.
8. Generative Adversarial Networks (GAN)
GAN (Generative Adversarial Networks) jsou formou systému hlubokého učení, který generuje nová data, která se podobají originálu. Fungují tak, že trénují dvě sítě: generátorovou a diskriminační síť.
Generátor vytváří nová data, která jsou srovnatelná s původními.
A diskriminátor se pokouší rozlišit mezi původními a vytvořenými daty. Tyto dvě sítě jsou trénovány v tandemu, přičemž generátor se pokouší oklamat diskriminátor a diskriminátor se snaží správně identifikovat původní data.
Považujte GAN za křížence mezi padělatelem a detektivem. Generátor funguje podobně jako padělek a vytváří nové umělecké dílo, které se podobá originálu.
Diskriminátor působí jako detektiv, který se pokouší rozlišit mezi pravým uměleckým dílem a padělkem. Tyto dvě sítě jsou trénovány v tandemu, přičemž generátor se zlepšuje ve vytváření věrohodných padělků a diskriminátor se zlepšuje v jejich rozpoznávání.
GAN mají několik použití, od vytváření realistických obrázků lidí nebo zvířat až po vytváření nové hudby nebo psaní. Mohou být také použity pro rozšiřování dat, což zahrnuje kombinování vytvořených dat s reálnými daty za účelem vytvoření větší datové sady pro trénování modelů strojového učení.
9. Deep Q-Networks (DQN)
Deep Q-Networks (DQN) jsou jakýmsi algoritmem učení pro posílení rozhodování. Fungují tak, že se učí Q-funkci, která předpovídá očekávanou odměnu za provedení určité akce v určitém stavu.
Q-funkce se učí metodou pokusu a omylu, přičemž algoritmus zkouší různé akce a učí se z výsledků.
Považujte to za a videohra postava experimentuje s různými akcemi a zjišťuje, které vedou k úspěchu! DQN trénují Q-funkci pomocí hluboké neuronové sítě, což z nich dělá efektivní nástroje pro obtížné rozhodovací úlohy.
Dokonce porazili lidské šampióny ve hrách jako Go a šachy, stejně jako v robotice a samořídících automobilech. Celkově tedy DQN pracují tak, že se učí ze zkušeností, aby v průběhu času zlepšili své rozhodovací schopnosti.
10. Radiální základní funkční sítě (RBFN)
Radiální základní funkční sítě (RBFN) jsou druhem neuronové sítě, která se používá k aproximaci funkcí a provádění klasifikačních úkolů. Fungují tak, že transformují vstupní data do vícerozměrného prostoru pomocí kolekce radiálních bázových funkcí.
Výstup sítě je lineární kombinací základních funkcí a každá radiální základní funkce představuje střed ve vstupním prostoru.
RBFN jsou zvláště účinné v situacích s komplikovanými vstupně-výstupními interakcemi a lze je vyučovat pomocí široké škály technik, včetně učení pod dohledem a bez dozoru. Byly použity pro cokoli od finančních předpovědí přes rozpoznávání obrázků a řeči až po lékařskou diagnostiku.
Považujte RBFN za systém GPS, který používá řadu kotevních bodů k nalezení cesty přes náročný terén. Výstupem sítě je kombinace kotevních bodů, které zastupují funkce radiální báze.
Můžeme procházet komplikované informace a vytvářet přesné předpovědi o tom, jak scénář dopadne, pomocí RBFN.
11. Vícevrstvé perceptrony (MLP)
Typická forma neuronové sítě nazývaná vícevrstvý perceptron (MLP) se používá pro úkoly učení pod dohledem, jako je klasifikace a regrese. Fungují naskládáním několika vrstev propojených uzlů nebo neuronů, přičemž každá vrstva nelineárně mění příchozí data.
V MLP získává každý neuron vstup z neuronů ve vrstvě pod a posílá signál do neuronů ve vrstvě nahoře. Výstup každého neuronu je určen pomocí aktivační funkce, která dává síti nelinearitu.
Jsou schopny se naučit sofistikované reprezentace vstupních dat, protože mohou mít několik skrytých vrstev.
MLP byly aplikovány na různé úkoly, jako je analýza sentimentu, detekce podvodů a rozpoznávání hlasu a obrazu. MLP lze přirovnat ke skupině vyšetřovatelů, kteří spolupracují na rozluštění složitého případu.
Společně mohou dát dohromady fakta a vyřešit zločin, přestože každý z nich má určitou oblast specializace.
12. Konvoluční neuronové sítě (CNN)
Obrázky a videa jsou zpracovávány pomocí konvolučních neuronových sítí (CNN), což je forma neuronové sítě. Fungují tak, že využívají sadu naučitelných filtrů neboli jader k extrahování významných charakteristik ze vstupních dat.
Filtry kloužou po vstupním obrázku a provádějí konvoluce k vytvoření mapy prvků, která zachycuje podstatné aspekty obrázku.
Protože CNN jsou schopny naučit se hierarchické reprezentace obrazových charakteristik, jsou užitečné zejména v situacích, které zahrnují obrovské objemy vizuálních dat. Několik aplikací je využilo, jako je detekce objektů, kategorizace obrázků a detekce obličejů.
Považujte CNN za malíře, který používá několik štětců k vytvoření mistrovského díla. Každý štětec je jádro a umělec může vytvořit komplexní, realistický obraz smícháním mnoha jader. Můžeme extrahovat významné charakteristiky z fotografií a využít je k přesné předpovědi obsahu obrázku pomocí CNN.
13. Deep Belief Networks (DBN)
DBN jsou formou neuronové sítě, která se používá pro úkoly učení bez dozoru, jako je redukce rozměrů a učení funkcí. Fungují naskládáním několika vrstev omezených Boltzmannových strojů (RBM), což jsou dvouvrstvé neuronové sítě schopné naučit se rekonstituovat vstupní data.
DBN jsou velmi přínosné pro problémy s vysokorozměrnými daty, protože se mohou naučit kompaktní a efektivní reprezentaci vstupu. Byly použity pro cokoli od rozpoznávání hlasu přes kategorizaci obrázků až po objevování drog.
Například výzkumníci použili DBN k odhadu vazebné afinity kandidátů léků k estrogenovému receptoru. DBN byl trénován na souboru chemických charakteristik a vazebných afinit a byl schopen přesně předpovědět vazebnou afinitu nových kandidátů na léky.
To zdůrazňuje použití DBN při vývoji léků a dalších aplikacích s vysokými rozměry.
14. Autokodéry
Autokodéry jsou neuronové sítě, které se používají pro úkoly učení bez dozoru. Jsou určeny k rekonstrukci vstupních dat, což znamená, že se naučí zakódovat informace do kompaktní reprezentace a poté je dekódovat zpět do původního vstupu.
Autokodéry jsou velmi účinné pro kompresi dat, odstranění šumu a detekci anomálií. Mohou být také použity pro učení funkcí, kde je kompaktní reprezentace autoenkodéru vložena do kontrolované výukové úlohy.
Autokodéry považujte za studenty, kteří si ve třídě dělají poznámky. Student poslouchá přednášku a zaznamenává nejdůležitější body stručným a účinným způsobem.
Později může student studovat a zapamatovat si lekci pomocí svých poznámek. Autokodér na druhé straně kóduje vstupní data do kompaktní reprezentace, která může být následně použita pro různé účely, jako je detekce anomálií nebo komprese dat.
15. Omezené Boltzmannovy stroje (RBM)
RBM (Restricted Boltzmann Machines) jsou jakousi generativní neuronovou sítí, která se používá pro úkoly učení bez dozoru. Jsou tvořeny viditelnou vrstvou a skrytou vrstvou, přičemž neurony v každé vrstvě jsou propojeny, ale ne ve stejné vrstvě.
RBM se trénují pomocí techniky známé jako kontrastivní divergence, která zahrnuje změnu váhy mezi viditelnou a skrytou vrstvou, aby se optimalizovala pravděpodobnost trénovacích dat. RBM mohou vytvářet nová data poté, co jsou vyškoleni vzorkováním z naučené distribuce.
Rozpoznávání obrazu a řeči, kolaborativní filtrování a detekce anomálií jsou všechny aplikace, které využívají RBM. Byly také využity v systémech doporučení k vytváření přizpůsobených doporučení na základě učení vzorů z chování uživatelů.
RBM byly také použity při učení funkcí k vytvoření kompaktní a efektivní reprezentace vysokorozměrných dat.
Shrnutí a slibný vývoj na obzoru
Metody hlubokého učení, jako jsou konvoluční neuronové sítě (CNN) a rekurentní neuronové sítě (RNN), patří mezi nejpokročilejší přístupy umělé inteligence. CNN změnily rozpoznávání obrazu a zvuku, zatímco RNN výrazně pokročily ve zpracování přirozeného jazyka a sekvenční analýze dat.
Další krok ve vývoji těchto přístupů se pravděpodobně zaměří na zlepšení jejich účinnosti a škálovatelnosti, což jim umožní analyzovat větší a komplikovanější datové sady a také na zlepšení jejich interpretovatelnosti a schopnosti učit se z méně označených dat.
Hluboké učení má možnost umožnit průlom v oblastech, jako je zdravotnictví, finance a autonomní systémy, jak postupuje.
Napsat komentář