Rozšíření dat: Nezbytné pro modely strojového učení

Obsah[Skrýt][Ukázat]

Co je tedy rozšíření dat?
K čemu slouží augmentace dat v současnosti?
Typy augmentace dat+-
- Skutečné rozšíření dat
- Syntetické rozšíření dat
Techniky rozšiřování dat+-
Použijte pouzdro
Výzvy
Proč investovat do čističky vzduchu?

Většina modelů strojového učení a hlubokého učení se do značné míry spoléhá na množství a rozmanitost dat, aby dobře fungovala. Objem a rozmanitost dat poskytovaných během tréninku mají významný vliv na přesnost předpovědí těchto modelů.

Modely hlubokého učení, které se naučily efektivně vykonávat komplikované úkoly, často zahrnují skryté neurony. Počet trénovatelných parametrů se zvyšuje podle počtu skrytých neuronů.

Množství požadovaných dat je úměrné počtu parametrů, které lze modelem naučit. Jednou z metod, jak se vypořádat s obtížností omezených dat, je použití různých transformací na aktuální data za účelem syntézy nových dat.

Technika syntézy nových dat z existujících dat se nazývá „rozšiřování dat“. Rozšíření dat lze použít ke splnění obou požadavků: objem dat a rozmanitost trénovacích dat potřebných k vytvoření přesného modely strojového učení nebo hlubokého učení.

V tomto příspěvku se podrobně podíváme na augmentaci dat, její typy, proč je nezbytná a mnoho dalšího.

Co je tedy rozšíření dat?

Data Augmentation je proces vývoje nových a reprezentativních dat ze stávajících dat. Toho lze dosáhnout zahrnutím upravených verzí existujících dat nebo syntézou nových dat.

Datové sady vyrobené touto metodou zlepší vaše strojové učení resp modely hlubokého učení tím, že se minimalizuje riziko nadměrného vybavení. Je to proces změny neboli „rozšiřování“ datové sady o další informace.

Tento doplňkový vstup se může pohybovat od obrázků po text a zvyšuje výkon systémů strojového učení.

Předpokládejme, že chceme postavit model pro kategorizaci plemen psů a máme velké množství fotografií všech variet kromě mopsů. V důsledku toho by model měl potíže s kategorizací mopsů.

Do sbírky bychom mohli přidat další (skutečné nebo nepravdivé) fotografie mopsů, nebo bychom mohli zdvojnásobit naše současné fotografie mopsů (např. jejich replikací a zkreslením, aby byly uměle jedinečné).

K čemu slouží augmentace dat v současnosti?

Aplikace pro strojové učení se rychle rozvíjejí a diverzifikují, zejména v oblasti hlubokého učení. Výzvy, kterým průmysl umělé inteligence čelí, lze překonat pomocí technik rozšiřování dat.

Rozšíření dat může zlepšit výkon a výsledky modelů strojového učení přidáním nových a různorodých příkladů do trénovacích datových sad.

Když je datová sada velká a dostatečná, model strojového učení funguje lépe a je přesnější. U modelů strojového učení může být shromažďování dat a označování časově náročné a nákladné.

Společnosti mohou snížit své provozní náklady změnou datových sad a využitím strategií rozšiřování dat.

Čištění dat je jednou z fází vývoje datového modelu a je nezbytné pro modely s vysokou přesností. Pokud však čištění dat sníží reprezentativnost, model nebude schopen předvídat správné vstupy ze skutečného světa.

Modely strojového učení mohou být posíleny využitím přístupů augmentace dat, které vytvářejí odchylky, s nimiž se model může setkat ve skutečném světě.

Typy augmentace dat

Skutečné rozšíření dat

Ke skutečnému rozšíření dat dochází, když do datové sady přidáte pravá doplňková data. To může sahat od textových souborů s dalšími atributy (pro označené obrázky) až po obrázky jiných objektů srovnatelných s původním objektem nebo dokonce nahrávky skutečné věci.

Například přidáním několika dalších funkcí do souboru obrázku může model strojového učení položku snadněji detekovat.

Může být zahrnuto více metadat o každém obrázku (např. jeho název a popis), aby náš model umělé inteligence věděl více o tom, co každý obrázek představuje, než začne na těchto fotografiích trénovat.

Když přijde čas kategorizovat čerstvé fotografie do jedné z našich předem určených kategorií, jako je „kočka“ nebo „pes“, model by mohl být schopen lépe detekovat položky, které jsou na obrázku přítomné, a ve výsledku by tak měl celkově lepší výkon.

Syntetická data Zvětšení

Kromě přidávání dalších reálných dat můžete také přispět syntetická data nebo umělá data, která vypadají autenticky.

To je výhodné pro obtížné úkoly, jako je přenos neuronového stylu, ale je také dobré pro jakýkoli návrh, ať už používáte GAN (generativní adversariální sítě), CNN (konvoluční neuronové sítě) nebo jiné architektury hlubokých neuronových sítí.

Chceme-li například mopse správně kategorizovat, aniž bychom museli jít ven a pořídit řadu fotografií, mohli bychom do sbírky obrázků psů přidat nějaké falešné fotografie mopsů.

Tato forma rozšíření dat je zvláště účinná pro zvýšení přesnosti modelu, když je sběr dat obtížný, drahý nebo časově náročný. V této situaci datovou sadu uměle rozšiřujeme.

Předpokládejme, že naše počáteční skupina 1000 fotografií plemen psů obsahuje pouze 5 obrázků mopsů. Spíše než přidávat další skutečné fotografie mopse od skutečných psů, pojďme vytvořit falešnou klonováním jednoho ze současných a mírně jej zkreslit, aby stále vypadal jako mops.

Techniky rozšiřování dat

Přístupy k rozšiřování dat zahrnují malé úpravy existujících dat. Je to stejné jako přeformulování výroku. Augmentaci dat můžeme rozdělit do tří kategorií:

Text

Nahrazení slov: Tento přístup k rozšíření dat zahrnuje nahrazení současných termínů synonymy. Například „Tento film je pošetilý“ se může stát „Tento film je idiotský“.
Přehazování vět/slov: Tato strategie zahrnuje přepínání sekvence frází nebo slov při zachování celkové koherence.
Manipulace se stromem syntaxe: Změníte existující větu tak, aby byla gramaticky přesná, a přitom použijete stejné výrazy.
Náhodné mazání: Přestože tato strategie vytváří ošklivé písmo, je účinná. V důsledku toho se řádek „Nekoupím si tuto desku, protože je poškrábaná“ změní na „Nekoupím ji, protože je poškrábaná“. Fráze je méně jasná, ale zůstává věrohodným doplňkem.
Zpět Překlad: Tento přístup je efektivní a zároveň příjemný. Vezměte prohlášení napsané ve vašem jazyce, přeložte jej do jiného jazyka a poté jej znovu přeložte zpět do původního jazyka.

snímky

Kernel Filters: Tento přístup zostřuje nebo rozmazává obrázek.
Kombinace obrázků: I když se to může zdát divné, můžete fotografie kombinovat.
Náhodné mazání: Vymaže malou část aktuálního snímku.
Geometrické transformace: Tento přístup zahrnuje mimo jiné libovolné překlápění, otáčení, ořezávání nebo překládání obrázků.
Převrácení obrázku: Obrázek můžete převrátit z horizontální do vertikální orientace.
Transformace barevného prostoru: Můžete upravit barevné kanály RGB nebo vylepšit jakoukoli aktuální barvu.
Změna měřítka je proces úpravy vizuálního měřítka. Máte možnost zvětšení nebo zmenšení. Když změníte měřítko dovnitř, obrázek se zmenší než původní velikost. Obrázek bude větší než originál, pokud jej změníte směrem ven.

Audio

Pitch: Tento přístup zahrnuje změnu výšky zvuku.
Změnit rychlost: Změna rychlosti zvukového souboru nebo nahrávky.
Více šumu: Do zvukového souboru můžete přidat více šumu.

Použijte pouzdro

Lékařské zobrazování je v současnosti prominentním případem použití pro rozšiřování dat. Sbírky lékařských snímků jsou malé a sdílení dat je obtížné kvůli pravidlům a obavám o soukromí.

Kromě toho jsou soubory dat mnohem omezenější v případě neobvyklých poruch. Lékařské zobrazovací společnosti používají rozšiřování dat k diverzifikaci svých datových souborů.

Výzvy

Škálovatelnost, různorodé datové sady a relevance jsou některé z problémů, které je třeba vyřešit, aby bylo možné vyvinout účinné techniky rozšiřování dat.

Pokud jde o škálovatelnost, rozšířená data musí být škálovatelná, aby je mohlo používat mnoho různých modelů. Budete se chtít ujistit, že to lze duplikovat pro použití v budoucích modelech, protože nastavení systému pro rozšiřování dat, který generuje velké množství relevantních, cenných a rozšířených dat, může nějakou dobu trvat.

Pokud jde o heterogenitu, různé datové sady mají odlišné rysy, které je třeba vzít v úvahu při vývoji rozšířených dat. Pro vývoj vhodných vylepšených dat je třeba využít vlastnosti každé datové sady.

Jinými slovy, rozšíření dat se bude lišit mezi datovými sadami a případy použití.

A konečně, aby bylo zaručeno, že výhody zvýšených dat převyšují jakákoli rizika, měla by být rozšířená data před použitím v modelech strojového učení vyhodnocena pomocí vhodných metrik.

Například přítomnost významného šumu na pozadí nebo nesouvisejících položek v rozšířených datech založených na obrázcích by mohla mít škodlivý dopad na výkon modelu.

Proč investovat do čističky vzduchu?

Nakonec, ať už se pokoušíte předvídat ztráty, identifikovat finanční podvody nebo lépe konstruovat klasifikace obrázků augmentace dat je kritickým způsobem vytváření přesnějších a robustnějších modelů.

Díky vynikajícímu tréninkovému postupu, jednoduchému předběžnému zpracování a rozšiřování dat může týmům dokonce pomoci při vývoji špičkových modelů.

Podniky mohou využít rozšíření dat ke snížení množství času stráveného přípravou školicích dat a k vytvoření modelů strojového učení, které jsou přesnější a rychlejší..

Rozšířením množství příslušných dat v datové sadě může augmentace dat těžit také z modelů strojového učení, které již mají mnoho dat.

Rozšíření dat: Nezbytné pro modely strojového učení

Co je tedy rozšíření dat?

K čemu slouží augmentace dat v současnosti?