Rozšírenie dát: nevyhnutné pre modely strojového učenia

Obsah[Skryť][Šou]

Čo je teda rozšírenie údajov?
Na čo slúži v súčasnosti rozširovanie dát?
Typy zväčšenia údajov+-
- Skutočné rozšírenie dát
- Syntetické rozšírenie dát
Techniky zväčšovania údajov+-
Použite prípad
Výzvy
záver

Väčšina modelov strojového učenia a hlbokého učenia sa vo veľkej miere spolieha na množstvo a rozmanitosť údajov, aby dobre fungovali. Objem a rôznorodosť údajov poskytovaných počas tréningu má významný vplyv na presnosť predikcie týchto modelov.

Modely hlbokého učenia, ktoré sa naučili efektívne vykonávať zložité úlohy, často zahŕňajú skryté neuróny. Počet trénovateľných parametrov sa zvyšuje podľa počtu skrytých neurónov.

Množstvo požadovaných údajov je úmerné počtu parametrov, ktoré sa dajú modelom naučiť. Jednou z metód, ako sa vysporiadať s ťažkosťami s obmedzenými údajmi, je použiť rôzne transformácie na aktuálne údaje, aby sa syntetizovali nové údaje.

Technika syntézy nových údajov z existujúcich údajov sa označuje ako „Rozšírenie údajov“. Rozšírenie údajov možno použiť na splnenie oboch požiadaviek: objem údajov a rozmanitosť tréningových údajov potrebných na vytvorenie presného modely strojového učenia alebo hlbokého učenia.

V tomto príspevku sa bližšie pozrieme na rozširovanie údajov, jeho typy, prečo je nevyhnutné a mnoho ďalšieho.

Čo je teda rozšírenie údajov?

Data Augmentation je proces vývoja nových a reprezentatívnych údajov z existujúcich údajov. Môžete to dosiahnuť zahrnutím upravených verzií existujúcich údajov alebo syntetizovaním nových údajov.

Dátové sady vyrobené touto metódou zlepšia vaše strojové učenie resp modely hlbokého učenia minimalizovaním rizika nadmernej montáže. Je to proces zmeny alebo „rozšírenia“ súboru údajov o ďalšie informácie.

Tento doplnkový vstup môže siahať od obrázkov po text a zvyšuje výkon systémov strojového učenia.

Predpokladajme, že chceme postaviť model na kategorizáciu plemien psov a máme veľké množstvo fotografií všetkých odrôd okrem mopsov. V dôsledku toho by model mal problém kategorizovať mopslíkov.

Do zbierky by sme mohli pridať ďalšie (skutočné alebo falošné) fotografie mopsov alebo by sme mohli zdvojnásobiť naše súčasné fotografie mopsov (napr. ich replikáciou a skreslením, aby boli umelo jedinečné).

Na čo slúži v súčasnosti rozširovanie dát?

Žiadosti o strojové učenie sa rýchlo rozvíjajú a diverzifikujú, najmä v oblasti hlbokého učenia. Výzvy, ktorým čelí priemysel umelej inteligencie, môžu byť prekonané technikami zväčšovania údajov.

Rozšírenie údajov môže zlepšiť výkon a výsledky modelov strojového učenia pridaním nových a rôznorodých príkladov do tréningových súborov údajov.

Keď je súbor údajov veľký a dostatočný, model strojového učenia funguje lepšie a je presnejší. V prípade modelov strojového učenia môže byť zhromažďovanie údajov a označovanie časovo náročné a drahé.

Spoločnosti môžu znížiť svoje prevádzkové náklady zmenou množín údajov a využitím stratégií rozširovania údajov.

Čistenie údajov je jednou z fáz vývoja dátového modelu a je nevyhnutné pre modely s vysokou presnosťou. Model však nebude schopný predvídať správne vstupy zo skutočného sveta, ak čistenie údajov zníži reprezentatívnosť.

Modely strojového učenia je možné posilniť využívaním prístupov na rozširovanie údajov, ktoré vytvárajú odchýlky, s ktorými sa model môže stretnúť v skutočnom svete.

Typy zväčšenia údajov

Skutočné rozšírenie dát

Skutočné rozšírenie údajov nastane, keď do súboru údajov pridáte skutočné doplnkové údaje. To môže siahať od textových súborov s dodatočnými atribútmi (pre označené obrázky) až po obrázky iných objektov porovnateľných s pôvodným objektom alebo dokonca záznamy skutočnej veci.

Napríklad pridaním niekoľkých ďalších funkcií do súboru obrázka môže model strojového učenia položku ľahšie rozpoznať.

Môže byť zahrnutých viac metadát o každom obrázku (napr. jeho názov a popis), aby náš model AI vedel viac o tom, čo každý obrázok predstavuje, skôr ako začne trénovať na týchto fotografiách.

Keď príde čas na kategorizáciu čerstvých fotografií do jednej z našich vopred určených kategórií, ako je „mačka“ alebo „pes“, model by mohol byť schopný lepšie rozpoznať položky, ktoré sú prítomné na obrázku, a vo výsledku by tak mal celkovo lepší výkon.

Syntetické údaje zväčšenie

Okrem pridávania ďalších reálnych údajov môžete prispieť aj vy syntetické údaje alebo umelé údaje, ktoré sa zdajú byť autentické.

To je výhodné pre náročné úlohy, ako je prenos neurónového štýlu, ale je tiež dobré pre akýkoľvek dizajn, či už používate GAN (generatívne adverzné siete), CNN (konvolučné neurónové siete) alebo iné architektúry hlbokých neurónových sietí.

Napríklad, ak chceme správne kategorizovať mopslíky bez toho, aby sme museli ísť von a urobiť niekoľko fotografií, mohli by sme do zbierky obrázkov psov pridať niekoľko falošných fotografií mopsov.

Táto forma rozšírenia údajov je obzvlášť účinná na zvýšenie presnosti modelu, keď je zber údajov zložitý, drahý alebo časovo náročný. V tejto situácii umelo rozširujeme dataset.

Predpokladajme, že naša počiatočná skupina 1000 fotografií plemien psov obsahuje iba 5 obrázkov mopsov. Namiesto pridávania ďalších skutočných fotografií mopsov od skutočných psov vytvorme falošnú klonovaním jednej zo súčasných a mierne skreslenou tak, aby stále vyzerala ako mops.

Techniky zväčšovania údajov

Prístupy k rozšíreniu údajov si vyžadujú malé úpravy existujúcich údajov. Je to rovnaké ako preformulovanie výroku. Rozširovanie údajov môžeme rozdeliť do troch kategórií:

text

Nahradenie slov: Tento prístup k rozšíreniu údajov zahŕňa nahradenie súčasných výrazov synonymami. Napríklad „Tento film je hlúpy“ sa môže stať „Tento film je idiotský“.
Prehadzovanie viet/slov: Táto stratégia zahŕňa prepínanie sekvencie fráz alebo slov pri zachovaní celkovej koherencie.
Manipulácia so stromom syntaxe: Zmeníte existujúcu vetu tak, aby bola gramaticky presná, pričom použijete rovnaké výrazy.
Náhodné vymazanie: Hoci táto stratégia vytvára škaredé písmo, je efektívna. Výsledkom je, že riadok „Nekúpim si túto platňu, pretože je poškriabaná“ sa zmení na „Nekúpim si ju, pretože je poškriabaná“. Fráza je menej jasná, ale zostáva hodnoverným doplnkom.
Späť Preklad: Tento prístup je efektívny a zároveň príjemný. Vezmite vyhlásenie napísané vo vašom jazyku, preložte ho do iného jazyka a potom ho znova preložte späť do pôvodného jazyka.

snímky

Filtre jadra: Tento prístup zaostrí alebo rozmaže obrázok.
Kombinácia obrázkov: Aj keď sa to môže zdať zvláštne, môžete fotografie kombinovať.
Náhodné vymazanie: Vymaže malú časť aktuálneho obrázka.
Geometrické transformácie: Tento prístup zahŕňa okrem iného ľubovoľné prevracanie, otáčanie, orezávanie alebo prekladanie obrázkov.
Prevrátenie obrázka: Obrázok môžete prevrátiť z horizontálnej do vertikálnej orientácie.
Transformácia farebného priestoru: Môžete upraviť farebné kanály RGB alebo vylepšiť akúkoľvek aktuálnu farbu.
Zmena mierky je proces úpravy vizuálnej mierky. Máte možnosť zväčšenia alebo zmenšenia. Keď zmeníte mierku dovnútra, obrázok sa zmenší ako počiatočná veľkosť. Obrázok bude väčší ako originál, ak ho zmeníte smerom von.

Audio

Výška tónu: Tento prístup zahŕňa zmenu výšky zvuku.
Zmeniť rýchlosť: Zmeňte rýchlosť zvukového súboru alebo nahrávky.
Viac šumu: Do zvukového súboru môžete pridať viac šumu.

Použite prípad

Lekárske zobrazovanie je v súčasnosti prominentným prípadom použitia na rozšírenie údajov. Zbierky lekárskych snímok sú malé a zdieľanie údajov je zložité kvôli pravidlám a obavám o súkromie.

Okrem toho sú súbory údajov oveľa obmedzenejšie v prípade neobvyklých porúch. Spoločnosti zaoberajúce sa lekárskym zobrazovaním používajú rozširovanie údajov na diverzifikáciu svojich súborov údajov.

Výzvy

Škálovateľnosť, rôznorodé množiny údajov a relevantnosť sú niektoré z problémov, ktoré je potrebné vyriešiť, aby sa vyvinuli účinné techniky rozširovania údajov.

Pokiaľ ide o škálovateľnosť, rozšírené údaje musia byť škálovateľné, aby ich mohlo používať mnoho rôznych modelov. Budete sa chcieť uistiť, že to bude možné duplikovať na použitie v budúcich modeloch, pretože nastavenie systému na rozširovanie údajov, ktorý generuje veľké množstvo relevantných, cenných a vylepšených údajov, môže chvíľu trvať.

Pokiaľ ide o heterogenitu, rôzne súbory údajov majú odlišné vlastnosti, ktoré je potrebné zvážiť pri vývoji rozšírených údajov. Na vytvorenie vhodných vylepšených údajov sa musia využiť vlastnosti každého súboru údajov.

Inými slovami, rozšírenie údajov sa bude líšiť medzi súbormi údajov a prípadmi použitia.

Nakoniec, aby sa zaručilo, že výhody zvýšených údajov prevýšia akékoľvek riziká, rozšírené údaje by sa mali pred použitím v modeloch strojového učenia vyhodnotiť pomocou vhodných metrík.

Napríklad prítomnosť výrazného šumu na pozadí alebo nesúvisiacich položiek v rozšírených údajoch založených na obrázkoch by mohla mať škodlivý vplyv na výkon modelu.

záver

V konečnom dôsledku, či už sa pokúšate predpovedať stratu, identifikovať finančný podvod alebo lepšie konštruovať klasifikácia obrázkov Rozšírenie údajov je kritickým spôsobom vytvárania presnejších a robustnejších modelov.

Vďaka vynikajúcemu školiacemu postupu, jednoduchému predspracovaniu a rozšíreniu údajov môžu dokonca pomôcť tímom pri vývoji špičkových modelov.

Firmy môžu využiť rozšírenie dát na zníženie množstva času stráveného prípravou tréningových dát a na vytvorenie modelov strojového učenia, ktoré sú presnejšie a rýchlejšie..

Rozšírením množstva príslušných údajov v množine údajov môže rozšírenie údajov priniesť úžitok aj modelom strojového učenia, ktoré už majú veľa údajov.

Rozšírenie dát: nevyhnutné pre modely strojového učenia

Čo je teda rozšírenie údajov?

Na čo slúži v súčasnosti rozširovanie dát?