Razširitev podatkov: bistveno za modele strojnega učenja

Kazalo[Skrij][Pokaži]

Torej, kaj je povečanje podatkov?
Čemu služi povečanje podatkov v sedanjosti?
Vrste povečave podatkov+-
- Pravo povečanje podatkov
- Povečanje sintetičnih podatkov
Tehnike povečanja podatkov+-
Uporabi zadevo
Izzivi
zaključek

Večina modelov strojnega in globokega učenja se za dobro delovanje močno zanaša na količino in raznolikost podatkov. Obseg in raznolikost podatkov, zagotovljenih med usposabljanjem, pomembno vplivata na točnost napovedovanja teh modelov.

Modeli globokega učenja, ki so bili naučeni za učinkovito izvajanje zapletenih nalog, pogosto vključujejo skrite nevrone. Število parametrov, ki jih je mogoče učiti, se poveča glede na število skritih nevronov.

Količina zahtevanih podatkov je sorazmerna s številom učljivih parametrov modela. Ena od metod za reševanje težav z omejenimi podatki je uporaba različnih transformacij trenutnih podatkov za sintezo novih podatkov.

Tehnika sintetiziranja novih podatkov iz obstoječih podatkov se imenuje "Razširitev podatkov". Povečanje podatkov je mogoče uporabiti za izpolnjevanje obeh zahtev: količine podatkov in raznolikosti podatkov o usposabljanju, potrebnih za razvoj natančnega strojno učenje ali modeli globokega učenja.

V tem prispevku si bomo podrobneje ogledali povečevanje podatkov, njegove vrste, zakaj je nujno in še veliko več.

Torej, kaj je povečanje podatkov?

Razširitev podatkov je proces razvoja novih in reprezentativnih podatkov iz obstoječih podatkov. To lahko dosežete tako, da vključite spremenjene različice obstoječih podatkov ali sintetizirate nove podatke.

Nabori podatkov, proizvedeni s to metodo, bodo izboljšali vaše strojno učenje oz modeli globokega učenja z zmanjšanjem tveganja prekomernega opremljanja. To je postopek spreminjanja ali "povečanja" nabora podatkov z dodatnimi informacijami.

Ta dodatni vnos se lahko giblje od slik do besedila in povečuje učinkovitost sistemov strojnega učenja.

Recimo, da želimo zgraditi model za kategorizacijo pasem psov in imamo veliko število fotografij vseh vrst razen mopsov. Posledično bi imel model težave pri kategorizaciji mopsov.

V zbirko bi lahko dodali dodatne (dejanske ali lažne) fotografije mopsov ali pa podvojili svoje trenutne fotografije mopsov (npr. tako, da bi jih posnemali in popačili, da bi bile umetno edinstvene).

Čemu služi povečanje podatkov v sedanjosti?

Vloge za strojno učenje se hitro razvijajo in diverzificirajo, predvsem na področju globokega učenja. Izzive, s katerimi se sooča industrija umetne inteligence, je mogoče premagati s tehnikami dopolnjevanja podatkov.

Razširitev podatkov lahko izboljša učinkovitost in rezultate modelov strojnega učenja z dodajanjem novih in raznolikih primerov naborom podatkov za usposabljanje.

Ko je nabor podatkov velik in zadosten, model strojnega učenja deluje bolje in je natančnejši. Za modele strojnega učenja je lahko zbiranje podatkov in označevanje zamudno in drago.

Podjetja lahko zmanjšajo svoje operativne stroške s spreminjanjem naborov podatkov in uporabo strategij za povečevanje podatkov.

Čiščenje podatkov je ena od stopenj v razvoju podatkovnega modela in je bistvenega pomena za modele z visoko natančnostjo. Vendar pa model ne bo mogel predvideti ustreznih vnosov iz dejanskega sveta, če čiščenje podatkov zmanjša predstavljivost.

Modele strojnega učenja je mogoče okrepiti z uporabo pristopov povečanja podatkov, ki ustvarjajo razlike, na katere bi lahko model naletel v dejanskem svetu.

Vrste povečave podatkov

Pravo povečanje podatkov

Do resničnega povečanja podatkov pride, ko naboru podatkov dodate pristne, dopolnilne podatke. To lahko sega od besedilnih datotek z dodatnimi atributi (za označene slike) do slik drugih predmetov, primerljivih z izvirnim predmetom, ali celo posnetkov dejanske stvari.

Na primer, če slikovni datoteki dodate še nekaj funkcij, lahko model strojnega učenja element lažje zazna.

Morda je vključenih več metapodatkov o vsaki sliki (npr. njeno ime in opis), tako da naš model AI ve več o tem, kaj posamezna slika predstavlja, preden se začne učiti na teh fotografijah.

Ko pride čas za kategorizacijo svežih fotografij v eno od vnaprej določenih kategorij, na primer »mačka« ali »pes«, bo model lahko bolje zaznal elemente, ki so prisotni na sliki, in posledično na splošno bolje deloval.

Sintetični podatki Povečanje

Poleg dodajanja več resničnih podatkov lahko tudi prispevate sintetični podatki ali umetni podatki, ki se zdijo verodostojni.

To je koristno za težke naloge, kot je prenos nevronskih slogov, vendar je dobro tudi za kakršno koli zasnovo, ne glede na to, ali uporabljate GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks) ali druge globoke arhitekture nevronskih mrež.

Na primer, če želimo pravilno kategorizirati mopse, ne da bi morali iti ven in narediti številne fotografije, lahko v zbirko slik psov dodamo nekaj lažnih fotografij mopsov.

Ta oblika povečave podatkov je še posebej učinkovita za izboljšanje natančnosti modela, kadar je zbiranje podatkov težko, drago ali dolgotrajno. V tej situaciji umetno širimo nabor podatkov.

Predpostavimo, da naša prva skupina 1000 fotografij pasme psov vsebuje le 5 slik mopsov. Namesto dodajanja dejanskih fotografij mopsov iz resničnih psov, raje ustvarimo ponarejeno tako, da kloniramo eno od trenutnih in jo nekoliko popačimo, da bo še vedno videti kot mops.

Tehnike povečanja podatkov

Pristopi povečanja podatkov vključujejo majhne spremembe obstoječih podatkov. To je enako kot preoblikovati izjavo. Povečevanje podatkov lahko razdelimo v tri kategorije:

Besedilo

Zamenjava besed: Ta pristop povečanja podatkov vključuje zamenjavo trenutnih izrazov s sinonimi. Na primer, "Ta film je neumen" lahko postane "Ta film je idiotski."
Mešanje stavkov/besed: Ta strategija vključuje preklapljanje zaporedja stavkov ali besed ob ohranjanju splošne skladnosti.
Manipulacija sintaksnega drevesa: spremenite obstoječi stavek, da bo slovnično točen, medtem ko uporabljate iste izraze.
Naključno brisanje: Čeprav ta strategija povzroči grdo pisanje, je učinkovita. Kot rezultat, vrstica »Ne bom kupil tega zapisa, ker je opraskan« postane »Ne bom kupil tega, ker je opraskan«. Stavek je manj jasen, vendar ostaja verjeten dodatek.
Prevod nazaj: Ta pristop je hkrati učinkovit in prijeten. Vzemite izjavo, napisano v svojem jeziku, jo prevedite v drug jezik in jo nato ponovno prevedite nazaj v izvirni jezik.

slike

Filtri jedra: ta pristop izostri ali zamegli sliko.
Kombinacija slik: Čeprav se morda zdi čudno, lahko fotografije mešate.
Naključno brisanje: Izbrišite majhen del trenutne slike.
Geometrijske transformacije: Ta pristop med drugim vključuje poljubno obračanje, vrtenje, obrezovanje ali prevajanje slik.
Obračanje slike: Sliko lahko obrnete iz vodoravne v navpično usmerjenost.
Transformacija barvnega prostora: spremenite lahko barvne kanale RGB ali izboljšate katero koli trenutno barvo.
Re-Scaling je postopek prilagajanja vizualne lestvice. Imate možnost povečanja ali pomanjšanja. Ko povečate navznoter, postane slika manjša od začetne velikosti. Slika bo večja od izvirnika, če jo povečate navzven.

Audio

Višina: ta pristop vključuje spreminjanje višine zvoka.
Spremeni hitrost: spremenite hitrost zvočne datoteke ali posnetka.
Več šuma: zvočni datoteki lahko dodate več šuma.

Uporabi zadevo

Medicinsko slikanje je trenutno pomemben primer uporabe za povečanje podatkov. Zbirke medicinskih slik so majhne, izmenjava podatkov pa je težavna zaradi pravil in skrbi glede zasebnosti.

Poleg tega so nabori podatkov veliko bolj omejeni v primeru občasnih motenj. Podjetja za medicinsko slikanje uporabljajo povečavo podatkov za diverzifikacijo svojih podatkovnih nizov.

Izzivi

Razširljivost, raznoliki nabori podatkov in ustreznost so nekatera vprašanja, ki jih je treba rešiti, da bi razvili učinkovite tehnike povečanja podatkov.

Kar zadeva razširljivost, morajo biti razširjeni podatki razširljivi, da jih lahko uporablja veliko različnih modelov. Prepričati se boste želeli, da se to lahko podvoji za uporabo v prihodnjih modelih, saj lahko nastavitev sistema za povečanje podatkov, ki ustvari veliko količino ustreznih, dragocenih, izboljšanih podatkov, traja nekaj časa.

Kar zadeva heterogenost, imajo različni nabori podatkov različne značilnosti, ki jih je treba upoštevati pri razvoju razširjenih podatkov. Za razvoj ustreznih izboljšanih podatkov je treba uporabiti lastnosti vsakega nabora podatkov.

Z drugimi besedami, povečanje podatkov se bo razlikovalo med nizi podatkov in primeri uporabe.

Nazadnje, da bi zagotovili, da prednosti povečanih podatkov presegajo morebitna tveganja, je treba razširjene podatke ovrednotiti z ustreznimi metrikami, preden jih uporabijo modeli strojnega učenja.

Na primer, prisotnost znatnega hrupa v ozadju ali nepovezanih elementov v razširjenih podatkih, ki temeljijo na slikah, bi lahko škodljivo vplivala na delovanje modela.

zaključek

Konec koncev, ne glede na to, ali poskušate napovedati izgubo, prepoznati finančne goljufije ali bolje zgraditi klasifikacija slik modelov, je povečanje podatkov kritičen način za izdelavo natančnejših, robustnejših modelov.

Z vrhunskim postopkom usposabljanja lahko preprosta predprocesiranje in povečanje podatkov celo pomaga ekipam pri razvoju najsodobnejših modelov.

Podjetja lahko uporabijo razširitev podatkov za zmanjšanje količine časa, porabljenega za pripravo podatkov o usposabljanju, in za ustvarjanje modelov strojnega učenja, ki so natančnejši in hitrejši.

Z razširitvijo količine ustreznih podatkov v naboru podatkov lahko povečanje podatkov koristi tudi modelom strojnega učenja, ki že imajo veliko podatkov.

Razširitev podatkov: bistveno za modele strojnega učenja

Torej, kaj je povečanje podatkov?

Čemu služi povečanje podatkov v sedanjosti?