Povećanje podataka: neophodno za modele strojnog učenja

Pregled sadržaja[Sakriti][Pokazati]

Dakle, što je povećanje podataka?
Čemu služi povećanje podataka u sadašnjosti?
Vrste povećanja podataka+-
- Stvarno povećanje podataka
- Povećanje sintetičkih podataka
Tehnike povećanja podataka+-
Koristite slučaj
Izazovi
Zaključak

Većina modela strojnog učenja i dubokog učenja uvelike se oslanja na količinu i raznolikost podataka kako bi dobro funkcionirali. Količina i raznolikost podataka dobivenih tijekom obuke imaju značajan utjecaj na točnost predviđanja ovih modela.

Modeli dubokog učenja koji su naučeni da učinkovito obavljaju komplicirane zadatke često uključuju skrivene neurone. Broj parametara koji se mogu trenirati povećava se prema broju skrivenih neurona.

Količina potrebnih podataka proporcionalna je broju parametara modela koji se mogu naučiti. Jedna metoda za rješavanje problema ograničenih podataka je primjena različitih transformacija na trenutne podatke kako bi se sintetizirali novi podaci.

Tehnika sintetiziranja novih podataka iz postojećih podataka naziva se 'Proširivanje podataka'. Povećanje podataka može se koristiti za ispunjavanje oba zahtjeva: količina podataka i raznolikost podataka o obuci potrebnih za razvoj točnih modele strojnog učenja ili dubokog učenja.

U ovom ćemo postu pobliže promotriti povećanje podataka, njegove vrste, zašto je bitno i još mnogo toga.

Dakle, što je povećanje podataka?

Povećanje podataka je proces razvoja novih i reprezentativnih podataka iz postojećih podataka. To možete postići uključivanjem modificiranih verzija postojećih podataka ili sintetiziranjem novih podataka.

Skupovi podataka proizvedeni ovom metodom poboljšat će vaše strojno učenje ili modeli dubokog učenja minimiziranjem rizika od prekomjernog opremanja. To je proces mijenjanja ili "povećanja" skupa podataka dodatnim informacijama.

Ovaj dodatni unos može varirati od slika do teksta i poboljšava performanse sustava strojnog učenja.

Pretpostavimo da želimo izgraditi model za kategorizaciju pasmina pasa i imamo veliki broj fotografija svih vrsta osim mopsa. Kao rezultat toga, model bi imao poteškoća s kategorizacijom mopsova.

Mogli bismo dodati dodatne (stvarne ili lažne) fotografije mopsa u zbirku ili bismo mogli udvostručiti naše trenutne fotografije mopsa (npr. repliciranjem i iskrivljavanjem kako bismo ih učinili umjetno jedinstvenima).

Čemu služi povećanje podataka u sadašnjosti?

Aplikacije za stroj za učenje brzo se razvijaju i diverzificiraju, posebno u području dubokog učenja. Izazovi s kojima se industrija umjetne inteligencije suočava mogu se prevladati tehnikama povećanja podataka.

Povećanje podataka može poboljšati izvedbu i rezultate modela strojnog učenja dodavanjem novih i raznolikih primjera skupovima podataka za obuku.

Kada je skup podataka velik i dovoljan, model strojnog učenja radi bolje i točniji je. Za modele strojnog učenja prikupljanje podataka i označavanje mogu biti dugotrajni i skupi.

Tvrtke mogu smanjiti svoje operativne troškove promjenom skupova podataka i korištenjem strategija povećanja podataka.

Čišćenje podataka jedna je od faza u razvoju podatkovnog modela, a ključna je za modele visoke točnosti. Međutim, model neće moći predvidjeti odgovarajuće unose iz stvarnog svijeta ako čišćenje podataka smanji reprezentativnost.

Modeli strojnog učenja mogu se ojačati korištenjem pristupa povećanja podataka, koji proizvode varijacije na koje bi model mogao naići u stvarnom svijetu.

Vrste povećanja podataka

Stvarno povećanje podataka

Stvarno povećanje podataka događa se kada dodate izvorne, dopunske podatke u skup podataka. To može varirati od tekstualnih datoteka s dodatnim atributima (za označene slike) do slika drugih objekata usporedivih s izvornim objektom ili čak snimaka stvarne stvari.

Na primjer, dodavanjem još nekoliko značajki slikovnoj datoteci, model strojnog učenja može lakše otkriti stavku.

Više metapodataka o svakoj slici (npr. njezino ime i opis) može biti uključeno tako da naš AI model zna više o tome što svaka slika predstavlja prije nego što započne obuku na tim fotografijama.

Kada dođe vrijeme za kategoriziranje novih fotografija u jednu od naših unaprijed određenih kategorija, kao što su "mačka" ili "pas", model bi mogao bolje detektirati stavke koje su prisutne na slici i kao rezultat toga bolje funkcionirati.

Sintetički podaci Povećanje

Osim dodavanja stvarnijih podataka, možete i pridonijeti sintetički podaci ili umjetnih podataka koji se čine autentičnima.

Ovo je korisno za teške zadatke kao što je prijenos neuralnog stila, ali je također dobro za bilo koji dizajn, bez obzira koristite li GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks) ili druge arhitekture dubokih neuronskih mreža.

Na primjer, ako želimo pravilno kategorizirati mopsove, a da ne moramo izaći van i snimiti niz fotografija, mogli bismo dodati neke lažne fotografije mopsa u kolekciju slika pasa.

Ovaj oblik povećanja podataka posebno je učinkovit za povećanje točnosti modela kada je prikupljanje podataka teško, skupo ili dugotrajno. U ovoj situaciji umjetno proširujemo skup podataka.

Pretpostavimo da naša početna grupa od 1000 fotografija pasmina pasa sadrži samo 5 slika mopsa. Umjesto dodavanja dodatnih stvarnih fotografija mopsa pravih pasa, stvorimo lažnu kloniranjem jedne od postojećih i lagano je iskrivivši tako da i dalje izgleda kao mops.

Tehnike povećanja podataka

Pristupi povećanju podataka podrazumijevaju male izmjene postojećih podataka. To je isto kao da preformulirate izjavu. Povećanje podataka možemo podijeliti u tri kategorije:

Tekst

Zamjena riječi: Ovaj pristup povećanju podataka uključuje zamjenu trenutnih izraza sinonimima. Na primjer, "Ovaj film je glup" može postati "Ovaj film je idiotski".
Mijenjanje rečenica/riječi: ova strategija uključuje promjenu slijeda fraza ili riječi uz održavanje sveukupne koherencije.
Manipulacija stablom sintakse: Mijenjate postojeću rečenicu da bude gramatički točna dok koristite iste pojmove.
Nasumično brisanje: iako ova strategija proizvodi ružno pisanje, učinkovita je. Kao rezultat toga, redak "Neću kupiti ovu ploču jer je izgrebana" postaje "Neću kupiti ovu jer je izgrebana." Izraz je manje jasan, ali ostaje uvjerljiv dodatak.
Povratak prijevoda: Ovaj pristup je učinkovit i ugodan. Uzmite izjavu napisanu na svom jeziku, prevedite je na drugi jezik, a zatim je ponovno prevedite na svoj izvorni jezik.

Slike

Kernel filteri: Ovaj pristup izoštrava ili zamućuje sliku.
Kombinacija slika: Iako se može činiti čudnim, možete kombinirati fotografije.
Nasumično brisanje: Izbrišite maleni dio trenutne slike.
Geometrijske transformacije: Ovaj pristup uključuje, između ostalog, proizvoljno okretanje, rotiranje, obrezivanje ili prevođenje slika.
Okretanje slike: Možete okrenuti sliku iz vodoravne u okomitu orijentaciju.
Transformacija prostora boja: možete modificirati RGB kanale boja ili poboljšati bilo koju trenutnu boju.
Re-Scaling je proces prilagođavanja vizualne ljestvice. Imate mogućnost povećanja ili smanjivanja. Kada skalirate prema unutra, slika postaje manja od početne veličine. Slika će biti veća od originala ako je smanjite prema van.

zvučni

Visina: Ovaj pristup uključuje promjenu visine zvuka.
Promjena brzine: Promjena brzine audio datoteke ili snimke.
Više šuma: možete dodati više šuma audio datoteci.

Koristite slučaj

Medicinske slike trenutno su istaknuti slučaj upotrebe za povećanje podataka. Zbirke medicinskih slika su male, a dijeljenje podataka je teško zbog pravila i brige o privatnosti.

Nadalje, skupovi podataka mnogo su ograničeniji u slučaju neuobičajenih poremećaja. Tvrtke za medicinske slike koriste povećanje podataka kako bi diverzificirale svoje skupove podataka.

Izazovi

Skalabilnost, različiti skupovi podataka i relevantnost neka su od pitanja koja je potrebno riješiti kako bi se razvile učinkovite tehnike povećanja podataka.

U smislu skalabilnosti, prošireni podaci moraju biti skalabilni kako bi ih mnogi različiti modeli mogli koristiti. Htjet ćete biti sigurni da se to može duplicirati za korištenje u budućim modelima budući da postavljanje sustava za povećanje podataka koji generira veliku količinu relevantnih, vrijednih, poboljšanih podataka može potrajati neko vrijeme.

U smislu heterogenosti, različiti skupovi podataka imaju različite značajke koje se moraju uzeti u obzir pri razvoju proširenih podataka. Za razvoj odgovarajućih poboljšanih podataka moraju se koristiti svojstva svakog skupa podataka.

Drugim riječima, povećanje podataka razlikovat će se između skupova podataka i slučajeva upotrebe.

Naposljetku, kako bi se zajamčilo da prednosti povećanih podataka premašuju sve opasnosti, proširene podatke treba procijeniti pomoću odgovarajućih metrika prije nego što ih iskoriste modeli strojnog učenja.

Na primjer, prisutnost značajne pozadinske buke ili nepovezanih stavki u proširenim podacima temeljenim na slici mogla bi imati štetan utjecaj na performanse modela.

Zaključak

U konačnici, bilo da pokušavate predvidjeti gubitak, identificirati financijsku prijevaru ili bolje konstruirati klasifikacija slika modela, povećanje podataka ključan je način za izgradnju preciznijih, robusnijih modela.

Kroz superiornu proceduru obuke, jednostavna predobrada i povećanje podataka mogu čak pomoći timovima u razvoju vrhunskih modela.

Tvrtke mogu koristiti povećanje podataka kako bi smanjile količinu vremena utrošenog na pripremu podataka za obuku i stvorile modele strojnog učenja koji su precizniji i brži.

Proširivanjem količine relevantnih podataka u skupu podataka, povećanje podataka također može koristiti modelima strojnog učenja koji već imaju puno podataka.

Povećanje podataka: neophodno za modele strojnog učenja

Dakle, što je povećanje podataka?

Čemu služi povećanje podataka u sadašnjosti?