Povećanje podataka: neophodno za modele mašinskog učenja

Sadržaj[Sakrij][Prikaži]

Dakle, šta je povećanje podataka?
Čemu služi povećanje podataka u sadašnjosti?
Vrste povećanja podataka+-
- Realno povećanje podataka
- Sintetičko povećanje podataka
Tehnike povećanja podataka+-
Use Case
Izazovi
zaključak

Većina modela strojnog učenja i dubokog učenja uvelike se oslanjaju na količinu i raznolikost podataka kako bi dobro funkcionirali. Obim i raznovrsnost podataka koji se pružaju tokom obuke imaju značajan uticaj na tačnost predviđanja ovih modela.

Modeli dubokog učenja koji su naučeni da efikasno obavljaju komplikovane zadatke često uključuju skrivene neurone. Broj parametara koji se mogu trenirati povećava se u skladu sa brojem skrivenih neurona.

Količina potrebnih podataka proporcionalna je broju parametara modela koji se mogu naučiti. Jedna metoda za rješavanje poteškoća ograničenih podataka je primjena raznih transformacija na trenutne podatke kako bi se sintetizirali novi podaci.

Tehnika sintetiziranja novih podataka iz postojećih podataka naziva se 'Proširivanje podataka'. Povećanje podataka može se koristiti za ispunjavanje oba zahtjeva: obim podataka i raznolikost podataka o obuci potrebnih za razvoj tačnih mašinsko učenje ili modeli dubokog učenja.

U ovom postu ćemo pomno pogledati povećanje podataka, njegove vrste, zašto je neophodno i još mnogo toga.

Dakle, šta je povećanje podataka?

Povećanje podataka je proces razvoja novih i reprezentativnih podataka iz postojećih podataka. To možete postići tako što ćete uključiti modificirane verzije postojećih podataka ili sintetizirati nove podatke.

Skupovi podataka proizvedeni ovom metodom poboljšat će vaše strojno učenje ili modeli dubokog učenja minimiziranjem rizika od preopterećenja. To je proces promjene, ili „dopunjavanja“ skupa podataka dodatnim informacijama.

Ovaj dodatni unos može se kretati od slika do teksta i poboljšava performanse sistema za mašinsko učenje.

Pretpostavimo da želimo da napravimo model za kategorizaciju pasmina pasa i da imamo veliki broj fotografija svih vrsta osim mopsa. Kao rezultat toga, model bi imao poteškoća u kategorizaciji mopsa.

Mogli bismo dodati dodatne (stvarne ili lažne) fotografije mopsa u kolekciju, ili bismo mogli udvostručiti naše trenutne fotografije mopsa (npr. repliciranjem i iskrivljavanjem kako bi bile umjetno jedinstvene).

Čemu služi povećanje podataka u sadašnjosti?

Applications for mašinsko učenje se brzo razvijaju i diverzifikuju, posebno u oblasti dubokog učenja. Izazovi s kojima se suočava industrija umjetne inteligencije mogu se prevladati kroz tehnike povećanja podataka.

Povećanje podataka može poboljšati performanse i rezultate modela mašinskog učenja dodavanjem novih i raznolikih primjera u skupove podataka za obuku.

Kada je skup podataka velik i dovoljan, model mašinskog učenja radi bolje i precizniji je. Za modele mašinskog učenja, prikupljanje podataka i označavanje može biti dugotrajno i skupo.

Kompanije mogu smanjiti svoje operativne troškove promjenom skupova podataka i korištenjem strategija povećanja podataka.

Čišćenje podataka je jedna od faza u razvoju modela podataka, a bitno je za modele visoke preciznosti. Međutim, model neće moći da predvidi odgovarajuće inpute iz stvarnog sveta ako čišćenje podataka umanji reprezentativnost.

Modeli strojnog učenja mogu se ojačati korištenjem pristupa povećanja podataka, koji proizvode varijacije na koje bi model mogao naići u stvarnom svijetu.

Vrste povećanja podataka

Realno povećanje podataka

Pravo povećanje podataka se dešava kada dodate originalne, dodatne podatke skupu podataka. To može varirati od tekstualnih datoteka s dodatnim atributima (za označene slike) do slika drugih objekata uporedivih s originalnim objektom, ili čak snimki stvarne stvari.

Na primjer, dodavanjem još nekoliko funkcija datoteci slike, model koji uči strojno može lakše otkriti stavku.

Više metapodataka o svakoj slici (npr. njeno ime i opis) može biti uključeno tako da naš AI model zna više o tome šta svaka slika predstavlja prije nego što počne trenirati na tim fotografijama.

Kada dođe vrijeme da se svježe fotografije kategoriziraju u jednu od naših unaprijed određenih kategorija, kao što su "mačka" ili "pas", model bi mogao bolje otkriti stavke koje su prisutne na slici i kao rezultat toga općenito raditi bolje.

Sintetički podaci Povećanje

Osim što dodajete više stvarnih podataka, možete i doprinijeti sintetički podaci ili umjetni podaci koji izgledaju autentični.

Ovo je korisno za teške zadatke poput prijenosa neuronskog stila, ali je također dobro za bilo koji dizajn, bilo da koristite GAN (generativne adversarijske mreže), CNN (konvolucijske neuronske mreže) ili druge arhitekture dubokih neuronskih mreža.

Na primjer, ako želimo pravilno kategorizirati mopse bez potrebe da izlazimo i snimamo nekoliko fotografija, mogli bismo dodati neke lažne fotografije mopsa u kolekciju slika pasa.

Ovaj oblik povećanja podataka je posebno efikasan za povećanje tačnosti modela kada je prikupljanje podataka teško, skupo ili dugotrajno. U ovoj situaciji, umjetno širimo skup podataka.

Pretpostavimo da naša početna grupa od 1000 fotografija pasmina pasa sadrži samo 5 slika mopsa. Umjesto dodavanja dodatnih stvarnih fotografija mopsa od stvarnih pasa, napravimo lažnu kloniranjem jedne od trenutnih i malo je izobličimo tako da i dalje izgleda kao mops.

Tehnike povećanja podataka

Pristupi povećanja podataka podrazumevaju male modifikacije postojećih podataka. To je isto kao i preformulisanje izjave. Povećanje podataka možemo podijeliti u tri kategorije:

tekst

Zamjena riječi: Ovaj pristup povećanja podataka uključuje zamjenu trenutnih pojmova sinonimima. Na primjer, "Ovaj film je glup" može postati "Ovaj film je idiotski".
Mešanje rečenica/reči: Ova strategija uključuje promenu redosleda fraza ili reči uz održavanje sveukupne koherentnosti.
Manipulacija sintaksnim stablom: mijenjate postojeću rečenicu da bude gramatički tačna dok koristite iste termine.
Nasumično brisanje: Iako ova strategija proizvodi ružno pisanje, ona je efikasna. Kao rezultat toga, red "Neću kupiti ovu ploču jer je izgreban" postaje "Neću kupiti ovo jer je izgreban." Fraza je manje jasna, ali ostaje uvjerljiv dodatak.
Povratni prevod: Ovaj pristup je i efikasan i prijatan. Uzmite izjavu napisanu na vašem jeziku, prevedite je na drugi jezik, a zatim je ponovo prevedite na svoj izvorni jezik.

Slike

Kernel filteri: Ovaj pristup izoštrava ili zamagljuje sliku.
Kombinacija slika: Iako može izgledati čudno, možete miješati fotografije.
Nasumično brisanje: Izbrišite mali dio trenutne slike.
Geometrijske transformacije: Ovaj pristup uključuje, između ostalog, proizvoljno okretanje, rotiranje, izrezivanje ili prevođenje slika.
Okretanje slike: Možete okrenuti sliku iz horizontalne u vertikalnu orijentaciju.
Transformacija prostora boja: Možete modificirati RGB kanale boja ili poboljšati bilo koju trenutnu boju.
Ponovno skaliranje je proces prilagođavanja vizualne skale. Imate mogućnost skaliranja ili smanjivanja. Kada skalirate prema unutra, slika postaje manja od početne veličine. Slika će biti veća od originala ako je povećate prema van.

zvučni

Pitch: Ovaj pristup uključuje promjenu tona zvuka.
Promjena brzine: Promijenite brzinu audio datoteke ili snimanja.
Više buke: Možete dodati više šuma audio datoteci.

Use Case

Medicinsko snimanje je trenutno istaknut slučaj upotrebe za povećanje podataka. Kolekcije medicinskih slika su male, a dijeljenje podataka je teško zbog pravila i zabrinutosti za privatnost.

Nadalje, skupovi podataka su mnogo ograničeniji u slučaju neuobičajenih poremećaja. Kompanije koje se bave medicinskim snimanjem koriste povećanje podataka kako bi diverzificirale svoje skupove podataka.

Izazovi

Skalabilnost, različiti skupovi podataka i relevantnost su neki od problema koje treba riješiti kako bi se razvile efikasne tehnike povećanja podataka.

U smislu skalabilnosti, prošireni podaci moraju biti skalabilni tako da ih može koristiti mnogo različitih modela. Trebalo bi da budete sigurni da se ovo može duplicirati za upotrebu u budućim modelima jer postavljanje sistema za povećanje podataka koji generiše veliku količinu relevantnih, vrijednih, poboljšanih podataka može potrajati.

U smislu heterogenosti, različiti skupovi podataka imaju različite karakteristike koje se moraju uzeti u obzir prilikom razvoja proširenih podataka. Da bi se razvili odgovarajući poboljšani podaci, moraju se koristiti svojstva svakog skupa podataka.

Drugim riječima, povećanje podataka će se razlikovati između skupova podataka i slučajeva upotrebe.

Konačno, kako bi se zajamčilo da prednosti povećanih podataka nadmašuju sve opasnosti, proširene podatke treba procijeniti korištenjem odgovarajućih metrika prije nego što ih koriste modeli mašinskog učenja.

Na primjer, prisustvo značajne pozadinske buke ili nepovezanih stavki u proširenim podacima zasnovanim na slici može imati štetan utjecaj na performanse modela.

zaključak

U konačnici, pokušavate li predvidjeti gubitak, identificirati finansijsku prijevaru ili bolje izgraditi klasifikacija slika modela, povećanje podataka je kritičan način za izgradnju preciznijih, robusnijih modela.

Kroz superiornu proceduru obuke, jednostavna predobrada i povećanje podataka mogu čak pomoći timovima u razvoju vrhunskih modela.

Kompanije mogu koristiti povećanje podataka kako bi smanjile količinu vremena koje se troši na pripremu podataka o obuci i kako bi kreirale modele mašinskog učenja koji su precizniji i brži.

Proširujući količinu relevantnih podataka u skupu podataka, povećanje podataka može također koristiti modelima strojnog učenja koji već imaju puno podataka.

Povećanje podataka: neophodno za modele mašinskog učenja

Dakle, šta je povećanje podataka?

Čemu služi povećanje podataka u sadašnjosti?