Gegevensfergrutting: essinsjeel foar modellen foar masine-learen

Table of Contents[Ferstopje][Toanje]

Dat, wat is Data Augmentation?
Hokker nut tsjinnet gegevensfergrutting yn it hjoeddeiske?
Soarten gegevensfergrutting+-
- Echte gegevensfergrutting
- Syntetyske gegevensfergrutting
Data Augmentation Techniques+-
Brûk Case
útdagings
Konklúzje

De measte modellen foar masine-learen en djippe learen fertrouwe swier op gegevensbedrach en ferskaat om goed te funksjonearjen. It folume en ferskaat oan gegevens levere tidens training hawwe in wichtige ynfloed op 'e foarsizzingskrektens fan dizze modellen.

Djippe learmodellen dy't binne leard om effektyf út te fieren op yngewikkelde taken omfetsje faak ferburgen neuroanen. It oantal trainbare parameters nimt ta neffens it oantal ferburgen neuroanen.

De hoemannichte gegevens nedich is evenredich mei it oantal model-learbere parameters. Ien metoade foar it omgean mei de swierrichheid fan beheinde gegevens is om in ferskaat oan transformaasjes oan te passen oan 'e hjoeddeistige gegevens om nije gegevens te synthesearjen.

De technyk fan synthesizing nije gegevens út besteande gegevens wurdt oantsjutten as 'Data Augmentation.' Gegevensfergrutting kin brûkt wurde om oan beide easken te foldwaan: it folume fan gegevens en it ferskaat oan trainingsgegevens dy't nedich binne om akkuraat te ûntwikkeljen masine learen of djippe learen modellen.

Yn dit post sille wy nau besjen op gegevensfergrutting, har soarten, wêrom it essensjeel is, en folle mear.

Dat, wat is Data Augmentation?

Data Augmentation is it proses fan it ûntwikkeljen fan nije en represintative gegevens út besteande gegevens. Jo kinne dit berikke troch oanpaste ferzjes fan besteande gegevens op te nimmen of nije gegevens te synthesisearjen.

De datasetten produsearre troch dizze metoade sille ferbetterje jo masine learen of djippe learmodellen troch it minimalisearjen fan it risiko fan overfitting. It is it proses fan feroarjen, of "fergrutsje", in dataset mei oanfoljende ynformaasje.

Dizze oanfoljende ynfier kin fariearje fan ôfbyldings oant tekst, en it fergruttet de prestaasjes fan masine-learsystemen.

Stel dat wy in model wolle bouwe om hûnerassen te kategorisearjen en wy hawwe in grut oantal foto's fan alle soarten útsein pugs. As gefolch soe it model muoite hawwe om pugs te kategorisearjen.

Wy kinne ekstra (echte of falske) foto's fan 'e pug tafoegje oan' e kolleksje, of wy kinne ús hjoeddeistige pug-foto's ferdûbelje (bygelyks troch se te replikearjen en te ferfoarmjen om se keunstmjittich unyk te meitsjen).

Hokker nut tsjinnet gegevensfergrutting yn it hjoeddeiske?

Applikaasjes foar masine learen binne rap ûntwikkeljen en diversifiëren, benammen op it mêd fan djip learen. De útdagings dy't de yndustry foar keunstmjittige yntelliginsje te krijen hat, kinne wurde oerwûn troch techniken foar gegevensfergrutting.

Gegevensfergrutting kin de prestaasjes en útkomsten fan masine-learmodellen ferbetterje troch nije en ferskaat foarbylden ta te foegjen oan datasets foar training.

As de dataset grut en genôch is, docht in masine learmodel better en is krekter. Foar modellen foar masine-learen kin it sammeljen en labeljen fan gegevens tiidslinend en djoer wêze.

Bedriuwen kinne har operasjonele kosten ferminderje troch datasets te feroarjen en strategyen foar gegevensfergrutting te brûken.

Skjinmeitsjen gegevens is ien fan 'e stadia yn' e ûntwikkeling fan in gegevens model, en it is essinsjeel foar hege-accuracy modellen. It model sil lykwols net yn steat wêze om juste ynputs fan 'e eigentlike wrâld te antisipearjen as gegevensreiniging de representabiliteit fermindert.

Masine-learmodellen kinne wurde fersterke troch oanpak fan gegevensfergrutting te brûken, dy't fariaasjes produsearje dy't it model yn 'e eigentlike wrâld koe tsjinkomme.

Soarten gegevensfergrutting

Echte gegevensfergrutting

Echte gegevensfergrutting komt foar as jo echte, oanfoljende gegevens tafoegje oan in dataset. Dit kin fariearje fan tekstbestannen mei ekstra attributen (foar tagged ôfbyldings) oant ôfbyldings fan oare objekten te fergelykjen mei it orizjinele objekt, of sels opnames fan it eigentlike ding.

Bygelyks, troch in pear mear funksjes ta te foegjen oan in ôfbyldingsbestân, kin in masine-learmodel it item makliker ûntdekke.

Mear metadata oer elke ôfbylding (bygelyks syn namme en beskriuwing) kinne wurde opnommen, sadat ús AI-model mear wit oer wat elke ôfbylding foarstelt foardat it begjint mei training op dy foto's.

As it tiid komt om farske foto's te kategorisearjen yn ien fan ús foarbepaalde kategoryen, lykas "kat" of "hûn", soe it model better yn steat wêze kinne om de items te detektearjen dy't oanwêzich binne yn in ôfbylding en as resultaat algemien better prestearje.

Syntetyske gegevens tanimming

Neist it tafoegjen fan mear echte gegevens, kinne jo ek bydrage syntetyske gegevens of keunstmjittige gegevens dy't autentyk lykje.

Dit is foardielich foar lestige taken lykas oerdracht fan neurale styl, mar it is ek goed foar elk ûntwerp, of jo GAN's brûke (Generative Adversarial Networks), CNN's (Convolutional Neural Networks), of oare djippe neurale netwurkarsjitektueren.

Bygelyks, as wy pugs goed kategorisearje wolle sûnder út te gean en in oantal foto's te meitsjen, kinne wy wat falske mopsfoto's tafoegje oan in samling hûnebylden.

Dizze foarm fan gegevensfergrutting is foaral effektyf foar it ferbetterjen fan de krektens fan model as it sammeljen fan gegevens lestich, djoer of tiidslinend is. Yn dizze situaasje wreidzje wy de dataset keunstmjittich út.

Stel dat ús earste groep fan 1000 foto's fan hûnenrassen mar 5 pug-ôfbyldings befettet. Yn stee fan ekstra feitlike pug-foto's fan echte hûnen ta te foegjen, litte wy in nep meitsje troch ien fan 'e hjoeddeistige te klonearjen en it in bytsje te ferfoarmjen, sadat it noch altyd liket op in pug.

Data Augmentation Techniques

Oanpak fan gegevensfergrutting befetsje lytse wizigingen oan besteande gegevens. It is itselde as it omskriuwen fan in ferklearring. Wy kinne gegevensfergrutting ferdielen yn trije kategoryen:

Tekst

Wurdferfanging: Dizze oanpak fan gegevensfergrutting omfettet it ferfangen fan hjoeddeistige termen mei synonimen. As foarbyld kin "Dizze film is dwaas" wurde "Dizze film is idioat."
Sin-/wurd-shuffling: Dizze strategy giet it om it wikseljen fan de folchoarder fan útdrukkingen of wurden, wylst de algemiene gearhing behâldt.
Syntaksis-beammanipulaasje: Jo feroarje in besteande sin om grammatikaal akkuraat te wêzen wylst jo deselde termen brûke.
Willekeurich wiskjen: Hoewol't dizze strategy produsearret ûnsjogge skriuwen, it is effektyf. As resultaat wurdt de rigel "Ik sil dit record net keapje om't it bekrast is" wurdt "Ik sil dit net keapje om't it bekrast is." De sin is minder dúdlik, mar it bliuwt in plausibele oanfolling.
Efteroersetting: Dizze oanpak is sawol effektyf as noflik. Nim in ferklearring dy't yn jo taal skreaun is, oersette it nei in oare taal, en set it dan opnij oer nei jo oarspronklike taal.

Images

Kernelfilters: Dizze oanpak makket in foto skerper of wazig.
Ofbyldingskombinaasje: Hoewol it nuver kin lykje, kinne jo foto's mingje.
Willekeurich wiskje: in lyts diel fan 'e aktuele ôfbylding wiskje.
Geometryske transformaasjes: Dizze oanpak omfettet ûnder oare willekeurich omslaan, rotearjen, snijden of oersetten fan foto's.
In ôfbylding omdraaie: Jo kinne in ôfbylding omdraaie fan horizontale nei fertikale oriïntaasje.
Kleurromtetransformaasje: Jo kinne de RGB-kleurkanalen feroarje of elke hjoeddeistige kleur ferbetterje.
Re-Scaling is it proses fan it oanpassen fan de fisuele skaal. Jo hawwe de opsje fan skaalfergrutting yn of út. As jo nei binnen skaalje, wurdt de ôfbylding lytser dan de earste grutte. De ôfbylding sil grutter wêze as it orizjineel as jo it nei bûten skaalje.

Audio

Pitch: Dizze oanpak giet it om it feroarjen fan de audio-pitch.
Feroarje snelheid: Feroarje de snelheid fan it audiobestân as opname.
Mear lûd: Jo kinne mear lûd tafoegje oan it audiobestân.

Brûk Case

Medyske imaging is op it stuit in prominint gebrûk foar gegevensfergrutting. Medyske fotokolleksjes binne lyts, en it dielen fan gegevens is lestich fanwege regels en privacysoarch.

Fierder binne gegevenssets folle mear beheind yn it gefal fan ûngewoane steuringen. Medyske imagingbedriuwen brûke gegevensfergrutting om har datasets te diversifiëren.

útdagings

Skalberens, ferskate datasets en relevânsje binne guon fan 'e problemen dy't moatte wurde oplost om effisjinte techniken foar gegevensfergrutting te ûntwikkeljen.

Wat skaalberens oanbelanget, moatte fergrutte gegevens skalberber wêze, sadat in protte ferskillende modellen it kinne brûke. Jo wolle derfoar soargje dat dit kin wurde duplikearre foar gebrûk yn takomstige modellen, om't it opsetten fan in gegevensfergruttingsysteem dat in grutte hoemannichte relevante, weardefolle, ferbettere gegevens genereart wat tiid kin duorje.

Yn termen fan heterogeniteit hawwe ferskate datasetten ûnderskate funksjes dy't moatte wurde beskôge by it ûntwikkeljen fan fergrutte gegevens. Om passende ferbettere gegevens te ûntwikkeljen, moatte de eigenskippen fan elke dataset brûkt wurde.

Mei oare wurden, gegevensfergrutting sil ferskille tusken datasets en gebrûksgefallen.

Uteinlik, om te garandearjen dat de foardielen fan 'e ferhege gegevens alle gefaren oertreffe, moatte de fergrutte gegevens wurde evaluearre mei passende metriken foardat se wurde brûkt troch masine-learmodellen.

Bygelyks, de oanwêzigens fan signifikante eftergrûnlûd of net-relatearre items yn ôfbylding-basearre fergrutte gegevens kin in skealike ynfloed hawwe op 'e prestaasjes fan it model.

Konklúzje

Uteinlik, of jo besykje ferlies te foarsizzen, finansjele fraude te identifisearjen, of better te bouwen image klassifikaasje modellen, gegevensfergrutting is in krityske manier om krekter, robúste modellen te bouwen.

Troch in superieure trainingproseduere kinne ienfâldige foarferwurking en gegevensfergrutting sels teams helpe by it ûntwikkeljen fan moderne modellen.

Bedriuwen kinne gegevensfergrutting brûke om de hoemannichte tiid te ferminderjen dy't bestege oan it tarieden fan trainingsgegevens en om masine-learmodellen te meitsjen dy't krekter en rapper binne.

Troch it útwreidzjen fan de kwantiteit fan relevante gegevens yn 'e dataset, kin gegevensfergrutting ek profitearje fan masine-learmodellen dy't al in protte gegevens hawwe.

Gegevensfergrutting: essinsjeel foar modellen foar masine-learen

Dat, wat is Data Augmentation?

Hokker nut tsjinnet gegevensfergrutting yn it hjoeddeiske?