Datavergroting: noodsaaklik vir masjienleermodelle

INHOUDSOPGAWE[Versteek][Wys]

So, wat is datavergroting?
Watter nut dien datavergroting in die hede?
Tipes datavergroting+-
- Werklike datavergroting
- Sintetiese datavergroting
Datavergrotingstegnieke+-
Gebruiksgeval
Uitdagings
Gevolgtrekking

Die meeste masjienleer- en diepleermodelle maak baie staat op die hoeveelheid data en verskeidenheid om goed te funksioneer. Die volume en diversiteit van data wat tydens opleiding verskaf word, het 'n beduidende impak op die voorspelling akkuraatheid van hierdie modelle.

Diep leermodelle wat geleer is om effektief op ingewikkelde take uit te voer, sluit dikwels verborge neurone in. Die aantal opleibare parameters neem toe volgens die aantal versteekte neurone.

Die hoeveelheid data wat benodig word, is eweredig aan die aantal model-leerbare parameters. Een metode om die moeilikheid van beperkte data te hanteer, is om 'n verskeidenheid transformasies op die huidige data toe te pas om nuwe data te sintetiseer.

Die tegniek om nuwe data uit bestaande data te sintetiseer, word na verwys as 'Datavergroting'. Datavergroting kan gebruik word om aan beide vereistes te voldoen: die volume data en die verskeidenheid van die opleidingsdata wat benodig word om akkuraat te ontwikkel masjienleer- of diepleermodelle.

In hierdie pos sal ons noukeurig kyk na datavergroting, die tipes daarvan, hoekom dit noodsaaklik is, en nog baie meer.

So, wat is datavergroting?

Datavergroting is die proses om nuwe en verteenwoordigende data uit bestaande data te ontwikkel. Jy kan dit bereik deur gewysigde weergawes van bestaande data in te sluit of nuwe data te sintetiseer.

Die datastelle wat deur hierdie metode vervaardig word, sal jou masjienleer of diep leermodelle deur die risiko van oorpas te verminder. Dit is die proses om 'n datastel met bykomende inligting te verander, of "aan te vul".

Hierdie aanvullende invoer kan wissel van beelde tot teks, en dit verhoog die werkverrigting van masjienleerstelsels.

Gestel ons wil 'n model bou om honderasse te kategoriseer en ons het 'n groot aantal foto's van alle variëteite behalwe pugs. As gevolg hiervan sou die model probleme ondervind om pugs te kategoriseer.

Ons kan addisionele (werklike of valse) mopshondfoto's by die versameling voeg, of ons kan ons huidige mopshondfoto's verdubbel (bv. deur hulle te repliseer en te verdraai om hulle kunsmatig uniek te maak).

Watter nut dien datavergroting in die hede?

Aansoeke vir machine learning ontwikkel en diversifiseer vinnig, veral op die gebied van diep leer. Die uitdagings wat die kunsmatige intelligensie-industrie in die gesig staar, kan oorkom word deur datavergrotingstegnieke.

Datavergroting kan die werkverrigting en uitkomste van masjienleermodelle verbeter deur nuwe en diverse voorbeelde by opleidingdatastelle by te voeg.

Wanneer die datastel groot en voldoende is, presteer 'n masjienleermodel beter en is dit meer akkuraat. Vir masjienleermodelle kan data-insameling en etikettering tydrowend en duur wees.

Maatskappye kan hul bedryfskoste verminder deur datastelle te verander en datavergrotingstrategieë te gebruik.

Skoonmaak van data is een van die stadiums in die ontwikkeling van 'n datamodel, en dit is noodsaaklik vir hoë-akkuraatheid modelle. Die model sal egter nie in staat wees om behoorlike insette van die werklike wêreld te verwag as die skoonmaak van data verteenwoordigbaarheid verminder nie.

Masjienleermodelle kan versterk word deur datavergrotingsbenaderings te gebruik, wat afwykings veroorsaak wat die model in die werklike wêreld kan teëkom.

Tipes datavergroting

Werklike datavergroting

Werklike datavergroting vind plaas wanneer jy egte, aanvullende data by 'n datastel voeg. Dit kan wissel van tekslêers met bykomende eienskappe (vir gemerkte prente) tot beelde van ander voorwerpe wat vergelykbaar is met die oorspronklike voorwerp, of selfs opnames van die werklike ding.

Byvoorbeeld, deur nog 'n paar kenmerke by 'n beeldlêer te voeg, kan 'n masjienleermodel die item makliker opspoor.

Meer metadata oor elke prent (bv. die naam en beskrywing daarvan) kan ingesluit word sodat ons KI-model meer weet oor wat elke prent verteenwoordig voordat dit op daardie foto's begin oefen.

Wanneer dit tyd word om vars foto's in een van ons voorafbepaalde kategorieë te kategoriseer, soos "kat" of "hond", kan die model beter in staat wees om die items wat in 'n beeld voorkom op te spoor en as gevolg daarvan in die algemeen beter te presteer.

Sintetiese data toename

Behalwe om meer werklike data by te voeg, kan jy ook bydra sintetiese data of kunsmatige data wat outentiek lyk.

Dit is voordelig vir moeilike take soos neurale styloordrag, maar dit is ook goed vir enige ontwerp, of jy GAN's (Generative Adversarial Networks), CNN's (Convolutional Neural Networks) of ander diep neurale netwerkargitekture gebruik.

Byvoorbeeld, as ons pugs behoorlik wil kategoriseer sonder om uit te gaan en 'n aantal foto's te neem, kan ons 'n paar vals pug-foto's by 'n versameling hondebeelde voeg.

Hierdie vorm van datavergroting is veral effektief om modelakkuraatheid te verbeter wanneer die insameling van data moeilik, duur of tydrowend is. In hierdie situasie brei ons die datastel kunsmatig uit.

Aanvaar dat ons aanvanklike groep van 1000 honde rasse foto's slegs 5 pug beelde bevat. Eerder as om bykomende werklike pug-foto's van regte honde by te voeg, kom ons skep 'n vals een deur een van die huidige te kloneer en dit effens te verdraai sodat dit steeds soos 'n pug lyk.

Datavergrotingstegnieke

Datavergrotingsbenaderings behels dat min wysigings aan bestaande data gemaak word. Dit is dieselfde as om 'n stelling te herformuleer. Ons kan datavergroting in drie kategorieë verdeel:

Teks

Woordvervanging: Hierdie datavergrotingsbenadering sluit in die vervanging van huidige terme met sinonieme. As 'n voorbeeld, "Hierdie film is dwaas" kan "Hierdie film is idioot" word.
Sin/Woordskommeling: Hierdie strategie behels die omskakeling van die volgorde van frases of woorde terwyl algehele samehang behou word.
Sintaksis-boommanipulasie: Jy verander 'n bestaande sin om grammatikaal akkuraat te wees terwyl jy dieselfde terme gebruik.
Ewekansige skrapping: Alhoewel hierdie strategie lelike skryfwerk lewer, is dit effektief. Gevolglik word die reël "Ek sal nie hierdie rekord koop nie, want dit is gekrap" word "Ek sal dit nie koop nie omdat dit gekrap is." Die frase is minder duidelik, maar dit bly 'n aanneemlike toevoeging.
Terugvertaling: Hierdie benadering is beide effektief en aangenaam. Neem 'n stelling wat in jou taal geskryf is, vertaal dit na 'n ander taal en vertaal dit dan terug na jou oorspronklike taal.

Images

Kernfilters: Hierdie benadering verskerp of vervaag 'n prentjie.
Beeldkombinasie: Alhoewel dit dalk vreemd lyk, kan jy foto's meng.
Vee lukraak uit: Vee 'n klein gedeelte van die huidige prent uit.
Meetkundige Transformasies: Hierdie benadering behels onder andere die arbitrêr omdraai, draai, sny of vertaal van prente.
Om 'n prent om te draai: Jy kan 'n prent van horisontale na vertikale oriëntasie omdraai.
Kleurruimtetransformasie: Jy kan die RGB-kleurkanale verander of enige huidige kleur verbeter.
Herskaling is die proses om die visuele skaal aan te pas. Jy het die opsie om in of uit te skaal. Wanneer jy na binne skaal, word die prent kleiner as die aanvanklike grootte. Die prentjie sal groter as die oorspronklike wees as jy dit uitwaarts skaal.

Audio

Toonhoogte: Hierdie benadering behels die verandering van die klanktoonhoogte.
Verander spoed: Verander die spoed van die klanklêer of opname.
Meer geraas: Jy kan meer geraas by die oudiolêer voeg.

Gebruiksgeval

Mediese beeldvorming is tans 'n prominente gebruiksgeval vir datavergroting. Mediese prentversamelings is klein, en die deel van data is moeilik as gevolg van reëls en privaatheidskwessies.

Verder is datastelle baie meer beperk in die geval van ongewone afwykings. Mediese beeldmaatskappye gebruik datavergroting om hul datastelle te diversifiseer.

Uitdagings

Skaalbaarheid, diverse datastelle en relevansie is van die kwessies wat opgelos moet word om doeltreffende datavergrotingstegnieke te ontwikkel.

Wat skaalbaarheid betref, moet uitgebreide data skaalbaar wees sodat baie verskillende modelle dit kan gebruik. Jy sal seker wil maak dat dit gedupliseer kan word vir gebruik in toekomstige modelle, aangesien die opstel van 'n datavergrotingstelsel wat 'n groot hoeveelheid relevante, waardevolle, verbeterde data genereer, 'n geruime tyd kan neem.

Wat heterogeniteit betref, het verskeie datastelle verskillende kenmerke wat in ag geneem moet word tydens die ontwikkeling van aangevulde data. Om toepaslike verbeterde data te ontwikkel, moet die eienskappe van elke datastel benut word.

Met ander woorde, datavergroting sal verskil tussen datastelle en gebruiksgevalle.

Ten slotte, om te verseker dat die voordele van die verhoogde data enige gevare oorskry, moet die vermeerderde data geëvalueer word met behulp van geskikte maatstawwe voordat dit deur masjienleermodelle gebruik word.

Byvoorbeeld, die teenwoordigheid van beduidende agtergrondgeraas of onverwante items in beeldgebaseerde aangevulde data kan 'n nadelige impak op die werkverrigting van die model hê.

Gevolgtrekking

Uiteindelik, of jy probeer om verlies te voorspel, finansiële bedrog te identifiseer of beter te bou beeld klassifikasie modelle, is datavergroting 'n kritieke manier om meer akkurate, robuuste modelle te bou.

Deur 'n voortreflike opleidingsprosedure kan eenvoudige voorverwerking en datavergroting selfs spanne help om die nuutste modelle te ontwikkel.

Besighede kan datavergroting gebruik om die hoeveelheid tyd wat spandeer word aan die voorbereiding van opleidingsdata te verminder en om masjienleermodelle te skep wat meer akkuraat en vinniger is.

Deur die hoeveelheid pertinente data in die datastel uit te brei, kan datavergroting ook masjienleermodelle bevoordeel wat reeds baie data het.

Datavergroting: noodsaaklik vir masjienleermodelle

So, wat is datavergroting?

Watter nut dien datavergroting in die hede?