Pagpapalaki ng Data : Mahalaga para sa Mga Modelo ng Machine Learning

Talaan ng nilalaman[Tago][Ipakita]

Kaya, ano ang Data Augmentation?
Ano ang gamit ng data augmentation sa kasalukuyan?
Mga Uri ng Data Augmentation+-
- Real data augmentation
- Sintetikong Pagpapalaki ng Data
Mga Teknik sa Pagpapalaki ng Data+-
Gamitin ang Kaso
Hamon
Konklusyon

Karamihan sa mga modelo ng machine learning at deep learning ay lubos na umaasa sa dami at pagkakaiba-iba ng data upang gumana nang maayos. Ang dami at pagkakaiba-iba ng data na ibinigay sa panahon ng pagsasanay ay may malaking epekto sa katumpakan ng hula ng mga modelong ito.

Ang mga modelo ng malalim na pag-aaral na itinuro na epektibong gumanap sa mga kumplikadong gawain ay madalas na kasama ang mga nakatagong neuron. Ang bilang ng mga nasasanay na parameter ay tumataas ayon sa bilang ng mga nakatagong neuron.

Ang dami ng data na kinakailangan ay proporsyonal sa bilang ng mga parameter na matututuhan ng modelo. Ang isang paraan para sa pagharap sa kahirapan ng limitadong data ay ang paglalapat ng iba't ibang pagbabago sa kasalukuyang data upang mag-synthesize ng bagong data.

Ang pamamaraan ng pag-synthesize ng bagong data mula sa umiiral na data ay tinutukoy bilang 'Data Augmentation.' Maaaring gamitin ang pagpapalaki ng data upang matupad ang parehong mga kinakailangan: ang dami ng data at ang iba't ibang data ng pagsasanay na kinakailangan upang makabuo ng tumpak machine learning o deep learning models.

Sa post na ito, titingnan nating mabuti ang pagpapalaki ng data, mga uri nito, kung bakit ito mahalaga, at marami pang iba.

Kaya, ano ang Data Augmentation?

Ang Data Augmentation ay ang proseso ng pagbuo ng bago at kinatawan ng data mula sa umiiral na data. Magagawa mo ito sa pamamagitan ng pagsasama ng mga binagong bersyon ng kasalukuyang data o pag-synthesize ng bagong data.

Ang mga dataset na ginawa ng paraang ito ay magpapahusay sa iyong machine learning o malalim na mga modelo ng pag-aaral sa pamamagitan ng pagliit ng panganib ng overfitting. Ito ay ang proseso ng pagbabago, o "pagpapalaki," isang dataset na may karagdagang impormasyon.

Ang karagdagang input na ito ay maaaring mula sa mga larawan hanggang sa text, at pinapalakas nito ang performance ng mga machine learning system.

Ipagpalagay na gusto naming bumuo ng isang modelo upang maikategorya ang mga lahi ng aso at mayroon kaming isang malaking bilang ng mga larawan ng lahat ng uri maliban sa mga pugs. Bilang isang resulta, ang modelo ay mahihirapan sa pagkategorya ng mga pug.

Maaari kaming magdagdag ng karagdagang (aktwal o mali) na mga larawan ng pug sa koleksyon, o maaari naming doblehin ang aming kasalukuyang mga larawan ng pug (hal.

Ano ang gamit ng data augmentation sa kasalukuyan?

Mga application para sa machine learning ay mabilis na umuunlad at nag-iiba-iba, lalo na sa larangan ng malalim na pag-aaral. Ang mga hamon na kinakaharap ng industriya ng artificial intelligence ay maaaring malampasan sa pamamagitan ng mga diskarte sa pagpapalaki ng data.

Maaaring pahusayin ng pagpapalaki ng data ang performance at mga resulta ng mga modelo ng machine learning sa pamamagitan ng pagdaragdag ng mga bago at magkakaibang halimbawa sa mga dataset ng pagsasanay.

Kapag ang dataset ay malaki at sapat, ang isang machine learning model ay gumaganap nang mas mahusay at mas tumpak. Para sa mga modelo ng machine learning, maaaring magtagal at magastos ang pangangalap ng data at pag-label.

Maaaring bawasan ng mga kumpanya ang kanilang mga gastos sa pagpapatakbo sa pamamagitan ng pagbabago ng mga dataset at paggamit ng mga diskarte sa pagpapalaki ng data.

Ang paglilinis ng data ay isa sa mga yugto sa pagbuo ng isang modelo ng data, at ito ay mahalaga para sa mga modelong may mataas na katumpakan. Gayunpaman, hindi mahuhulaan ng modelo ang mga wastong input mula sa aktwal na mundo kung ang paglilinis ng data ay bumababa sa representasyon.

Maaaring palakasin ang mga modelo ng machine learning sa pamamagitan ng paggamit ng mga diskarte sa pagpapalaki ng data, na gumagawa ng mga pagkakaiba-iba na maaaring maranasan ng modelo sa aktwal na mundo.

Mga Uri ng Data Augmentation

Real data augmentation

Ang tunay na pagpapalaki ng data ay nangyayari kapag nagdagdag ka ng tunay, karagdagang data sa isang dataset. Ito ay maaaring mula sa mga text file na may mga karagdagang katangian (para sa mga naka-tag na larawan) hanggang sa mga larawan ng iba pang mga bagay na maihahambing sa orihinal na bagay, o kahit na mga pag-record ng aktwal na bagay.

Halimbawa, sa pamamagitan ng pagdaragdag ng ilan pang feature sa isang image file, mas madaling matukoy ng isang machine-learning model ang item.

Maaaring isama ang higit pang metadata tungkol sa bawat larawan (hal., pangalan at paglalarawan nito) upang mas malaman ng aming modelo ng AI kung ano ang kinakatawan ng bawat larawan bago ito magsimula ng pagsasanay sa mga larawang iyon.

Pagdating ng oras upang ikategorya ang mga sariwang larawan sa isa sa aming mga paunang natukoy na kategorya, tulad ng "pusa" o "aso," mas magagawa ng modelo na matukoy ang mga item na naroroon sa isang larawan at mas mahusay na gumanap bilang isang resulta.

Sintetikong Data pagtaas

Bukod sa pagdaragdag ng mas totoong data, maaari ka ring mag-ambag sintetikong data o artipisyal na data na tila tunay.

Ito ay kapaki-pakinabang para sa mahihirap na gawain tulad ng neural style transfer, ngunit ito ay mabuti rin para sa anumang disenyo, kung gumagamit ka man ng mga GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks), o iba pang malalim na neural network architecture.

Halimbawa, kung gusto naming maayos na ikategorya ang mga pug nang hindi kinakailangang lumabas at kumuha ng ilang larawan, maaari kaming magdagdag ng ilang maling larawan ng pug sa isang koleksyon ng mga larawan ng aso.

Ang anyo ng pagpapalaki ng data ay lalong epektibo para sa pagpapahusay ng katumpakan ng modelo kapag ang pagkolekta ng data ay mahirap, mahal, o matagal. Sa sitwasyong ito, artipisyal naming pinapalawak ang dataset.

Ipagpalagay na ang aming paunang grupo ng 1000 mga larawan ng lahi ng aso ay naglalaman lamang ng 5 mga larawan ng pug. Sa halip na magdagdag ng mga karagdagang aktwal na larawan ng sarat mula sa mga tunay na aso, gumawa tayo ng isang pekeng larawan sa pamamagitan ng pag-clone ng isa sa mga kasalukuyan at bahagyang baluktot ito upang ito ay tila isang sarat pa rin.

Mga Teknik sa Pagpapalaki ng Data

Ang mga diskarte sa pagpapalaki ng data ay nangangailangan ng paggawa ng kaunting pagbabago sa umiiral na data. Ito ay katulad ng muling pagbigkas ng isang pahayag. Maaari naming hatiin ang pagpapalaki ng data sa tatlong kategorya:

teksto

Pagpapalit ng Salita: Kasama sa diskarte sa pagpapalaki ng data na ito ang pagpapalit ng mga kasalukuyang termino ng mga kasingkahulugan. Bilang halimbawa, maaaring maging "Idiotic ang pelikulang ito."
Sentence/Word Shuffling: Ang diskarteng ito ay nagsasangkot ng pagpapalit ng pagkakasunod-sunod ng mga parirala o salita habang pinapanatili ang pangkalahatang pagkakaugnay.
Syntax-Tree Manipulation: Binago mo ang isang umiiral na pangungusap upang maging tumpak sa gramatika habang ginagamit ang parehong mga termino.
Random na Pagtanggal: Bagama't ang diskarteng ito ay gumagawa ng pangit na pagsulat, ito ay epektibo. Bilang resulta, ang linyang "Hindi ko bibilhin ang record na ito dahil gasgas ito" ay nagiging "Hindi ko ito bibilhin dahil gasgas ito." Ang parirala ay hindi gaanong malinaw, ngunit ito ay nananatiling isang makatwirang karagdagan.
Balik na Pagsasalin: Ang pamamaraang ito ay parehong epektibo at kasiya-siya. Kumuha ng isang pahayag na nakasulat sa iyong wika, isalin ito sa ibang wika, at pagkatapos ay muling isalin ito pabalik sa iyong orihinal na wika.

Images

Mga Filter ng Kernel: Ang diskarteng ito ay nagpapatalas o nagpapalabo ng isang larawan.
Kumbinasyon ng Larawan: Bagama't mukhang kakaiba, maaari kang maghalo ng mga larawan.
Pagbubura nang Random: Magtanggal ng maliit na bahagi ng kasalukuyang larawan.
Geometric Transformations: Binubuo ng diskarteng ito, bukod sa iba pang mga bagay, ang arbitraryong pag-flip, pag-ikot, pag-crop, o pagsasalin ng mga larawan.
Pag-flip ng larawan: Maaari mong i-flip ang isang imahe mula sa pahalang patungo sa patayong oryentasyon.
Color Space Transformation: Maaari mong baguhin ang mga channel ng kulay ng RGB o pagandahin ang anumang kasalukuyang kulay.
Ang Re-Scaling ay ang proseso ng pagsasaayos ng visual scale. Mayroon kang opsyon sa pag-scale papasok o palabas. Kapag nag-scale ka papasok, ang imahe ay nagiging mas maliit kaysa sa unang sukat. Ang larawan ay magiging mas malaki kaysa sa orihinal kung i-scale mo ito palabas.

audio

Pitch: Kasama sa diskarteng ito ang pagpapalit ng audio pitch.
Baguhin ang bilis: Baguhin ang bilis ng audio file o pag-record.
Higit pang Ingay: Maaari kang magdagdag ng higit pang ingay sa audio file.

Gamitin ang Kaso

Ang medikal na imaging ay isang kilalang kaso ng paggamit para sa pagpapalaki ng data sa ngayon. Ang mga koleksyon ng medikal na larawan ay maliit, at ang pagbabahagi ng data ay mahirap dahil sa mga patakaran at mga alalahanin sa privacy.

Higit pa rito, ang mga set ng data ay higit na napipigilan sa kaso ng mga hindi pangkaraniwang karamdaman. Gumagamit ang mga kumpanya ng medikal na imaging ng data augmentation upang pag-iba-ibahin ang kanilang mga set ng data.

Hamon

Ang scalability, magkakaibang dataset, at kaugnayan ay ilan sa mga isyu na kailangang lutasin upang makabuo ng mahusay na mga diskarte sa pagpapalaki ng data.

Sa mga tuntunin ng scalability, ang augmented data ay dapat na scalable para maraming iba't ibang modelo ang maaaring gumamit nito. Gusto mong tiyakin na maaari itong ma-duplicate para magamit sa mga hinaharap na modelo dahil ang pagse-set up ng isang sistema ng pagpapalaki ng data na bumubuo ng isang malaking halaga ng nauugnay, mahalaga, at pinahusay na data ay maaaring tumagal ng ilang oras.

Sa mga tuntunin ng heterogeneity, ang iba't ibang mga dataset ay may mga natatanging tampok na dapat isaalang-alang habang bumubuo ng augmented data. Upang bumuo ng naaangkop na pinahusay na data, dapat gamitin ang mga katangian ng bawat dataset.

Sa madaling salita, mag-iiba ang pagpapalaki ng data sa pagitan ng mga dataset at mga kaso ng paggamit.

Panghuli, upang magarantiya na ang mga pakinabang ng tumaas na data ay lumalampas sa anumang mga panganib, ang pinalaki na data ay dapat suriin gamit ang mga angkop na sukatan bago gamitin ng mga modelo ng machine learning.

Halimbawa, ang pagkakaroon ng makabuluhang ingay sa background o hindi nauugnay na mga item sa pinalaki na data na nakabatay sa imahe ay maaaring magkaroon ng masamang epekto sa pagganap ng modelo.

Konklusyon

Sa huli, kung sinusubukan mong hulaan ang pagkawala, tukuyin ang pandaraya sa pananalapi, o mas mahusay na bumuo pag-uuri ng imahe mga modelo, ang pagpapalaki ng data ay isang kritikal na paraan upang makabuo ng mas tumpak at matatag na mga modelo.

Sa pamamagitan ng isang mahusay na pamamaraan ng pagsasanay, ang simpleng preprocessing at pagpapalaki ng data ay maaaring makatulong sa mga koponan sa pagbuo ng mga makabagong modelo.

Maaaring gamitin ng mga negosyo ang pagpapalaki ng data upang bawasan ang dami ng oras na ginugol sa paghahanda ng data ng pagsasanay at upang lumikha ng mga modelo ng machine learning na mas tumpak at mas mabilis.

Sa pamamagitan ng pagpapalawak sa dami ng nauugnay na data sa dataset, maaari ding makinabang ang pagpapalaki ng data sa mga modelo ng machine learning na mayroon nang maraming data.

Pagpapalaki ng Data : Mahalaga para sa Mga Modelo ng Machine Learning

Kaya, ano ang Data Augmentation?

Ano ang gamit ng data augmentation sa kasalukuyan?