Ikaskuntza automatikoko eta ikasketa sakoneko eredu gehienek datu kopuruan eta aniztasunean oinarritzen dira ondo funtzionatzeko. Prestakuntzan zehar emandako datuen bolumenak eta aniztasunak eragin handia dute eredu hauen iragarpen-zehaztasunean.
Zeregin konplikatuetan modu eraginkorrean egiten irakatsi zaien ikaskuntza sakoneko ereduak sarritan ezkutuko neuronak dituzte. Entrena daitezkeen parametroen kopurua handitzen da ezkutuko neurona kopuruaren arabera.
Beharrezko datu-kopurua eredu ikasi daitezkeen parametroen proportzionala da. Datu mugatuen zailtasunari aurre egiteko metodo bat uneko datuei hainbat eraldaketa aplikatzea da datu berriak sintetizatzeko.
Lehendik dauden datuetatik datu berriak sintetizatzeko teknikari "Datuen gehikuntza" esaten zaio. Datuen gehikuntza bi baldintzak betetzeko erabil daiteke: datuen bolumena eta entrenamendu datuen aniztasuna zehatza garatzeko. ikaskuntza automatikoa edo ikaskuntza sakoneko ereduak.
Argitalpen honetan, arreta handiz aztertuko dugu datuen gehikuntza, bere motak, zergatik den ezinbestekoa eta askoz gehiago.
Beraz, zer da Datuen handitzea?
Datuen gehikuntza lehendik dauden datuetatik datu berri eta adierazgarriak garatzeko prozesua da. Hori lor dezakezu lehendik dauden datuen bertsio aldatuak sartuz edo datu berriak sintetizatuz.
Metodo honen bidez sortutako datu multzoek zure ikaskuntza automatikoa hobetuko dute edo deep learning ereduak gehiegi egokitzeko arriskua gutxituz. Informazio osagarria duen datu-multzo bat aldatzeko edo "handitzeko" prozesua da.
Sarrera osagarri hau irudietatik testura bitartekoa izan daiteke eta ikaskuntza automatikoko sistemen errendimendua areagotzen du.
Demagun txakur arrazak sailkatzeko eredu bat eraiki nahi dugula eta barietate guztietako argazki ugari ditugula pugak izan ezik. Ondorioz, ereduak zailtasunak izango lituzke pugak sailkatzeko.
Pug argazki gehigarriak (benetakoak edo faltsuak) gehitu genizkioke bildumari, edo gure egungo pug argazkiak bikoiztu genitzake (adibidez, horiek errepikatuz eta desitxuratuz, artifizialki bakarrak izan daitezen).
Zertarako balio du datuen gehikuntzak gaur egun?
Eskaerak egiteko makina ikaskuntza azkar garatzen eta dibertsifikatzen ari dira, batez ere ikaskuntza sakonaren arloan. Adimen artifizialaren industriak dituen erronkak datuak handitzeko tekniken bidez gainditu daitezke.
Datuak handitzeak ikaskuntza automatikoko ereduen errendimendua eta emaitzak hobe ditzake entrenamendu datu multzoei adibide berriak eta anitzak gehituz.
Datu-multzoa handia eta nahikoa denean, ikaskuntza automatikoko eredu batek hobeto funtzionatzen du eta zehatzagoa da. Ikaskuntza automatikoko ereduetarako, datuak biltzea eta etiketatzea denbora asko eta garestia izan daiteke.
Enpresek kostu operatiboak murriztu ditzakete datu multzoak aldatuz eta datuak handitzeko estrategiak erabiliz.
Datuak garbitzea datu-eredu baten garapenaren faseetako bat da, eta ezinbestekoa da zehaztasun handiko ereduetarako. Hala ere, ereduak ezin izango ditu benetako munduaren sarrera egokiak aurreikusi datuen garbiketak errepresentagarritasuna murrizten badu.
Ikaskuntza automatikoko ereduak indartu daitezke datuak handitzeko planteamenduak erabiliz, ereduak benetako munduan aurki ditzakeen aldaerak sortzen dituztenak.
Datuak handitzeko motak
Benetako datuen gehikuntza
Benetako datuen gehikuntza datu-multzo bati benetako datu osagarriak gehitzen dituzunean gertatzen da. Hau atributu gehigarriak dituzten testu-fitxategietatik (irudi etiketatuetarako) jatorrizko objektuaren pareko beste objektu batzuen irudietara edo benetako gauzaren grabazioetaraino izan daiteke.
Adibidez, irudi-fitxategi bati funtzio gehiago gehituz gero, makina-ikaskuntza-eredu batek elementua errazago hauteman dezake.
Irudi bakoitzari buruzko metadatu gehiago sar daitezke (adibidez, bere izena eta deskribapena), gure AI ereduak irudi bakoitzak zer adierazten duen gehiago jakin dezan argazki horietan entrenatzen hasi aurretik.
Argazki freskoak gure aurrez zehaztutako kategorietako batean sailkatzeko garaia iristen denean, "katua" edo "txakurra" adibidez, irudi batean dauden elementuak hobeto antzemateko gai izan liteke modeloak eta, ondorioz, orokorrean errendimendu hobea izan dezake.
Datu sintetikoak Augmentation
Datu erreal gehiago gehitzeaz gain, ekarpenak ere egin ditzakezu datu sintetikoak edo benetakoak diruditen datu artifizialak.
Hau onuragarria da estilo neuronalaren transferentzia bezalako zeregin zailetarako, baina edozein diseinutarako ere ona da, GAN (Generative Adversarial Networks), CNN (Convolutional Neural Networks) edo beste sare neuronal sakoneko beste arkitektura batzuk erabiltzen ari zaren ala ez.
Adibidez, pugak behar bezala sailkatu nahi baditugu kalera atera eta argazki ugari atera beharrik gabe, txakurren irudien bildumari pug argazki faltsu batzuk gehi genitzake.
Datuak handitzeko modu hau bereziki eraginkorra da ereduaren zehaztasuna hobetzeko datuak biltzea zaila, garestia edo denbora behar denean. Egoera honetan, datu multzoa artifizialki zabaltzen ari gara.
Demagun gure hasierako 1000 txakur arrazako argazkiek 5 pug irudi baino ez dituztela. Benetako txakurren benetako pug-argazki gehigarriak gehitu beharrean, sor dezagun faltsu bat egungoetako bat klonatuz eta pixka bat desitxuratuz, oraindik pug bat dirudi.
Datuak handitzeko teknikak
Datuak handitzeko planteamenduek lehendik dauden datuetan aldaketa txikiak egitea dakar. Adierazpen bat birformulatzea bezalakoa da. Datuen gehikuntza hiru kategoriatan bana ditzakegu:
Testu
- Hitzaren ordezkapena: datuak handitzeko ikuspegi honek egungo terminoak sinonimoekin ordezkatzea barne hartzen du. Adibide gisa, "Filme hau ergela da" "Film hau idiota da" bihur daiteke.
- Esaldia/Hitz nahasketa: estrategia honek esaldi edo hitzen sekuentzia aldatzea dakar, koherentzia orokorra mantenduz.
- Sintaxi-zuhaitzaren manipulazioa: lehendik dagoen esaldi bat aldatzen duzu gramatikalki zehatza izan dadin, termino berdinak erabiltzen dituzun bitartean.
- Ausazko ezabaketa: estrategia honek idazkera itsusia sortzen duen arren, eraginkorra da. Ondorioz, "Ez dut disko hau erosiko urratuta dagoelako" lerroa "Ez dut hau erosiko urratuta dagoelako" bihurtzen da. Esaldia ez da hain argia, baina gehigarri sinesgarri bat izaten jarraitzen du.
- Itzulpena: Ikuspegi hau eraginkorra eta atsegina da. Hartu zure hizkuntzan idatzitako adierazpen bat, itzuli beste hizkuntza batera eta, gero, itzuli berriro jatorrizko hizkuntzara.
Irudiak
- Kernel-iragazkiak: ikuspegi honek argazki bat zorrozten edo lausotzen du.
- Irudien konbinazioa: arraroa iruditu arren, argazkiak nahas ditzakezu.
- Ausaz ezabatzea: ezabatu uneko argazkiaren zati txiki bat.
- Eraldaketa geometrikoak: Ikuspegi honek, besteak beste, irudiak modu arbitrarioan iraultzea, biratzea, moztea edo itzultzea dakar.
- Irudi bat iraultzea: irudi bat orientazio horizontaletik bertikalera irauli dezakezu.
- Kolore-espazioaren eraldaketa: RGB kolore-kanalak alda ditzakezu edo egungo edozein kolore hobetu.
- Re-Scaling ikusizko eskala doitzeko prozesua da. Eskalatzeko edo txikitzeko aukera duzu. Barrurantz eskalatzean, irudia hasierako tamaina baino txikiagoa bihurtzen da. Irudia jatorrizkoa baino handiagoa izango da kanporantz eskalatzen baduzu.
Audio
- Tonua: Ikuspegi honek audioaren tonua aldatzea dakar.
- Aldatu abiadura: audio-fitxategiaren edo grabazioaren abiadura aldatzeko.
- Zarata gehiago: zarata gehiago gehi diezaiokezu audio fitxategiari.
Erabili kasu
Irudi medikoa datuak handitzeko erabilera kasu nabarmena da oraintxe bertan. Medikuntzako argazki bildumak txikiak dira, eta datuak partekatzea zaila da arauak eta pribatutasun kezkak direla eta.
Gainera, datu multzoak askoz ere mugatuagoak dira ohikoak diren nahasteen kasuan. Irudi mediko enpresek datuen gehikuntza erabiltzen dute datu multzoak dibertsifikatzeko.
Erronkak
Eskalagarritasuna, askotariko datu-multzoak eta garrantzia dira datuak handitzeko teknika eraginkorrak garatzeko konpondu beharreko arazoetako batzuk.
Eskalagarritasunari dagokionez, datu areagotuak eskalagarriak izan behar dira, hainbat eredu erabili ahal izateko. Ziurtatu nahi duzu hori bikoiztu daitekeela etorkizuneko ereduetan erabiltzeko, datu egoki, baliotsu eta hobetu ugari sortzen dituen datuak handitzeko sistema bat konfiguratzeak denbora pixka bat behar izan dezakeelako.
Heterogeneotasunari dagokionez, hainbat datu-multzok ezaugarri desberdinak dituzte, datu areagotuak garatzerakoan kontuan hartu beharrekoak. Datu hobetuak egokiak garatzeko, datu multzo bakoitzaren propietateak erabili behar dira.
Beste era batera esanda, datuen gehikuntza desberdina izango da datu multzoen eta erabilera kasuen artean.
Azkenik, handitutako datuen abantailek edozein arrisku gainditzen dutela bermatzeko, handitutako datuak neurri egokiak erabiliz ebaluatu behar dira ikaskuntza automatikoko ereduek erabili aurretik.
Adibidez, irudietan oinarritutako datu areagotuetan hondoko zarata esanguratsuak edo zerikusirik ez duten elementuak egoteak eragin kaltegarria izan dezake ereduaren errendimenduan.
Ondorioa
Azken finean, galerak aurreikusten, finantza-iruzurra identifikatzen edo hobeto eraikitzen saiatzen ari zaren ala ez irudien sailkapena ereduak, datuak handitzea eredu zehatzagoak eta sendoagoak eraikitzeko modu kritikoa da.
Goi-mailako prestakuntza-prozeduraren bidez, aurreprozesamendu sinpleak eta datuak handitzeak taldeei punta-puntako ereduak garatzen lagundu diezaieke.
Enpresek datuen gehikuntza erabil dezakete prestakuntza-datuak prestatzen emandako denbora murrizteko eta zehatzagoak eta azkarragoak diren ikaskuntza automatikoko ereduak sortzeko..
Datu-multzoko datu egokien kopurua zabalduz, datuen gehikuntzak ere datu asko dituzten ikaskuntza automatikoko ereduei mesede egin diezaieke.
Utzi erantzun bat