Большасць мадэляў машыннага і глыбокага навучання ў значнай ступені залежаць ад колькасці і разнастайнасці даных, каб добра працаваць. Аб'ём і разнастайнасць даных, атрыманых падчас навучання, істотна ўплывае на дакладнасць прагназавання гэтых мадэляў.
Мадэлі глыбокага навучання, якія навучылі эфектыўна выконваць складаныя задачы, часта ўключаюць схаваныя нейроны. Колькасць навучаемых параметраў павялічваецца ў залежнасці ад колькасці схаваных нейронаў.
Аб'ём неабходных даных прапарцыянальны колькасці вывучаемых параметраў мадэлі. Адным з метадаў барацьбы з цяжкасцямі абмежаваных даных з'яўляецца прымяненне розных пераўтварэнняў да бягучых даных для сінтэзу новых даных.
Тэхніка сінтэзу новых даных з існуючых даных называецца «папаўненнем даных». Павелічэнне даных можа быць выкарыстана для задавальнення абодвух патрабаванняў: аб'ём даных і разнастайнасць навучальных даных, неабходных для распрацоўкі дакладных машыннае навучанне або мадэлі глыбокага навучання.
У гэтай публікацыі мы ўважліва разгледзім павелічэнне даных, яго тыпы, чаму гэта неабходна і многае іншае.
Такім чынам, што такое павелічэнне даных?
Пашырэнне даных - гэта працэс распрацоўкі новых і рэпрэзентатыўных даных з існуючых даных. Вы можаце дасягнуць гэтага шляхам уключэння мадыфікаваных версій існуючых даных або сінтэзу новых даных.
Наборы дадзеных, атрыманыя гэтым метадам, палепшаць ваша машыннае навучанне або мадэлі глыбокага навучання за кошт мінімізацыі рызыкі перападбору. Гэта працэс змены або «папаўнення» набору даных дадатковай інфармацыяй.
Гэты дадатковы ўвод можа вар'іравацца ад малюнкаў да тэксту, і гэта павышае прадукцыйнасць сістэм машыннага навучання.
Выкажам здагадку, што мы хочам пабудаваць мадэль для класіфікацыі парод сабак і ў нас ёсць вялікая колькасць фатаграфій усіх разнавіднасцяў, акрамя мопсаў. У выніку ў мадэлі будзе цяжка класіфікаваць мопсаў.
Мы маглі б дадаць у калекцыю дадатковыя (фактычныя або ілжывыя) фатаграфіі мопсаў або падвоіць нашы цяперашнія фатаграфіі мопсаў (напрыклад, паўтарыўшы і сказіўшы іх, каб зрабіць іх штучна унікальнымі).
Якая карысць павелічэння даных у сучаснасці?
Заяўкі на навучанне з дапамогай машыны хутка развіваюцца і дыверсіфікуюцца, асабліва ў галіне глыбокага навучання. Праблемы, з якімі сутыкаецца індустрыя штучнага інтэлекту, можна пераадолець з дапамогай метадаў павелічэння даных.
Пашырэнне даных можа палепшыць прадукцыйнасць і вынікі мадэляў машыннага навучання за кошт дадання новых і разнастайных прыкладаў у навучальныя наборы даных.
Калі набор даных вялікі і дастатковы, мадэль машыннага навучання працуе лепш і больш дакладна. Для мадэляў машыннага навучання збор даных і маркіроўка могуць заняць шмат часу і быць дарагімі.
Кампаніі могуць скараціць свае аперацыйныя выдаткі, змяняючы наборы даных і выкарыстоўваючы стратэгіі павелічэння даных.
Ачыстка дадзеных з'яўляецца адным з этапаў распрацоўкі мадэлі дадзеных, і гэта вельмі важна для высокадакладных мадэляў. Аднак мадэль не зможа прадбачыць належныя ўваходныя дадзеныя з рэальнага свету, калі ачыстка даных зніжае рэпрэзентатыўнасць.
Мадэлі машыннага навучання можна ўзмацніць, выкарыстоўваючы падыходы да павелічэння даных, якія ствараюць адхіленні, з якімі мадэль можа сутыкнуцца ў рэальным свеце.
Тыпы павелічэння даных
Рэальнае павелічэнне дадзеных
Сапраўднае павелічэнне даных адбываецца, калі вы дадаяце ў набор даных сапраўдныя дадатковыя даныя. Гэта можа вар'іравацца ад тэкставых файлаў з дадатковымі атрыбутамі (для пазначаных малюнкаў) да выяваў іншых аб'ектаў, параўнальных з арыгінальным аб'ектам, ці нават запісаў рэальнага аб'екта.
Напрыклад, дадаўшы яшчэ некалькі функцый у файл выявы, мадэль машыннага навучання можа лягчэй выявіць элемент.
Можа быць уключана больш метададзеных аб кожнай выяве (напрыклад, яе назва і апісанне), каб наша мадэль штучнага інтэлекту ведаў больш пра тое, што ўяўляе кожная выява, перш чым пачаць навучанне на гэтых фота.
Калі прыйдзе час класіфікаваць свежыя фатаграфіі ў адну з загадзя вызначаных катэгорый, напрыклад, «кошка» або «сабака», мадэль зможа лепш вызначаць элементы, якія прысутнічаюць на выяве, і ў выніку працаваць у цэлым лепш.
Сінтэтычныя дадзеныя Павышэнне
Акрамя дадання больш рэальных даных, вы таксама можаце ўнесці свой уклад сінтэтычныя дадзеныя або штучныя дадзеныя, якія здаюцца сапраўднымі.
Гэта карысна для цяжкіх задач, такіх як перадача нейронных стыляў, але таксама добра для любога дызайну, незалежна ад таго, выкарыстоўваеце вы GAN (генератыўныя спаборніцкія сеткі), CNN (згорткавыя нейронавыя сеткі) або іншую глыбокую нейронавую сетку.
Напрыклад, калі мы хочам правільна класіфікаваць мопсаў без неабходнасці выходзіць і рабіць некалькі фотаздымкаў, мы можам дадаць некалькі фальшывых фатаграфій мопсаў у калекцыю выяваў сабак.
Гэтая форма павелічэння даных асабліва эфектыўная для павышэння дакладнасці мадэлі, калі збор даных цяжкі, дарагі або займае шмат часу. У гэтай сітуацыі мы штучна пашыраем набор даных.
Выкажам здагадку, што наша першапачатковая група з 1000 фатаграфій пароды сабак змяшчае толькі 5 малюнкаў мопсаў. Замест таго, каб дадаваць дадатковыя фактычныя фатаграфіі мопсаў з сапраўдных сабак, давайце створым падробку, кланаваўшы адну з цяперашніх і злёгку сказіўшы яе так, каб яна ўсё яшчэ выглядала як мопс.
Метады павелічэння даных
Падыход да павелічэння даных прадугледжвае ўнясенне невялікіх змяненняў у існуючыя даныя. Гэта тое ж самае, што перафразаваць выказванне. Мы можам падзяліць павелічэнне даных на тры катэгорыі:
Тэкст
- Замена слоў: гэты падыход да павелічэння даных уключае замену бягучых тэрмінаў сінонімамі. Напрыклад, «Гэты фільм дурны» можа стаць «Гэты фільм ідыёцкі».
- Ператасоўка прапаноў/слоў: гэтая стратэгія прадугледжвае пераключэнне паслядоўнасці фраз або слоў пры захаванні агульнай звязнасці.
- Маніпуляцыя сінтаксічным дрэвам: вы змяняеце існуючы сказ, каб ён быў граматычна дакладным, выкарыстоўваючы тыя ж тэрміны.
- Выпадковае выдаленне: хоць гэтая стратэгія стварае непрыгожы тэкст, яна эфектыўная. У выніку радок «Я не буду купляць гэты запіс, таму што ён падрапаны» становіцца «Я не буду купляць гэты запіс, таму што ён падрапаны». Фраза менш зразумелая, але застаецца праўдападобным дадаткам.
- Зваротны пераклад: гэты падыход адначасова эфектыўны і прыемны. Вазьміце заяву, напісаную на вашай мове, перакладзіце яе на іншую мову, а потым паўторна перакладзіце назад на мову арыгіналу.
малюнкаў
- Фільтры ядра: гэты падыход павялічвае або размывае малюнак.
- Спалучэнне малюнкаў: хоць гэта можа здацца дзіўным, вы можаце змешваць фатаграфіі.
- Выпадковае сціранне: Выдаленне невялікай часткі бягучага малюнка.
- Геаметрычныя пераўтварэнні: гэты падыход уключае, сярод іншага, адвольнае гартанне, паварот, абрэзку або пераклад малюнкаў.
- Перагортванне выявы: Вы можаце перавярнуць выяву з гарызантальнай арыентацыі ў вертыкальную.
- Трансфармацыя каляровай прасторы: Вы можаце змяніць каляровыя каналы RGB або палепшыць любы бягучы колер.
- Re-Scaling - гэта працэс карэкціроўкі візуальнага маштабу. У вас ёсць магчымасць павялічыць або паменшыць. Калі вы маштабуеце ўнутр, малюнак становіцца меншым за першапачатковы памер. Карціна будзе большай за арыгінал, калі яе маштабаваць вонкі.
аўдыё
- Вышыня гуку: гэты падыход прадугледжвае змяненне вышыні гуку.
- Змяніць хуткасць: змяніць хуткасць аўдыяфайла або запісу.
- Больш шуму: вы можаце дадаць больш шуму ў аўдыяфайл.
Use Case
Зараз медыцынская візуалізацыя з'яўляецца адным з прыкметных варыянтаў выкарыстання для павелічэння даных. Калекцыі медыцынскіх фатаграфій невялікія, і абмен дадзенымі складаны з-за правілаў і праблем прыватнасці.
Акрамя таго, наборы дадзеных значна больш абмежаваныя ў выпадку незвычайных расстройстваў. Кампаніі, якія займаюцца медыцынскімі візуалізацыямі, выкарыстоўваюць папаўненне даных, каб разнастаіць свае наборы даных.
Выклікі
Маштабаванасць, разнастайныя наборы даных і рэлевантнасць - некаторыя з праблем, якія неабходна вырашыць, каб распрацаваць эфектыўныя метады павелічэння даных.
З пункту гледжання маштабаванасці, дапоўненыя даныя павінны быць маштабаванымі, каб іх маглі выкарыстоўваць розныя мадэлі. Вы захочаце пераканацца, што гэта можна прадубляваць для выкарыстання ў будучых мадэлях, бо наладжванне сістэмы дапаўнення даных, якая стварае вялікую колькасць адпаведных, каштоўных, палепшаных даных, можа заняць некаторы час.
З пункту гледжання гетэрагеннасці, розныя наборы даных маюць розныя асаблівасці, якія неабходна ўлічваць пры распрацоўцы дапоўненых даных. Для распрацоўкі адпаведных пашыраных даных неабходна выкарыстоўваць уласцівасці кожнага набору даных.
Іншымі словамі, павелічэнне даных будзе адрознівацца ў залежнасці ад набора даных і варыянтаў выкарыстання.
Нарэшце, каб гарантаваць, што перавагі павелічэння даных перавышаюць любыя небяспекі, дапоўненыя даныя павінны быць ацэнены з выкарыстаннем адпаведных паказчыкаў перад выкарыстаннем у мадэлях машыннага навучання.
Напрыклад, прысутнасць значнага фонавага шуму або незвязаных элементаў у дапоўненых даных на аснове відарысаў можа мець шкодны ўплыў на прадукцыйнасць мадэлі.
заключэнне
У канчатковым рахунку, незалежна ад таго, спрабуеце вы спрагназаваць страты, вызначыць фінансавыя махінацыі або пабудаваць лепш класіфікацыя малюнкаў мадэляў, павелічэнне даных з'яўляецца найважнейшым спосабам стварэння больш дакладных, надзейных мадэляў.
Дзякуючы лепшай працэдуры навучання, простая папярэдняя апрацоўка і дапаўненне даных могуць нават дапамагчы камандам у распрацоўцы перадавых мадэляў.
Прадпрыемствы могуць выкарыстоўваць дапаўненне даных, каб скараціць час, затрачаны на падрыхтоўку навучальных даных, і стварыць больш дакладныя і хуткія мадэлі машыннага навучання.
Дзякуючы павелічэнню колькасці адпаведных даных у наборы даных, пашырэнне даных таксама можа прынесці карысць мадэлям машыннага навучання, якія ўжо маюць шмат даных.
Пакінуць каментар