Розширення даних: необхідне для моделей машинного навчання

Зміст[Сховати][Показати]

Отже, що таке збільшення даних?
Яку користь має розширення даних у сьогоденні?
Типи доповнення даних+-
- Реальне збільшення даних
- Доповнення синтетичних даних
Методи збільшення даних+-
Використовуйте Case
Виклики
Висновок

Більшість моделей машинного та глибокого навчання значною мірою покладаються на кількість і різноманітність даних, щоб добре працювати. Обсяг і різноманітність даних, наданих під час навчання, мають значний вплив на точність прогнозування цих моделей.

Моделі глибокого навчання, які навчили ефективно виконувати складні завдання, часто містять приховані нейрони. Кількість параметрів, які можна навчити, збільшується відповідно до кількості прихованих нейронів.

Обсяг необхідних даних пропорційний кількості параметрів моделі, які можна вивчати. Одним із методів боротьби з труднощами обмежених даних є застосування різноманітних перетворень до поточних даних для синтезу нових даних.

Техніка синтезу нових даних із наявних даних називається «доповненням даних». Розширення даних можна використовувати для виконання обох вимог: обсяг даних і різноманітність навчальних даних, необхідних для розробки точного моделі машинного або глибокого навчання.

У цій публікації ми детально розглянемо розширення даних, його типи, чому це важливо та багато іншого.

Отже, що таке збільшення даних?

Збільшення даних — це процес розробки нових і репрезентативних даних із наявних даних. Ви можете досягти цього, включивши модифіковані версії існуючих даних або синтезувавши нові дані.

Набори даних, створені цим методом, покращать ваше машинне навчання або моделі глибокого навчання за рахунок мінімізації ризику переобладнання. Це процес зміни або «доповнення» набору даних додатковою інформацією.

Цей додатковий вхід може варіюватися від зображень до тексту, і це підвищує продуктивність систем машинного навчання.

Припустімо, ми хочемо побудувати модель для класифікації порід собак і маємо велику кількість фотографій усіх різновидів, окрім мопсів. Як наслідок, моделі буде важко класифікувати мопсів.

Ми могли б додати до колекції додаткові (справжні чи фальшиві) фотографії мопсів або подвоїти наші поточні фотографії мопсів (наприклад, скопіювавши та спотворивши їх, щоб зробити їх штучно унікальними).

Яку користь має розширення даних у сьогоденні?

Програми для навчання за допомогою машини швидко розвиваються та диверсифікуються, особливо у сфері глибинного навчання. Проблеми, з якими стикається індустрія штучного інтелекту, можна подолати за допомогою методів розширення даних.

Розширення даних може покращити продуктивність і результати моделей машинного навчання шляхом додавання нових і різноманітних прикладів до навчальних наборів даних.

Коли набір даних великий і достатній, модель машинного навчання працює краще і точніше. Для моделей машинного навчання збір даних і маркування може бути трудомістким і дорогим.

Компанії можуть зменшити свої операційні витрати, змінюючи набори даних і використовуючи стратегії збільшення даних.

Очищення даних є одним із етапів розробки моделі даних, і він важливий для моделей високої точності. Однак модель не зможе передбачити належні вхідні дані з реального світу, якщо очищення даних зменшить репрезентативність.

Моделі машинного навчання можна посилити, використовуючи підходи до розширення даних, які створюють відхилення, з якими модель може зіткнутися в реальному світі.

Типи доповнення даних

Реальне збільшення даних

Справжнє збільшення даних відбувається, коли ви додаєте до набору справжні додаткові дані. Це може варіюватися від текстових файлів із додатковими атрибутами (для зображень із тегами) до зображень інших об’єктів, які можна порівняти з оригінальним об’єктом, або навіть записів реальних речей.

Наприклад, додавши ще кілька функцій до файлу зображення, модель машинного навчання може легше виявляти елемент.

Можна включити більше метаданих про кожне зображення (наприклад, його назву та опис), щоб наша модель ШІ знала більше про те, що представляє кожне зображення, перш ніж розпочати навчання на цих фотографіях.

Коли прийде час класифікувати нові фотографії в одну з наших заздалегідь визначених категорій, як-от «кіт» або «собака», модель зможе краще виявляти елементи, присутні на зображенні, і в результаті загалом працювати краще.

Синтетичні дані Збільшення

Окрім додавання реальних даних, ви також можете зробити свій внесок синтетичні дані або штучні дані, які здаються достовірними.

Це корисно для таких складних завдань, як передача нейронних стилів, але також добре для будь-якого дизайну, незалежно від того, використовуєте ви GAN (генеративні змагальні мережі), CNN (конволюційні нейронні мережі) чи інші глибокі архітектури нейронних мереж.

Наприклад, якщо ми хочемо належним чином класифікувати мопсів без необхідності виходити та робити кілька фотографій, ми можемо додати кілька фальшивих фотографій мопсів до колекції зображень собак.

Ця форма доповнення даних особливо ефективна для підвищення точності моделі, коли збір даних є складним, дорогим або трудомістким. У цій ситуації ми штучно розширюємо набір даних.

Припустимо, що наша початкова група з 1000 фотографій порід собак містить лише 5 зображень мопсів. Замість того, щоб додавати додаткові справжні фотографії мопсів із справжніх собак, давайте створимо підробку, клонуючи одну з поточних і трохи спотворивши її, щоб вона все ще виглядала як мопс.

Методи збільшення даних

Підходи до розширення даних передбачають внесення невеликих змін до існуючих даних. Це те саме, що перефразувати твердження. Ми можемо розділити збільшення даних на три категорії:

текст

Заміна слів: цей підхід до розширення даних включає заміну поточних термінів синонімами. Наприклад, «Цей фільм дурний» може стати «Цей фільм ідіотський».
Перемішування речень/слів: ця стратегія передбачає перемикання послідовності фраз або слів, зберігаючи загальну зв’язність.
Маніпулювання синтаксичним деревом: ви змінюєте наявне речення, щоб воно було граматично точним, використовуючи однакові терміни.
Випадкове видалення: хоча ця стратегія створює негарний текст, вона ефективна. У результаті рядок «Я не куплю цей запис, тому що він подряпаний» стає «Я не куплю цей запис, тому що він подряпаний». Фраза менш зрозуміла, але вона залишається правдоподібним доповненням.
Зворотний переклад: цей підхід одночасно ефективний і приємний. Візьміть заяву, написану вашою мовою, перекладіть її іншою мовою, а потім знову перекладіть її мовою оригіналу.

зображень

Фільтри ядра: цей підхід збільшує або розмиває зображення.
Комбінація зображень: хоча це може здатися дивним, ви можете змішувати фотографії.
Довільне видалення: видалення невеликої частини поточного зображення.
Геометричні перетворення: цей підхід включає, серед іншого, довільне перевертання, обертання, обрізання або переклад зображень.
Перевертання зображення: Ви можете перевернути зображення з горизонтальної на вертикальну орієнтацію.
Трансформація колірного простору: ви можете змінити колірні канали RGB або підсилити будь-який поточний колір.
Повторне масштабування — це процес коригування візуального масштабу. У вас є можливість збільшити або зменшити масштаб. Коли ви масштабуєте всередину, зображення стає меншим за початковий розмір. Зображення буде більшим за оригінал, якщо масштабувати його назовні.

аудіо

Висота: цей підхід передбачає зміну висоти звуку.
Змінити швидкість: змінити швидкість аудіофайлу або запису.
Більше шуму: Ви можете додати більше шуму до аудіофайлу.

Використовуйте Case

Зараз медична візуалізація є відомим випадком використання для збільшення даних. Колекції медичних фотографій невеликі, а обмін даними ускладнений через правила та проблеми конфіденційності.

Крім того, набори даних є набагато більш обмеженими у випадку незвичайних розладів. Компанії, що займаються медичною візуалізацією, використовують доповнення даних, щоб урізноманітнити свої набори даних.

Виклики

Масштабованість, різноманітні набори даних і релевантність – це деякі з проблем, які необхідно вирішити, щоб розробити ефективні методи доповнення даних.

З точки зору масштабованості, доповнені дані мають бути масштабованими, щоб їх могли використовувати різні моделі. Ви захочете переконатися, що це можна скопіювати для використання в майбутніх моделях, оскільки налаштування системи доповнення даних, яка генерує велику кількість доречних, цінних, покращених даних, може зайняти деякий час.

З точки зору неоднорідності, різні набори даних мають відмінні особливості, які необхідно враховувати під час розробки доповнених даних. Для розробки відповідних розширених даних необхідно використовувати властивості кожного набору даних.

Іншими словами, збільшення даних відрізнятиметься залежно від наборів даних і випадків використання.

Нарешті, щоб гарантувати, що переваги збільшення даних перевищують будь-які небезпеки, доповнені дані слід оцінити за допомогою відповідних показників перед використанням моделями машинного навчання.

Наприклад, наявність значного фонового шуму або непов’язаних елементів у доповнених даних на основі зображення може мати шкідливий вплив на продуктивність моделі.

Висновок

Зрештою, чи намагаєтеся ви спрогнозувати збитки, виявити фінансове шахрайство чи побудувати краще класифікація зображень моделі, розширення даних є критично важливим способом створення більш точних, надійних моделей.

Завдяки вдосконаленій процедурі навчання проста попередня обробка та доповнення даних можуть навіть допомогти командам у розробці найсучасніших моделей.

Підприємства можуть використовувати доповнення даних, щоб скоротити кількість часу, витраченого на підготовку навчальних даних, і створити точніші та швидші моделі машинного навчання..

Збільшуючи кількість відповідних даних у наборі даних, розширення даних також може принести користь моделям машинного навчання, які вже мають багато даних.

Розширення даних: необхідне для моделей машинного навчання

Отже, що таке збільшення даних?

Яку користь має розширення даних у сьогоденні?