Алгоритми неконтрольованого машинного навчання

Зміст[Сховати][Показати]

Що таке неконтрольоване машинне навчання?
Алгоритми машинного навчання без контролю+-
Застосування неконтрольованого навчання
Проблеми з неконтрольованим навчанням
Висновок

Одним із основних критеріїв будь-якого виду корпоративної діяльності є ефективне використання інформації. У якийсь момент обсяг створених даних перевищує можливості базової обробки.

Ось тут і вступають у гру алгоритми машинного навчання. Однак перш ніж щось з цього станеться, інформацію необхідно вивчити та інтерпретувати. У двох словах, це те, для чого використовується неконтрольоване машинне навчання.

У цій статті ми докладно розглянемо неконтрольоване машинне навчання, включаючи його алгоритми, варіанти використання та багато іншого.

Що таке неконтрольоване машинне навчання?

Алгоритми машинного навчання без контролю визначають шаблони в наборі даних, які не мають відомих або позначених наслідків. Під наглядом алгоритми машинного навчання мають позначений вихід.

Знання цієї відмінності допомагає зрозуміти, чому неконтрольовані методи машинного навчання не можна використовувати для вирішення проблем регресії чи класифікації, оскільки ви не знаєте, якими можуть бути значення/відповідь для вихідних даних. Ви не можете нормально навчити алгоритм, якщо не знаєте значення/відповідь.

Крім того, неконтрольоване навчання можна використовувати для визначення фундаментальної структури даних. Ці алгоритми виявляють приховані шаблони або групування даних без участі людини.

Його здатність виявляти подібності та контрасти в інформації робить його чудовим вибором для дослідницького аналізу даних, методів перехресних продажів, сегментації споживачів та ідентифікації зображень.

Розглянемо наступний сценарій: ви в продуктовому магазині бачите невідомий фрукт, якого ніколи раніше не бачили. Ви можете легко відрізнити невідомий плід від інших фруктів навколо, ґрунтуючись на своїх спостереженнях за його формою, розміром або кольором.

Алгоритми машинного навчання без контролю

Кластеризація

Кластеризація, безсумнівно, є найбільш широко використовуваним підходом до неконтрольованого навчання. Цей підхід поміщає пов’язані елементи даних у випадково згенеровані кластери.

Сама по собі модель ML виявляє будь-які закономірності, подібності та/або відмінності в некатегоризованій структурі даних. Модель зможе виявити будь-які природні групи або класи в даних.

Кластеризація

типи

Існує кілька форм кластеризації, які можна використовувати. Давайте спочатку розглянемо найважливіші з них.

Ексклюзивна кластеризація, іноді відома як «жорстка» кластеризація, — це тип групування, у якому окрема частина даних належить лише одному кластеру.
Кластеризація, що перекривається, часто відома як «м’яка» кластеризація, дозволяє об’єктам даних різною мірою належати більш ніж одному кластеру. Крім того, імовірнісну кластеризацію можна використовувати для вирішення проблем «м’якої» кластеризації або оцінки щільності, а також для оцінки ймовірності або ймовірності того, що точки даних належать до певних кластерів.
Створення ієрархії згрупованих елементів даних є метою ієрархічної кластеризації, як вказує назва. Елементи даних деконструюються або комбінуються на основі ієрархії для створення кластерів.

Користувачі:

Виявлення аномалії:

Будь-який тип викиду в даних можна виявити за допомогою кластеризації. Транспортні та логістичні компанії, наприклад, можуть використовувати виявлення аномалій, щоб виявити логістичні перешкоди або виявити пошкоджені механічні частини (прогнозне технічне обслуговування).

Фінансові установи можуть використовувати цю технологію для виявлення шахрайських операцій і швидкого реагування, потенційно заощаджуючи багато грошей. Дізнайтеся більше про виявлення відхилень і шахрайства, переглянувши наше відео.

Сегментація клієнтів і ринків:

Алгоритми кластеризації можуть допомогти в групуванні людей, які мають подібні характеристики, і створенні особи споживачів для більш ефективного маркетингу та цільових ініціатив.

K-засоби

K-means — це метод кластеризації, який також відомий як розділення або сегментація. Він розділяє точки даних на заздалегідь визначену кількість кластерів, відомих як K.

У методі K-середніх K є вхідним, оскільки ви повідомляєте комп’ютеру, скільки кластерів ви хочете визначити у своїх даних. Кожен елемент даних згодом призначається найближчому центру кластера, відомому як центроїд (чорні точки на зображенні).

K означає

Останні служать місцями для зберігання даних. Техніку кластеризації можна виконувати кілька разів, доки кластери не будуть чітко визначені.

Нечіткі K-середні

Нечіткі K-середні є розширенням техніки K-середніх, яка використовується для кластеризації, що перекривається. На відміну від методу K-середніх, нечіткі K-середні вказують на те, що точки даних можуть належати до багатьох кластерів із різним ступенем близькості до кожного.

Відстань між точками даних і центроїдом кластера використовується для обчислення близькості. У результаті можливі випадки, коли різні кластери накладаються.

Моделі гаусової суміші

Моделі суміші Гауса (GMMs) — це метод, який використовується в імовірнісній кластеризації. Оскільки середнє значення та дисперсія невідомі, моделі припускають, що існує фіксована кількість розподілів Гауса, кожен з яких представляє окремий кластер.

Щоб визначити, до якого кластера належить конкретна точка даних, по суті використовується метод.

Ієрархічна кластеризація

Стратегія ієрархічної кластеризації може починатися з призначення кожної точки даних іншому кластеру. Два кластери, які знаходяться найближче один до одного, потім змішуються в один кластер. Ітеративне злиття триває до тих пір, поки на вершині не залишиться лише один кластер.

Цей метод відомий як висхідний або агломеративний. Якщо ви починаєте з усіх елементів даних, прив’язаних до одного кластера, а потім проводите розбиття, доки кожен елемент даних не буде призначено як окремий кластер, метод відомий як низхідна або роздільна ієрархічна кластеризація.

Апріорний алгоритм

Аналіз ринкового кошика популяризував апріорні алгоритми, що призвело до появи різних механізмів рекомендацій для музичних платформ і онлайн-магазинів.

Вони використовуються в транзакційних наборах даних, щоб знаходити часті набори товарів або групи товарів, щоб передбачити ймовірність споживання одного продукту на основі споживання іншого.

Наприклад, якщо я почну вмикати радіо OneRepublic на Spotify із «Counting Stars», одна з інших пісень на цьому каналі, безумовно, буде піснею Imagine Dragon, як-от «Bad Liar».

Це ґрунтується на моїх попередніх звичках слухання, а також на моделях слухання інших. Апріорні методи підраховують набори елементів за допомогою хеш-дерева, обходячи набір даних вшир.

Зменшення розмірності

Зменшення розмірності — це різновид неконтрольованого навчання, яке використовує набір стратегій для мінімізації кількості ознак або розмірів у наборі даних. Дозвольте нам уточнити.

Може виникнути спокуса включити якомога більше даних під час створення свого набір даних для машинного навчання. Не зрозумійте нас неправильно: ця стратегія працює добре, оскільки більше даних зазвичай дає точніші результати.

Припустимо, що дані зберігаються в N-вимірному просторі, де кожна функція представляє окремий вимір. Якщо даних багато, можуть бути сотні вимірів.

Розглянемо електронні таблиці Excel, у яких стовпці представляють характеристики, а рядки представляють елементи даних. Коли розмірів забагато, алгоритми ML можуть працювати погано візуалізація даних може стати важким.

Тому логічним є обмеження характеристик або розмірів і передача лише відповідної інформації. Зменшення розмірності - це саме те. Це дозволяє вводити контрольовану кількість даних без шкоди для цілісності набору даних.

Аналіз основних компонентів (PCA)

Аналіз головних компонентів є підходом зменшення розмірності. Він використовується для мінімізації кількості функцій у величезних наборах даних, що забезпечує більшу простоту даних без шкоди для точності.

Стиснення набору даних здійснюється за допомогою методу, відомого як вилучення ознак. Це вказує на те, що елементи з оригінального набору змішуються в новий, менший. Ці нові риси відомі як первинні компоненти.

Звичайно, є додаткові алгоритми, які ви можете використовувати у своїх програмах для неконтрольованого навчання. Перераховані вище є лише найпоширенішими, тому вони розглянуті більш докладно.

Застосування неконтрольованого навчання

Методи навчання без нагляду використовуються для завдань візуального сприйняття, таких як розпізнавання об’єктів.
Машинне навчання без нагляду надає критичні аспекти системам медичної візуалізації, такі як ідентифікація, класифікація та сегментація зображень, які використовуються в радіології та патології для швидкої та надійної діагностики пацієнтів.
Неконтрольоване навчання може допомогти визначити тенденції даних, які можна використовувати для створення ефективніших стратегій перехресних продажів, використовуючи попередні дані про поведінку споживачів. Під час процесу оформлення замовлення це використовується онлайн-бізнесом, щоб пропонувати клієнтам потрібні додатки.
Методи навчання без нагляду можуть просіювати величезні обсяги даних, щоб знайти викиди. Ці аномалії можуть викликати повідомлення про несправне обладнання, помилку людини або порушення безпеки.

Проблеми з неконтрольованим навчанням

Навчання без нагляду привабливе різними способами, починаючи від можливості знайти важливі ідеї даних, щоб уникнути дорогого маркування даних операції. Однак використання цієї стратегії для навчання має кілька недоліків моделі машинного навчання що ви повинні знати. Ось кілька прикладів.

Оскільки вхідним даним не вистачає міток, які слугують ключами відповіді, результати моделей неконтрольованого навчання можуть бути менш точними.
Неконтрольоване навчання часто працює з масивними наборами даних, що може збільшити складність обчислень.
Цей підхід потребує підтвердження вихідних даних людьми, як внутрішніми, так і зовнішніми спеціалістами з предмета запиту.
Алгоритми повинні досліджувати та обчислювати всі можливі сценарії протягом фази навчання, яка займає деякий час.

Висновок

Ефективне використання даних є ключем до встановлення конкурентної переваги на конкретному ринку.

Ви можете сегментувати дані за допомогою неконтрольованих алгоритмів машинного навчання, щоб перевірити вподобання вашої цільової аудиторії або визначити, як певна інфекція реагує на певне лікування.

Є кілька практичних застосувань, і дані вчених, інженери та архітектори можуть допомогти вам визначити ваші цілі та розробити унікальні рішення ML для вашої компанії.

Алгоритми машинного навчання без контролю

Алгоритми машинного навчання без контролю

Що таке неконтрольоване машинне навчання?