Алгарытмы машыннага навучання без кантролю

Змест[Схаваць][Паказаць]

Што такое машыннае навучанне без нагляду?
Алгарытмы машыннага навучання без кантролю+-
Прымяненне некантраляванага навучання
Праблемы з навучаннем без кантролю
заключэнне

Адным з асноўных крытэрыяў любога віду карпаратыўнай дзейнасці з'яўляецца эфектыўнае выкарыстанне інфармацыі. У нейкі момант аб'ём створаных даных перавышае магчымасці базавай апрацоўкі.

Тут у гульню ўступаюць алгарытмы машыннага навучання. Аднак перш чым што-небудзь з гэтага можа адбыцца, інфармацыю трэба вывучыць і інтэрпрэтаваць. У двух словах, гэта тое, для чаго выкарыстоўваецца машыннае навучанне без нагляду.

У гэтым артыкуле мы падрабязна разгледзім некантраляванае машыннае навучанне, уключаючы яго алгарытмы, варыянты выкарыстання і многае іншае.

Што такое машыннае навучанне без нагляду?

Алгарытмы машыннага навучання без кантролю вызначаюць шаблоны ў наборы даных, якія не маюць вядомых або пазначаных наступстваў. Пад наглядам алгарытмы машыннага навучання мець пазначаны выхад.

Веданне гэтага адрознення дапамагае зразумець, чаму некантралюемыя метады машыннага навучання нельга выкарыстоўваць для вырашэння праблем рэгрэсіі або класіфікацыі, бо вы не ведаеце, якім можа быць значэнне/адказ для выходных даных. Вы не можаце нармальна навучыць алгарытм, калі не ведаеце значэнне/адказ.

Акрамя таго, некантралюемае навучанне можа выкарыстоўвацца для ідэнтыфікацыі фундаментальнай структуры даных. Гэтыя алгарытмы выяўляюць схаваныя шаблоны або групоўкі даных без узаемадзеяння чалавека.

Яго здольнасць выяўляць падабенства і кантрасты ў інфармацыі робіць яго выдатным выбарам для даследчага аналізу даных, метадаў перакрыжаваных продажаў, сегментацыі спажыўцоў і ідэнтыфікацыі малюнкаў.

Разгледзім наступны сцэнар: вы знаходзіцеся ў прадуктовай краме і бачыце неапазнаны фрукт, якога ніколі раней не бачылі. Вы можаце лёгка адрозніць невядомы фрукт ад іншых фруктаў на падставе вашых назіранняў за яго формай, памерам або колерам.

Алгарытмы машыннага навучання без кантролю

кластарызацыя

Кластарызацыя, без сумневу, з'яўляецца найбольш шырока выкарыстоўваным падыходам да навучання без нагляду. Гэты падыход змяшчае звязаныя элементы даных у выпадкова згенераваныя кластары.

Сама па сабе мадэль ML выяўляе любыя заканамернасці, падабенства і/ці адрозненні ў структуры даных без катэгорыі. Мадэль зможа выявіць любыя натуральныя групоўкі або класы ў даных.

кластарызацыя

Тыпы

Ёсць некалькі формаў кластарызацыі, якія можна выкарыстоўваць. Давайце спачатку разгледзім найбольш важныя.

Эксклюзіўная кластэрызацыя, часам вядомая як "жорсткая" кластэрызацыя, - гэта тып групоўкі, пры якім асобная частка даных належыць толькі аднаму кластару.
Кластэрызацыя, якая перакрываецца, часта вядомая як "мяккая" кластэрызацыя, дазваляе аб'ектам дадзеных у рознай ступені належаць больш чым аднаму кластару. Акрамя таго, імавернасная кластэрызацыя можа выкарыстоўвацца для вырашэння праблем «мяккай» кластарызацыі або ацэнкі шчыльнасці, а таксама для ацэнкі верагоднасці або верагоднасці прыналежнасці пунктаў даных да пэўных кластараў.
Стварэнне іерархіі згрупаваных элементаў даных з'яўляецца мэтай іерархічнай кластарызацыі, як паказвае назва. Элементы даных дэканструююцца або аб'ядноўваюцца на аснове іерархіі для стварэння кластараў.

Выкарыстанне выпадкаў:

Выяўленне анамалій:

Любы тып выкідаў у дадзеных можна выявіць з дапамогай кластарызацыі. Кампаніі ў галіне транспарту і лагістыкі, напрыклад, могуць выкарыстоўваць выяўленне анамалій, каб выявіць матэрыяльна-тэхнічныя перашкоды або раскрыць пашкоджаныя механічныя дэталі (прагнастычнае абслугоўванне).

Фінансавыя ўстановы могуць выкарыстоўваць тэхналогію для выяўлення махлярскіх транзакцый і хуткага рэагавання, патэнцыйна зэканоміўшы шмат грошай. Даведайцеся больш аб выяўленні парушэнняў і махлярства, прагледзеўшы наша відэа.

Сегментацыя кліентаў і рынкаў:

Алгарытмы кластарызацыі могуць дапамагчы ў групоўцы людзей, якія маюць падобныя характарыстыкі, і стварыць асобу спажыўца для больш эфектыўнага маркетынгу і мэтавых ініцыятыў.

K-Сродкі

K-сярэднія - гэта метад кластарызацыі, які таксама вядомы як разбіванне або сегментацыя. Ён дзеліць кропкі дадзеных на загадзя зададзеную колькасць кластараў, вядомых як K.

У метадзе K-сярэдніх K з'яўляецца ўваходным, паколькі вы паведамляеце камп'ютэру, колькі кластараў вы хочаце вызначыць у сваіх дадзеных. Пасля кожны элемент даных прысвойваецца бліжэйшаму цэнтру кластара, вядомаму як цэнтраід (чорныя кропкі на малюнку).

K азначае

Апошнія служаць месцамі для захоўвання дадзеных. Тэхніка кластарызацыі можа быць выканана шмат разоў, пакуль кластары не стануць дакладна акрэсленымі.

Недакладныя K-сярэднія

Недакладныя K-сярэднія - гэта пашырэнне метаду K-сярэдніх, які выкарыстоўваецца для кластарызацыі, якая перакрываецца. У адрозненне ад метаду K-сярэдніх, недакладныя K-сярэднія паказваюць, што кропкі даных могуць належаць да многіх кластараў з рознай ступенню блізкасці да кожнага з іх.

Для вылічэння блізкасці выкарыстоўваецца адлегласць паміж кропкамі даных і цэнтрам цягі кластара. У выніку могуць быць выпадкі, калі розныя кластары перакрываюцца.

Мадэлі сумесі Гауса

Мадэлі сумесі Гаўса (GMMs) - гэта метад, які выкарыстоўваецца ў імавернаснай кластарызацыі. Паколькі сярэдняе значэнне і дысперсія невядомыя, мадэлі мяркуюць, што існуе фіксаваная колькасць размеркаванняў Гаўса, кожнае з якіх прадстаўляе асобны кластар.

Каб вызначыць, да якога кластара належыць канкрэтная кропка дадзеных, па сутнасці выкарыстоўваецца метад.

Іерархічная кластэрызацыя

Стратэгія іерархічнай кластарызацыі можа пачынацца з прысваення кожнай кропкі даных рознаму кластару. Затым два кластары, бліжэйшыя адзін да аднаго, аб'ядноўваюцца ў адзін кластар. Ітэрацыйнае зліццё працягваецца, пакуль уверсе не застанецца толькі адзін кластар.

Гэты метад вядомы як «знізу ўверх» або агламерацыйны. Калі вы пачынаеце з усіх элементаў даных, прывязаных да аднаго кластара, а затым праводзіце разбіццё, пакуль кожны элемент даных не будзе прызначаны як асобны кластар, метад вядомы як іерархічная кластэрызацыя зверху ўніз або раздзяляльная іерархічная кластэрызацыя.

Апрыёрны алгарытм

Аналіз рынкавага кошыка папулярызаваў апрыёрныя алгарытмы, у выніку чаго з'явіліся розныя механізмы рэкамендацый для музычных платформаў і інтэрнэт-крам.

Яны выкарыстоўваюцца ў транзакцыйных наборах даных, каб знайсці частыя наборы прадметаў або групы элементаў, каб прагназаваць верагоднасць спажывання аднаго прадукту на аснове спажывання іншага.

Напрыклад, калі я пачну ўключаць радыё OneRepublic на Spotify з «Counting Stars», адна з іншых песень на гэтым канале напэўна будзе песняй Imagine Dragon, напрыклад «Bad Liar».

Гэта заснавана на маіх папярэдніх звычках слухаць, а таксама на слуханні іншых. Апрыёрныя метады падлічваюць наборы элементаў з дапамогай хэш-дрэва, абыходзячы набор даных у шырыню.

Памяншэнне памернасці

Памяншэнне памернасці - гэта своеасаблівае некантралюемае навучанне, якое выкарыстоўвае набор стратэгій для мінімізацыі колькасці функцый або вымярэнняў у наборы даных. Дазвольце нам удакладніць.

Можа ўзнікнуць спакуса ўключыць як мага больш дадзеных пры стварэнні вашага набор даных для машыннага навучання. Не зразумейце нас няправільна: гэтая стратэгія працуе добра, бо большая колькасць даных звычайна дае больш дакладныя высновы.

Выкажам здагадку, што даныя захоўваюцца ў N-мернай прасторы, прычым кожная функцыя прадстаўляе іншае вымярэнне. Калі дадзеных шмат, могуць быць сотні вымярэнняў.

Разгледзім электронныя табліцы Excel са слупкамі, якія прадстаўляюць характарыстыкі, і радкамі, якія прадстаўляюць элементы даных. Калі вымярэнняў занадта шмат, алгарытмы ML могуць працаваць дрэнна і візуалізацыя дадзеных можа стаць цяжкім.

Такім чынам, лагічна абмежаваць характарыстыкі або памеры і перадаць толькі рэлевантную інфармацыю. Памяншэнне памернасці - гэта менавіта тое. Гэта дазваляе ўводзіць кіраваную колькасць даных без шкоды для цэласнасці набору даных.

Аналіз асноўных кампанентаў (PCA)

Аналіз галоўных кампанентаў - гэта падыход памяншэння памернасці. Ён выкарыстоўваецца для мінімізацыі колькасці функцый у велізарных наборах даных, што прыводзіць да большай прастаты даных без шкоды для дакладнасці.

Сціск набору даных ажыццяўляецца метадам, вядомым як вылучэнне прыкмет. Гэта азначае, што элементы з першапачатковага набору зліваюцца ў новы, меншы. Гэтыя новыя рысы вядомыя як асноўныя кампаненты.

Вядома, ёсць дадатковыя алгарытмы, якія вы можаце выкарыстоўваць у праграмах для некантраляванага навучання. Вышэйпералічаныя з'яўляюцца толькі найбольш распаўсюджанымі, таму і разглядаюцца больш падрабязна.

Прымяненне некантраляванага навучання

Метады навучання без нагляду выкарыстоўваюцца для задач візуальнага ўспрымання, такіх як распазнаванне аб'ектаў.
Машыннае навучанне без нагляду дае важныя аспекты медыцынскім сістэмам візуалізацыі, такія як ідэнтыфікацыя выявы, класіфікацыя і сегментацыя, якія выкарыстоўваюцца ў радыялогіі і паталогіі для хуткай і надзейнай дыягностыкі пацыентаў.
Навучанне без нагляду можа дапамагчы вызначыць тэндэнцыі даных, якія можна выкарыстоўваць для стварэння больш эфектыўных стратэгій перакрыжаваных продажаў з выкарыстаннем мінулых дадзеных аб паводзінах спажыўцоў. У працэсе афармлення заказу гэта выкарыстоўваецца інтэрнэт-бізнэсам, каб прапанаваць кліентам правільныя дадаткі.
Метады навучання без нагляду могуць прасейваць велізарныя аб'ёмы даных, каб знайсці выкіды. Гэтыя адхіленні могуць выклікаць паведамленне аб няспраўнасці абсталявання, чалавечых памылках або парушэннях бяспекі.

Праблемы з навучаннем без кантролю

Навучанне без нагляду прывабнае рознымі спосабамі, пачынаючы ад магчымасці знайсці важныя ідэі і да даных, каб пазбегнуць дарагой маркіроўкі даных аперацыі. Аднак выкарыстанне гэтай стратэгіі для трэніровак мае некалькі недахопаў мадэлі машыннага навучання што вы павінны ведаць. Вось некаторыя прыклады.

Паколькі ўваходным даным не хапае цэтлікаў, якія служаць ключамі адказу, вынікі мадэляў некантраляванага навучання могуць быць менш дакладнымі.
Навучанне без нагляду часта працуе з масіўнымі наборамі даных, што можа павялічыць складанасць вылічэнняў.
Гэты падыход патрабуе пацверджання выхаду людзьмі, унутранымі або знешнімі спецыялістамі па тэме запыту.
Алгарытмы павінны вывучыць і вылічыць кожны магчымы сцэнар на працягу ўсяго этапу навучання, які займае некаторы час.

заключэнне

Эфектыўнае выкарыстанне дадзеных з'яўляецца ключом да стварэння канкурэнтнай перавагі на пэўным рынку.

Вы можаце сегментаваць даныя з дапамогай некантралюемых алгарытмаў машыннага навучання, каб вывучыць перавагі вашай мэтавай аўдыторыі або вызначыць, як пэўная інфекцыя рэагуе на канкрэтнае лячэнне.

Ёсць некалькі практычных прыкладанняў, і навукоўцы дадзеных, інжынеры і архітэктары могуць дапамагчы вам у вызначэнні вашых мэтаў і распрацоўцы унікальных рашэнняў ML для вашай кампаніі.

Алгарытмы машыннага навучання без кантролю

Алгарытмы машыннага навучання без кантролю

Што такое машыннае навучанне без нагляду?