Содржина[Крие][Прикажи]
Еден од примарните критериуми за секаков вид корпоративна активност е ефективно користење на информациите. Во одреден момент, обемот на создадени податоци го надминува капацитетот на основната обработка.
Тоа е местото каде што алгоритмите за машинско учење влегуваат во игра. Меѓутоа, пред да се случи нешто од ова, информациите мора да се проучат и толкуваат. Накратко, тоа е она за што се користи машинското учење без надзор.
Во оваа статија, ќе го испитаме длабинското машинско учење без надзор, вклучувајќи ги неговите алгоритми, случаи на употреба и многу повеќе.
Што е машинско учење без надзор?
Алгоритмите за машинско учење без надзор идентификуваат шеми во базата на податоци што немаат позната или означена последица. Надгледуван алгоритми за машинско учење имаат означен излез.
Познавањето на оваа разлика ви помага да разберете зошто методите за машинско учење без надзор не може да се користат за решавање на проблеми со регресија или класификација, бидејќи не знаете која може да биде вредноста/одговорот за излезните податоци. Не можете нормално да тренирате алгоритам ако не ја знаете вредноста/одговорот.
Покрај тоа, учењето без надзор може да се користи за да се идентификува основната структура на податоците. Овие алгоритми откриваат скриени обрасци или групирања на податоци без потреба од човечка интеракција.
Неговиот капацитет да детектира сличности и контрасти во информациите го прави одличен избор за истражувачка анализа на податоци, техники за вкрстена продажба, сегментација на потрошувачите и идентификација на слики.
Размислете за следново сценарио: сте во продавница за намирници и гледате неидентификувано овошје што никогаш претходно не сте го виделе. Можете лесно да го разликувате непознатото овошје различно од другото овошје наоколу врз основа на вашите набљудувања за неговата форма, големина или боја.
Алгоритми за машинско учење без надзор
Кластерирање
Кластерирањето е без сомнение најкористениот пристап за учење без надзор. Овој пристап ги става поврзаните податочни ставки во случајно генерирани кластери.
Самиот ML модел открива какви било шеми, сличности и/или разлики во некатегоризирана структура на податоци. Моделот ќе може да открие какви било природни групирања или класи во податоци.
Видови
Постојат неколку форми на кластерирање што може да се користат. Ајде прво да ги погледнеме најважните.
- Ексклузивното кластерирање, понекогаш познато како „тврдо“ кластерирање, е тип на групирање во кое еден единствен податок припаѓа на само еден кластер.
- Преклопувачкото кластерирање, често познато како „меко“ кластерирање, овозможува податочните објекти да припаѓаат на повеќе од еден кластер во различен степен. Понатаму, веројатностичкото кластерирање може да се користи за справување со проблемите со „мекото“ кластерирање или проценката на густината, како и за проценка на веројатноста или веројатноста за точки на податоци кои припаѓаат на одредени кластери.
- Создавањето хиерархија на групирани податочни ставки е целта на хиерархиското кластерирање, како што покажува името. Ставките на податоци се деконструираат или комбинираат врз основа на хиерархијата за да генерираат кластери.
Користете случаи:
- Откривање аномалија:
Секаков вид на оддалеченост во податоците може да се открие со користење на кластерирање. Компаниите во транспортот и логистиката, на пример, можат да користат детекција на аномалии за да откријат логистички пречки или да откријат оштетени механички делови (предвидливо одржување).
Финансиските институции можат да ја користат технологијата за откривање на лажни трансакции и брзо да реагираат, потенцијално заштедувајќи многу пари. Дознајте повеќе за забележување абнормалности и измами гледајќи го нашето видео.
- Сегментација на клиенти и пазари:
Алгоритмите за кластерирање можат да помогнат во групирање на луѓе кои имаат слични карактеристики и создавање на личности на потрошувачите за поефективен маркетинг и насочени иницијативи.
К-средства
K-means е метод на кластерирање кој е познат и како партиционирање или сегментација. Ги дели податочните точки на предодреден број кластери познати како К.
Во методот K-means, K е влезот бидејќи му кажувате на компјутерот колку кластери сакате да идентификувате во вашите податоци. Секоја податочна ставка последователно се доделува на најблискиот центар на кластерот, познат како центроид (црни точки на сликата).
Вторите служат како простори за складирање податоци. Техниката на кластерирање може да се направи многу пати додека кластерите не се добро дефинирани.
Нејасни К-значи
Fuzzy K-means е продолжување на техниката K-means, која се користи за правење преклопувачки групирања. За разлика од техниката К-средство, нејасните К-средства укажуваат дека точките на податоци може да припаѓаат на многу кластери со различен степен на близина до секоја од нив.
Растојанието помеѓу податочните точки и центроидот на кластерот се користи за пресметување на близината. Како резултат на тоа, може да има прилики кога се преклопуваат различни кластери.
Модели на гаусови мешавини
Gaussian Mixture Models (GMM) се метод кој се користи во веројатностичко кластерирање. Бидејќи средната вредност и варијансата се непознати, моделите претпоставуваат дека има фиксен број на Гаусови распределби, од кои секоја претставува посебен кластер.
За да се утврди на кој кластер му припаѓа одредена точка на податоци, методот во суштина се користи.
Хиерархиско кластерирање
Стратегијата за хиерархиско кластерирање може да започне со секоја податочна точка доделена на различен кластер. Двете кластери кои се најблиску еден до друг потоа се мешаат во еден кластер. Итеративното спојување продолжува додека не остане само еден кластер на врвот.
Овој метод е познат како долу-нагоре или агломеративен. Ако започнете со сите податочни ставки врзани за истиот кластер и потоа спроведувате поделби додека секоја податочна ставка не се додели како посебен кластер, методот е познат како хиерархиско кластерирање одозгора надолу или поделено.
Априори алгоритам
Анализата на пазарната кошничка ги популаризираше априори алгоритмите, што резултираше со различни мотори за препораки за музички платформи и онлајн продавници.
Тие се користат во збирки на податоци за трансакции за да се пронајдат чести групи на ставки или групирања на ставки, со цел да се предвиди веројатноста за консумирање на еден производ врз основа на потрошувачката на друг.
На пример, ако почнам да го пуштам радиото на OneRepublic на Spotify со „Counting Stars“, една од другите песни на овој канал сигурно ќе биде песна на Imagine Dragon, како што е „Bad Liar“.
Ова се заснова на моите претходни навики за слушање, како и на моделите на слушање на другите. Apriori методите бројат множества на ставки користејќи хаш-дрво, поминувајќи ја најпрво широчината на датата на податоци.
Намалување на димензионалноста
Намалувањето на димензиите е еден вид учење без надзор што користи збирка стратегии за минимизирање на бројот на карактеристики - или димензии - во базата на податоци. Дозволете ни да појасниме.
Може да биде примамливо да се вклучат што е можно повеќе податоци додека го креирате вашиот база на податоци за машинско учење. Не нè сфаќајте погрешно: оваа стратегија функционира добро бидејќи повеќе податоци обично даваат попрецизни наоди.
Да претпоставиме дека податоците се складирани во N-димензионален простор, при што секоја карактеристика претставува различна димензија. Може да има стотици димензии ако има многу податоци.
Размислете за табеларни пресметки на Excel, со колони што ги претставуваат карактеристиките и редовите што ги претставуваат ставките со податоци. Кога има премногу димензии, ML алгоритмите може да работат лошо и визуелизација на податоци може да стане тешко.
Така, логично е да се ограничат карактеристиките или димензиите и да се пренесат само релевантни информации. Намалувањето на димензиите е токму тоа. Овозможува управувана количина на влезни податоци без да се загрози интегритетот на датата на податоци.
Анализа на главните компоненти (PCA)
Анализата на главната компонента е пристап за намалување на димензионалноста. Се користи за минимизирање на бројот на функции во огромни збирки на податоци, што резултира со поголема едноставност на податоците без да се жртвува точноста.
Компресирањето на збирката на податоци се постигнува со метод познат како екстракција на карактеристики. Тоа покажува дека елементите од оригиналниот сет се измешани во нов, помал. Овие нови особини се познати како примарни компоненти.
Се разбира, постојат дополнителни алгоритми што можете да ги користите во вашите апликации за учење без надзор. Погоре наведените се само најраспространетите, поради што се дискутирани подетално.
Примена на учење без надзор
- Методите на учење без надзор се користат за задачи за визуелна перцепција, како што е препознавање на предмети.
- Машинското учење без надзор дава критични аспекти на системите за медицинска слика, како што се идентификација, класификација и сегментација на слики, кои се користат во радиологијата и патологијата за брзо и сигурно дијагностицирање на пациентите.
- Учењето без надзор може да помогне да се идентификуваат трендовите на податоци што може да се користат за создавање поефективни стратегии за вкрстена продажба користејќи податоци од минатото за однесувањето на потрошувачите. За време на процесот на наплата, ова го користат онлајн бизнисите за да им ги предложат вистинските додатоци на клиентите.
- Ненадгледуваните методи на учење можат да просејуваат низ огромни количини на податоци за да најдат оддалеченост. Овие абнормалности може да предизвикаат известување за неисправна опрема, човечка грешка или безбедносни прекршувања.
Проблеми со учење без надзор
Учењето без надзор е привлечно на различни начини, од потенцијалот да се најдат важни сознанија за тоа податоци за да се избегне скапо етикетирање на податоците операции. Сепак, има неколку недостатоци за користење на оваа стратегија за обука модели на машинско учење за кои треба да бидете свесни. Еве неколку примери.
- Бидејќи на влезните податоци им недостасуваат ознаки кои служат како клучеви за одговор, исходите на моделите за учење без надзор би можеле да бидат помалку прецизни.
- Ненадгледуваното учење често работи со огромни збирки на податоци, што може да ја зголеми комплексноста на пресметките.
- Пристапот бара потврда на излезот од луѓе, било внатрешни или надворешни специјалисти во предметот на истражување.
- Алгоритмите мора да го испитаат и пресметаат секое можно сценарио во текот на фазата на обука, што трае извесно време.
Заклучок
Ефективното користење на податоците е клучот за воспоставување конкурентна предност на одреден пазар.
Можете да ги сегментирате податоците користејќи алгоритми за машинско учење без надзор за да ги испитате преференциите на вашата целна публика или да одредите како одредена инфекција реагира на одреден третман.
Постојат неколку практични апликации, и научници за податоци, инженерите и архитектите можат да ви помогнат во дефинирањето на вашите цели и развојот на уникатни ML решенија за вашата компанија.
Оставете Одговор