Листа главних алгоритама машинског учења за почетнике

Преглед садржаја[Сакрити][Прикажи]

Дакле, шта су алгоритми машинског учења?
Надгледано, ненадгледано и учење са појачањем+-
Главни алгоритми машинског учења+-
Zakljucak

Свет се брзо мења захваљујући вештачкој интелигенцији и машинском учењу, које има утицај на сваки аспект нашег свакодневног живота.

Од гласовних асистената који користе НЛП и машинско учење да резервишу састанке, траже догађаје у нашем календару и пуштају музику до уређаја који су толико тачни да могу да предвиде наше потребе пре него што их узмемо у обзир.

Рачунари могу да играју шах, да раде операције и да се развију у паметније машине налик људима уз помоћ алгоритама за машинско учење.

Налазимо се у времену сталног технолошког напретка, а гледајући како су се рачунари развијали кроз време, можемо да предвиђамо шта ће се догодити у будућности.

Демократизација рачунарских алата и метода је један од кључних аспеката ове револуције која се истиче. Научници података су створили моћне рачунаре за крцкање података током последњих пет година применом најсавременијих методологија без напора. Исходи су запањујући.

У овом посту ћемо пажљиво погледати Машина учење алгоритме и све њихове варијације.

Дакле, шта су алгоритми машинског учења?

Приступ који користи систем вештачке интелигенције да изврши свој задатак – генерално, предвиђање излазних вредности из датих улазних података – познат је као алгоритам машинског учења.

Алгоритам машинског учења је процес који користи податке и користи се за креирање модела машинског учења који су спремни за производњу. Ако је машинско учење воз који обавља посао, онда су алгоритми машинског учења локомотиве које покрећу рад.

Најбољи приступ машинског учења за коришћење биће одређен пословним проблемом који покушавате да решите, типом скупа података који користите и ресурсима које имате на располагању.

Алгоритми машинског учења су они који претварају скуп података у модел. У зависности од врсте проблема на који покушавате да одговорите, доступне процесорске снаге и врсте података које имате, алгоритми за учење под надзором, без надзора или са појачањем могу да раде добро.

Дакле, разговарали смо о надгледаном, ненадгледаном учењу и учењу са појачањем, али шта су они? Хајде да их истражимо.

Надгледано, ненадгледано и учење са појачањем

Надгледано учење

У надгледаном учењу, АИ модел се развија на основу инпута који је дат и ознаке која представља предвиђени исход. На основу улаза и излаза, модел развија једначину мапирања, и користећи ту једначину за мапирање, предвиђа ознаку улаза у будућности.

Рецимо да треба да направимо модел који може да разликује пса од мачке. Више фотографија мачака и паса се уносе у модел са ознакама које показују да ли су мачке или пси како би се обучио модел.

Модел настоји да успостави једначину која повезује ознаке на улазним фотографијама са тим сликама. Чак и ако модел никада раније није видео слику, након тренинга може да идентификује да ли је у питању мачка или пас.

Учење без надзора

Учење без надзора укључује обуку АИ модела само на улазима без њиховог означавања. Модел дели улазне податке у групе са сродним карактеристикама.

Будућа ознака улаза се затим предвиђа у зависности од тога колико се његови атрибути подударају са једном од класификација. Размотримо ситуацију у којој морамо поделити групу црвених и плавих лоптица у две категорије.

Претпоставимо да су остале карактеристике лоптица идентичне, са изузетком боје. На основу тога како може да подели лоптице у две класе, модел тражи карактеристике које се разликују између лоптица.

Две групе лоптица — једна плава и једна црвена — настају када се лоптице поделе у две групе на основу њихове нијансе.

Учење ојачања

У учењу са појачањем, АИ модел настоји да максимизира укупни профит тако што ће деловати најбоље што може у одређеним околностима. Повратне информације о претходним резултатима помажу моделу да научи.

Размислите о сценарију када робот добије упутства да изабере руту између тачака А и Б. Робот прво бира било који од курсева јер нема претходног искуства.

Робот прима податке о рути којом се креће и из тога стиче знање. Робот може да користи инпут да реши проблем следећи пут када наиђе на сличну околност.

На пример, ако робот одабере опцију Б и добије награду, као што је позитивна повратна информација, овај пут разуме да мора изабрати начин Б да повећа своју награду.

Сада коначно оно што сви чекате су алгоритми.

Главни алгоритми машинског учења

1. Линеарна регресија

Најједноставнији приступ машинском учењу који одступа од надгледаног учења је линеарна регресија. Са знањем из независних варијабли, оно се углавном користи за решавање проблема регресије и креирање предвиђања за континуиране зависне варијабле.

Проналажење линије најбољег уклапања, која може помоћи у предвиђању исхода за континуиране зависне варијабле, је циљ линеарне регресије. Цене кућа, старост и плате су неки од примера непрекидних вредности.

линеарна регресија

Модел познат као једноставна линеарна регресија користи праву линију за израчунавање везе између једне независне променљиве и једне зависне променљиве. Постоји више од две независне варијабле у вишеструкој линеарној регресији.

Модел линеарне регресије има четири основне претпоставке:

Линеарност: Постоји линеарна веза између Кс и средње вредности И.
Хомоскедастичност: За сваку вредност Кс, резидуална варијанса је иста.
Независност: Посматрања су независна једна од друге у смислу независности.
Нормалност: Када је Кс фиксиран, И је нормално распоређен.

Линеарна регресија има изузетан учинак за податке који се могу одвојити дуж линија. Може да контролише прекомерно прилагођавање коришћењем техника регуларизације, унакрсног провера и смањења димензионалности. Међутим, постоје случајеви у којима је потребан опсежан инжењеринг карактеристика, што повремено може да доведе до преоптерећења и буке.

2. Логистичка регресија

Логистичка регресија је још једна техника машинског учења која одступа од учења под надзором. Његова главна употреба је класификација, док се такође може користити за проблеме регресије.

Логистичка регресија се користи за предвиђање категоријалне зависне варијабле користећи информације из независних фактора. Циљ је класификовати излазе, који могу пасти само између 0 и 1.

Логистичка регресија

Пондерисани збир улаза обрађује сигмоидна функција, активациона функција која претвара вредности између 0 и 1.

Основа логистичке регресије је процена максималне вероватноће, метода за израчунавање параметара претпостављене дистрибуције вероватноће датих специфичним посматраним подацима.

3. Стабло одлучивања

Још једна метода машинског учења која се одваја од надгледаног учења је стабло одлучивања. И за питања класификације и за питања регресије, може се користити приступ стабла одлучивања.

Овај алат за доношење одлука, који подсећа на дрво, користи визуелне приказе да би показао очекиване резултате, трошкове и последице акција. Поделом података на засебне делове, идеја је аналогна људском уму.

Стабло одлучивања

Подаци су подељени на различите делове онолико колико смо могли да их гранулирамо. Главни циљ стабла одлучивања је да се изгради модел обуке који се може користити за предвиђање класе циљне варијабле. Недостајућим вредностима се може аутоматски руковати помоћу стабла одлучивања.

Нема захтева за једнократно кодирање, лажне варијабле или друге кораке претходног третмана података. Он је крут у смислу да му је тешко додати свеже податке. Ако имате додатне означене податке, требало би да поново обучите стабло за цео скуп података.

Као резултат тога, стабла одлучивања су лош избор за било коју апликацију која захтева динамичку промену модела.

На основу врсте циљне варијабле, стабла одлучивања су класификована у два типа:

Категорична променљива: Стабло одлучивања у коме је променљива циља Категорична.
Континуирана променљива: Стабло одлучивања у коме је променљива циља Континуирана.

4. Случајна шума

Метод случајне шуме је следећа техника машинског учења и надгледани алгоритам машинског учења који се интензивно користи у питањима класификације и регресије. То је такође метод заснован на стаблу, сличан стаблу одлучивања.

Шума дрвећа, или многа стабла одлучивања, користи се методом случајне шуме за доношење пресуда. Приликом руковања задацима класификације, метод случајне шуме користио је категоричке варијабле док је радио задатке регресије са скуповима података који садрже континуиране варијабле.

Случајна шума

Ансамбл, или мешање многих модела, је оно што ради метод случајне шуме, што значи да се предвиђања праве користећи групу модела, а не само један.

Могућност коришћења и за проблеме класификације и за проблеме регресије, који чине већину савремених система машинског учења, кључна је предност насумичне шуме.

Ансамбл користи две различите стратегије:

Паковање: Радећи ово, производи се више података за скуп података за обуку. Да би се смањиле варијације у прогнозама, ово се ради.
Подстицање је процес комбиновања слабих ученика са јаким ученицима изградњом узастопних модела, што резултира коначним моделом са максималном прецизношћу.

5. Наиве Баиес

Проблем бинарне (двокласне) и вишекласне класификације може се решити коришћењем Наиве Баиес технике. Када се метода објашњава коришћењем бинарних или категорија улазних вредности, најједноставније је схватити. Претпоставка коју је направио наивни Бајесов класификатор је да постојање једне карактеристике у класи нема утицаја на присуство било које друге карактеристике.

Наивни Баиес

Горња формула показује:

П(Х): Вероватноћа да је хипотеза Х тачна. Претходна вероватноћа се назива овим.
П(Е): Вероватноћа доказа
П(Е|Х): Вероватноћа да је хипотеза подржана доказима.
П(Х|Е): Вероватноћа да је хипотеза тачна, с обзиром на доказе.

Наивни Бајесов класификатор би узео у обзир сваку од ових карактеристика појединачно када би одређивао вероватноћу одређеног резултата, чак и ако су ови атрибути повезани један са другим. Наивни Бајесов модел је једноставан за конструисање и ефикасан за велике скупове података.

Познато је да има бољи учинак чак и од најсложенијих техника категоризације док је основна. То је колекција алгоритама који су сви засновани на Бајесовој теореми, а не на једној методи.

6. К-најближи суседи

Техника К-најближих суседа (кНН) је подскуп надгледаног машинског учења који се може користити за решавање проблема класификације и регресије. КНН алгоритам претпоставља да се упоредиви објекти могу наћи у близини.

Сећам се тога као окупљања истомишљеника. кНН користи идеју сличности између других тачака података користећи близину, близину или удаљеност. Да би се невидљиви подаци означили на основу најближих обележених видљивих тачака података, користи се математичка метода за одређивање раздвајања између тачака на графикону.

К Најближи суседи

Морате одредити растојање између тачака података да бисте идентификовали најближе упоредиве тачке. За ово се могу користити мерења удаљености као што су еуклидско растојање, Хемингово растојање, растојање Менхетна и растојање Минковског. К је познат као број најближег суседа и често је непаран број.

КНН се може применити на проблеме класификације и регресије. Предвиђање направљено када се КНН користи за проблеме регресије засновано је на средњој вредности или медијани К-најсличнијих појава.

Резултат класификационог алгоритма заснованог на КНН-у може се одредити као класа са највећом фреквенцијом међу К најсличнијим појавама. Свака инстанца у суштини даје глас за своју класу, а предвиђање припада класи која добије највише гласова.

7. К-средња

То је техника за учење без надзора која се бави питањима груписања. Скупови података су подељени у одређени број кластера — назовимо то К — на такав начин да су тачке података сваког кластера хомогене и различите од оних у другим кластерима.

К значи 1

К-меанс методологија груписања:

За сваки кластер, К-меанс алгоритам бира к центара или тачака.
Са најближим центрима или К кластерима, свака тачка података формира кластер.
Сада се производе нови центри у зависности од већ присутних чланова кластера.
Најближа удаљеност за сваку тачку података се израчунава помоћу ових ажурираних центара. Све док се тежишта не промене, овај процес се понавља.

Бржи је, поузданији и једноставнији за разумевање. Ако постоје проблеми, прилагодљивост к-меанс-а чини прилагођавање једноставним. Када су скупови података различити или добро изоловани један од другог, резултати су најбољи. Не може да управља погрешним подацима или одступницима.

8. Машине за подршку векторима

Када користите СВМ технику за класификацију података, необрађени подаци се приказују као тачке у н-димензионалном простору (где је н број карактеристика које имате). Подаци се тада могу лако класификовати јер се вредност сваке карактеристике затим повезује са одређеном координатом.

Да бисте одвојили податке и ставили их на графикон, користите линије познате као класификатори. Овај приступ приказује сваку тачку података као тачку у н-димензионалном простору, где је н број карактеристика које имате, а вредност сваке карактеристике је специфична вредност координата.

Суппорт Вецтор Мацхине

Сада ћемо лоцирати линију која дели податке на два скупа података који су различито категорисани. Удаљености од најближих тачака у свакој од две групе биће најудаљеније дуж ове линије.

Пошто су две најближе тачке оне које су најудаљеније од праве у горњем примеру, линија која дели податке у две групе које су другачије категорисане је средња линија. Наш класификатор је ова линија.

9. Смањење димензионалности

Користећи приступ смањења димензионалности, подаци о обуци могу имати мање улазних варијабли. Једноставно речено, то се односи на процес смањења величине вашег скупа функција. Замислимо да ваш скуп података има 100 колона; смањење димензионалности ће смањити тај износ на 20 колона.

Смањење димензија

Модел аутоматски постаје софистициранији и има већи ризик од преоптерећења како се број функција повећава. Највећи проблем са радом са подацима у већим димензијама је оно што је познато као „проклетство димензионалности“, које се јавља када ваши подаци садрже превелик број карактеристика.

Следећи елементи се могу користити за постизање смањења димензионалности:

За проналажење и одабир релевантних карактеристика користи се избор карактеристика.
Користећи већ постојеће функције, инжењеринг функција ручно креира нове функције.

Zakljucak

Могуће је и машинско учење без надзора или под надзором. Изаберите учење под надзором ако су ваши подаци мање богати и добро означени за обуку.

Велики скупови података би често радили и давали боље резултате користећи учење без надзора. Дееп леарнинг методе су најбоље ако имате приличну колекцију података која је лако доступна.

Ојачавање учења и учење са дубоким појачањем су неке теме које сте проучавали. Карактеристике, употреба и ограничења неуронских мрежа су вам сада јасни. На крају, али не и најмање важно, размотрили сте опције за различите програмске језике, ИДЕ и платформе када је у питању креирање сопственог модели машинског учења.

Следећа ствар коју треба да урадите је да почнете да проучавате и користите сваки Машина учење приступ. Чак и ако је тема широка, свака тема се може разумети за неколико сати ако се фокусирате на њену дубину. Сваки предмет се издваја од осталих.

Морате размишљати о једном по једном питању, проучити га, применити га у пракси и користити језик по свом избору да бисте имплементирали алгоритам(е) у њему.

Листа главних алгоритама машинског учења за почетнике

Дакле, шта су алгоритми машинског учења?