Жаңадан бастаушыларға арналған негізгі машиналық оқыту алгоритмдерінің тізімі

Мазмұны[Жасыру][Көрсету]

Сонымен, Machine Learning алгоритмдері дегеніміз не?
Бақыланатын, бақылаусыз және шыңдалатын оқыту+-
Машиналық оқытудың негізгі алгоритмдері+-
қорытынды

Жасанды интеллект және күнделікті өміріміздің барлық аспектілеріне әсер ететін машиналық оқыту арқасында әлем тез өзгеруде.

NLP және машиналық оқытуды қолданатын дауыстық көмекшілерден бастап кездесулерді брондау, күнтізбеміздегі оқиғаларды іздеу және музыканы ойнату сияқты дәлдіктегі құрылғыларға дейін олар біздің қажеттіліктерімізді біз қарастырғанға дейін болжай алатындай дәл құрылғыларға дейін.

Компьютерлер шахмат ойнай алады, операция жасай алады және машиналық оқыту алгоритмдерінің көмегімен ақылдырақ, адамға ұқсас машиналарға айнала алады.

Біз үздіксіз технологиялық прогресс кезеңіндеміз және уақыт өте келе компьютерлердің қалай дамығанын көре отырып, болашақта не болатынын болжауға болады.

Есептеу құралдары мен әдістерін демократияландыру осы революцияның басты аспектілерінің бірі болып табылады. Деректер ғалымдары соңғы бес жыл ішінде озық әдістемелерді еш қиындықсыз енгізу арқылы қуатты деректерді қысқарту компьютерлерін жасады. Нәтижелері таң қалдырады.

Бұл постта біз мұқият қарайтын боламыз машина оқыту алгоритмдер және олардың барлық нұсқалары.

Сонымен, Machine Learning алгоритмдері дегеніміз не?

Жасанды интеллект жүйесі өз міндетін орындау үшін қолданатын тәсіл – әдетте берілген кіріс деректерінен шығыс мәндерін болжау – машиналық оқыту алгоритмі ретінде белгілі.

Машиналық оқыту алгоритмі деректерді пайдаланатын және өндіріске дайын машиналық оқыту үлгілерін жасау үшін пайдаланылатын процесс. Егер машиналық оқыту жұмысты орындайтын пойыз болса, машиналық оқыту алгоритмдері жұмысты жылжытатын локомотивтер болып табылады.

Қолдануға арналған машиналық оқытудың ең жақсы тәсілі сіз шешкіңіз келетін бизнес мәселесіне, сіз қолданатын деректер жиынының түріне және қол жетімді ресурстарға байланысты анықталады.

Машиналық оқыту алгоритмдері деректер жиынын үлгіге айналдыратын алгоритмдер болып табылады. Жауап беруге тырысып жатқан мәселенің түріне, қол жетімді өңдеу қуатына және сізде бар деректер түріне, бақыланатын, бақыланбайтын немесе күшейтетін оқыту алгоритмдері жақсы жұмыс істей алады.

Сонымен, біз бақыланатын, бақылаусыз және күшейтілетін оқыту туралы айттық, бірақ олар не? Оларды зерттеп көрейік.

Бақыланатын, бақылаусыз және шыңдалатын оқыту

Жетекшілік ететін оқыту

Бақыланатын оқытуда AI моделі берілген кіріс пен болжамды нәтижені көрсететін белгі негізінде әзірленеді. Кіріс және шығыс деректеріне сүйене отырып, модель салыстыру теңдеуін әзірлейді және сол салыстыру теңдеуін пайдалана отырып, ол болашақта кірістердің белгісін болжайды.

Ит пен мысықты айыра алатын модель жасау керек делік. Модельді үйрету үшін мысықтар мен иттердің бірнеше фотосуреттері олардың мысық немесе ит екенін көрсететін жапсырмалары бар модельге беріледі.

Модель кіріс фотосуреттеріндегі белгілерді сол суреттермен байланыстыратын теңдеу құруға тырысады. Модель бұрын ешқашан суретті көрмесе де, жаттығудан кейін оның мысық немесе ит екенін анықтай алады.

Бақыланбай оқыту

Бақыланбайтын оқыту AI моделін тек кірістер бойынша таңбалаусыз оқытуды қамтиды. Модель кіріс деректерді қатысты сипаттамалары бар топтарға бөледі.

Енгізудің болашақ белгісі оның атрибуттары жіктеулердің біріне қаншалықты сәйкес келетініне байланысты болжамдалады. Қызыл және көк шарлар тобын екі санатқа бөлуіміз керек жағдайды қарастырайық.

Түсті қоспағанда, шарлардың басқа сипаттамалары бірдей деп есептейік. Шарларды екі сыныпқа қалай бөлуге болатындығына байланысты модель шарлар арасындағы ерекшеліктерді іздейді.

Шарлардың реңктеріне қарай екі топқа бөлінгенде екі шар кластері - бір көк және бір қызыл - шығарылады.

Арматуралық оқыту

Оқытуды күшейту кезінде AI моделі белгілі бір жағдайда әрекет ету арқылы жалпы табысты барынша арттыруға тырысады. Оның алдыңғы нәтижелері туралы кері байланыс модельге үйренуге көмектеседі.

Роботқа А және В нүктелері арасындағы бағытты таңдауға нұсқау берілген кездегі сценарий туралы ойланыңыз. Робот алдымен курстардың бірін таңдайды, себебі оның бұрыннан тәжірибесі жоқ.

Робот өзі жүретін жол туралы ақпаратты алады және одан білім алады. Робот келесі жолы ұқсас жағдайға тап болған кезде мәселені шешу үшін енгізуді пайдалана алады.

Мысалы, егер робот В нұсқасын таңдаса және оң кері байланыс сияқты сыйақы алса, ол бұл жолы сыйлығын арттыру үшін В жолын таңдау керек екенін түсінеді.

Енді бәріңіз күтетін нәрсе - алгоритмдер.

Машиналық оқытудың негізгі алгоритмдері

1. Сызықтық регрессия

Бақыланатын оқытудан ауытқитын машиналық оқытудың ең қарапайым тәсілі сызықтық регрессия болып табылады. Тәуелсіз айнымалылардан алынған біліммен ол көбінесе регрессия мәселелерін шешу және үздіксіз тәуелді айнымалылар бойынша болжамдар жасау үшін қолданылады.

Үздіксіз тәуелді айнымалылар үшін нәтижені болжауға көмектесетін ең жақсы сәйкестік сызығын табу сызықтық регрессияның мақсаты болып табылады. Үй бағасы, жас және жалақы үздіксіз құндылықтардың кейбір мысалдары болып табылады.

Сызықтық регрессия

Қарапайым сызықтық регрессия деп аталатын модель бір тәуелсіз айнымалы мен бір тәуелді айнымалы арасындағы байланысты есептеу үшін түзу сызықты пайдаланады. Бірнеше сызықтық регрессияда екіден көп тәуелсіз айнымалылар бар.

Сызықтық регрессиялық модельде төрт негізгі жорамал бар:

Сызықтық: Х пен Y-нің ортасы арасында сызықтық байланыс бар.
Гомоскедастық: X-тің әрбір мәні үшін қалдық дисперсия бірдей.
Тәуелсіздік: бақылаулар тәуелсіздік тұрғысынан бір-бірінен тәуелсіз.
Қалыптылық: X бекітілген кезде, Y қалыпты түрде таратылады.

Сызықтық регрессия сызықтар бойынша бөлуге болатын деректер үшін тамаша орындалады. Ол реттеу, айқас тексеру және өлшемді азайту әдістерін қолдану арқылы артық сәйкестендіруді басқара алады. Дегенмен, кейде шамадан тыс орнатуға және шуылға әкелуі мүмкін ауқымды инженерия қажет болатын жағдайлар бар.

2. Логистикалық регрессия

Логистикалық регрессия - бақыланатын оқытудан шығатын тағы бір машиналық оқыту әдісі. Оның негізгі қолданылуы классификация болып табылады, сонымен бірге оны регрессия мәселелері үшін де қолдануға болады.

Логистикалық регрессия тәуелсіз факторлардан алынған ақпаратты пайдалана отырып, категориялық тәуелді айнымалыны болжау үшін қолданылады. Мақсат - тек 0 мен 1 аралығында болатын нәтижелерді жіктеу.

Логистикалық регрессия

Кірістердің өлшенген жиыны сигма тәрізді функциямен өңделеді, 0 мен 1 арасындағы мәндерді түрлендіретін белсендіру функциясы.

Логистикалық регрессияның негізі - максималды ықтималдықты бағалау, нақты бақыланатын деректермен болжанған ықтималдық үлестірімінің параметрлерін есептеу әдісі.

3. Шешім ағашы

Бақыланатын оқытудан бөлінетін тағы бір машиналық оқыту әдісі - шешім ағашы. Жіктеу және регрессия мәселелері үшін шешім ағашының тәсілін қолдануға болады.

Ағашқа ұқсайтын бұл шешім қабылдау құралы әрекеттердің перспективалық нәтижелерін, шығындарын және салдарын көрсету үшін көрнекі көріністерді пайдаланады. Деректерді бөлек бөліктерге бөлу арқылы идея адам санасына ұқсас болады.

Шешім ағашы

Деректер біз түйіршіктей алатындай нақты бөліктерге бөлінді. Шешім ағашының негізгі мақсаты - мақсатты айнымалының класын болжау үшін пайдалануға болатын оқыту үлгісін құру. Жетіспейтін мәндерді Шешім ағашының көмегімен автоматты түрде өңдеуге болады.

Бір реттік кодтау, жалған айнымалылар немесе басқа деректерді алдын ала өңдеу қадамдары үшін талап жоқ. Бұл оған жаңа деректерді қосу қиын деген мағынада қатаң. Егер сізде қосымша белгіленген деректер болса, бүкіл деректер жиынындағы ағашты қайта дайындау керек.

Нәтижесінде шешім ағаштары динамикалық үлгіні өзгертуді қажет ететін кез келген қолданба үшін нашар таңдау болып табылады.

Мақсатты айнымалының түріне қарай шешім ағаштары екі түрге жіктеледі:

Категориялық айнымалы: мақсат айнымалысы категориялық болып табылатын шешім ағашы.
Үздіксіз айнымалы: мақсат айнымалысы Үздіксіз болатын шешім ағашы.

4. Кездейсоқ орман

Кездейсоқ орман әдісі - келесі машиналық оқыту әдісі және классификация мен регрессия мәселелерінде кеңінен қолданылатын бақыланатын машиналық оқыту алгоритмі. Бұл шешім ағашына ұқсас ағашқа негізделген әдіс.

Ағаштар орманы немесе көптеген шешім ағаштары пайымдаулар жасау үшін кездейсоқ орман әдісімен пайдаланылады. Жіктеу тапсырмаларын өңдеу кезінде кездейсоқ орман әдісі үздіксіз айнымалыларды қамтитын деректер жиыны бар регрессия тапсырмаларын өңдеу кезінде категориялық айнымалыларды пайдаланды.

Кездейсоқ орман

Ансамбль немесе көптеген үлгілердің араласуы кездейсоқ орман әдісінің әрекеті болып табылады, бұл болжау бір үлгі емес, модельдер тобы арқылы жасалады дегенді білдіреді.

Қазіргі заманғы машиналық оқыту жүйелерінің көпшілігін құрайтын жіктеу және регрессия мәселелері үшін пайдалану мүмкіндігі кездейсоқ орманның негізгі артықшылығы болып табылады.

Ансамбль екі түрлі стратегияны пайдаланады:

Қаптау: Бұл әрекетті орындау арқылы оқу деректер жинағы үшін көбірек деректер жасалады. Болжамдардағы вариацияны азайту үшін бұл жасалады.
Күшейту – бұл дәйекті үлгілерді құру арқылы әлсіз оқушыларды күшті оқушылармен біріктіру, нәтижесінде максималды дәлдікпен соңғы модель.

5. Аңғал Бейс

Бинарлы (екі класты) және көп класты жіктеу мәселесін Naive Bayes әдісі арқылы шешуге болады. Әдіс екілік немесе санат енгізу мәндерін пайдаланып түсіндірілсе, оны түсіну оңай. Naive Bayes классификаторы жасаған болжам сыныптағы бір мүмкіндіктің болуы басқа мүмкіндіктердің болуына ешқандай қатысы жоқ.

Наив Байес

Жоғарыдағы формула мынаны көрсетеді:

P(H): H гипотезасының дұрыс болу ықтималдығы. Алдыңғы ықтималдық бұл деп аталады.
P(E): Дәлелдердің ықтималдығы
P(E|H): гипотезаның дәлелдермен расталу ықтималдығы.
P(H|E): Дәлелдерді ескере отырып, гипотезаның ақиқат болу ықтималдығы.

Naive Bayes классификаторы белгілі бір нәтиженің ықтималдығын анықтау кезінде, тіпті бұл атрибуттар бір-бірімен байланысты болса да, осы сипаттамалардың әрқайсысын жеке ескереді. Аңғал Байес үлгісін құру оңай және үлкен деректер жиыны үшін тиімді.

Ол негізгі бола отырып, тіпті ең күрделі санаттау әдістерінен де жақсырақ жұмыс істейтіні белгілі. Бұл жалғыз әдіске емес, Байес теоремасына негізделген алгоритмдер жинағы.

6. К-Ең жақын көршілер

K-ең жақын көршілер (kNN) әдісі классификация және регрессия мәселелерін шешу үшін пайдаланылуы мүмкін бақыланатын машиналық оқытудың ішкі жиынтығы болып табылады. KNN алгоритмі жақын жерде салыстырмалы нысандарды табуға болады деп болжайды.

Бұл пікірлестердің басқосуы ретінде есімде. kNN жақындықты, жақындықты немесе қашықтықты пайдалана отырып, басқа деректер нүктелері арасындағы ұқсастық идеясын пайдаланады. Көрінбейтін деректерді ең жақын таңбаланған бақыланатын деректер нүктелеріне негізделген таңбалау үшін графиктегі нүктелер арасындағы айырмашылықты анықтау үшін математикалық әдіс қолданылады.

K Ең жақын көршілер

Ең жақын салыстырмалы нүктелерді анықтау үшін деректер нүктелері арасындағы қашықтықты анықтау керек. Бұл үшін Евклид қашықтығы, Хамминг қашықтығы, Манхэттен қашықтығы және Минковски қашықтығы сияқты қашықтық өлшемдерін қолдануға болады. K ең жақын көрші сан ретінде белгілі және ол жиі тақ сан болып табылады.

KNN классификация және регрессия мәселелеріне қолданылуы мүмкін. KNN регрессия мәселелеріне пайдаланылған кезде жасалған болжам K-ең ұқсас оқиғалардың орташа немесе медианасына негізделген.

KNN негізіндегі жіктеу алгоритмінің нәтижесін K ең ұқсас құбылыстардың ішіндегі ең жиілігі жоғары класс ретінде анықтауға болады. Әрбір данасы өз сыныбы үшін дауыс береді және болжам ең көп дауыс алған сыныпқа жатады.

7. К- білдіреді

Бұл кластерлеу мәселелерін қарастыратын бақылаусыз оқыту әдістемесі. Деректер жиындары әр кластердің деректер нүктелері біртекті және басқа кластерлердегі нүктелерден ерекше болатындай етіп кластерлердің белгілі санына бөлінген - оны K деп атаймыз.

K 1 білдіреді

K-кластерлеу әдістемесін білдіреді:

Әрбір кластер үшін K-орталар алгоритмі k центроидты немесе нүктені таңдайды.
Ең жақын центроидтармен немесе K кластерлерімен әрбір деректер нүктесі кластерді құрайды.
Енді қазірдің өзінде бар кластер мүшелеріне байланысты жаңа центроидтар шығарылады.
Әрбір деректер нүктесі үшін ең жақын қашықтық осы жаңартылған центроидтар арқылы есептеледі. Центроидтар өзгермейінше, бұл процесс қайталанады.

Ол тезірек, сенімдірек және түсіну оңайырақ. Мәселелер болса, k-means құралының бейімделуі түзетулерді қарапайым етеді. Деректер жиындары бір-бірінен ерекше немесе жақсы оқшауланған кезде нәтижелер ең жақсы болады. Ол дұрыс емес деректерді немесе шектен тыс мәндерді басқара алмайды.

8. Векторлық машиналарды қолдау

Деректерді жіктеу үшін SVM әдісін пайдаланған кезде, бастапқы деректер n өлшемді кеңістікте нүктелер түрінде көрсетіледі (мұндағы n - сізде бар мүмкіндіктер саны). Содан кейін деректерді оңай жіктеуге болады, себебі әрбір мүмкіндіктің мәні кейін белгілі бір координатқа қосылады.

Деректерді бөлу және оларды графикке қою үшін жіктеуіштер деп аталатын сызықтарды қолданыңыз. Бұл тәсіл әрбір деректер нүктесін n өлшемді кеңістіктегі нүкте ретінде көрсетеді, мұнда n - сізде бар мүмкіндіктер саны және әрбір мүмкіндіктің мәні - нақты координат мәні.

Векторлық машинаны қолдау

Енді біз деректерді әртүрлі санатталған деректердің екі жиынына бөлетін жолды табамыз. Екі топтың әрқайсысының ең жақын нүктелеріне дейінгі арақашықтықтар осы түзудің бойындағы ең алыс болады.

Ең жақын екі нүкте жоғарыдағы мысалдағы сызықтан ең алыс нүктелер болғандықтан, деректерді әртүрлі санатталған екі топқа бөлетін сызық ортаңғы сызық болып табылады. Біздің классификатор - бұл сызық.

9. Өлшемді азайту

Өлшемді азайту тәсілін пайдалану арқылы оқыту деректерінде кіріс айнымалылары аз болуы мүмкін. Қарапайым тілмен айтқанда, бұл мүмкіндіктер жиынтығының өлшемін кішірейту процесін білдіреді. Деректер жинағыңызда 100 баған бар деп елестетіп көрейік; өлшемді азайту бұл соманы 20 бағанға дейін азайтады.

Өлшемділікті азайту

Модель автоматты түрде жетілдіріледі және мүмкіндіктер саны артқан сайын шамадан тыс орнату қаупі жоғары болады. Үлкен өлшемдердегі деректермен жұмыс істеудегі ең үлкен мәселе - деректеріңізде сипаттамалардың шамадан тыс саны болған кезде пайда болатын «өлшемдік қарғыс» деп аталатын нәрсе.

Өлшемді азайтуды орындау үшін келесі элементтерді пайдалануға болады:

Сәйкес сипаттамаларды табу және таңдау үшін мүмкіндікті таңдау қолданылады.
Бұрыннан бар мүмкіндіктерді пайдалана отырып, мүмкіндіктерді құрастыру жаңа мүмкіндіктерді қолмен жасайды.

қорытынды

Бақыланбайтын немесе бақыланатын машиналық оқытудың екеуі де мүмкін. Деректеріңіз аз болса және оқу үшін жақсы белгіленсе, бақыланатын оқытуды таңдаңыз.

Үлкен деректер жинақтары көбінесе бақылаусыз оқытуды қолдана отырып, жақсы нәтижелер береді және береді. Терең оқыту Егер сізде оңай қол жетімді деректер жинағы болса, әдістер жақсы.

Арматуралық оқыту және тереңдетуді оқыту - сіз оқыған кейбір тақырыптар. Нейрондық желілердің сипаттамалары, қолданылуы және шектеулері енді сізге түсінікті. Соңғысы, бірақ кем дегенде, сіз өзіңіздің жеке бағдарламаңызды жасау кезінде әртүрлі бағдарламалау тілдерінің, IDE және платформалардың опцияларын қарастырдыңыз. машиналық оқыту модельдері.

Келесі істеу керек нәрсе - әрқайсысын зерттеп, пайдалану машина оқыту көзқарас. Тақырыбы кең болса да, оның тереңдігіне назар аударсаңыз, кез келген тақырыпты бірнеше сағатта түсінуге болады. Әрбір пән басқалардан бөлек тұрады.

Сіз бір уақытта бір мәселені ойластырып, оны зерттеп, тәжірибеде қолданып, ондағы алгоритм(дер)ді жүзеге асыру үшін өзіңіз таңдаған тілді қолдануыңыз керек.

Жаңадан бастаушыларға арналған негізгі машиналық оқыту алгоритмдерінің тізімі

Сонымен, Machine Learning алгоритмдері дегеніміз не?