Жаңы баштагандар үчүн машинаны үйрөнүүнүн негизги алгоритмдеринин тизмеси

Мазмуну[Жашыруу][Көрсөтүү]

Ошентип, Machine Learning алгоритмдери деген эмне?
Көзөмөлгө алынган, көзөмөлсүз жана бекемделген окуу+-
Машиналарды үйрөнүүнүн негизги алгоритмдери+-
жыйынтыктоо

Күнүмдүк жашообуздун ар бир тармагына таасирин тийгизген жасалма интеллект жана машина үйрөнүүсүнөн улам дүйнө тез өзгөрүүдө.

NLP жана машина үйрөнүү ыкмаларын колдонгон үн жардамчыларынан баштап жолугушууларды ээлеп, календарыбыздан окуяларды издеп, музыка ойнотууга чейин, алар биздин муктаждыктарыбызды биз аларды карап чыга электе эле алдын ала айта алган так түзмөктөргө чейин.

Компьютерлер шахмат ойной алат, операция жасай алат жана машина үйрөнүү алгоритмдеринин жардамы менен акылдуураак, адамга окшош машиналарга айланат.

Биз тынымсыз технологиялык өнүккөн мезгилде турабыз жана убакыттын өтүшү менен компьютерлердин кандайча өнүккөндүгүн көрүү менен келечекте эмне болорун алдын ала айта алабыз.

Эсептөө куралдарын жана методдорун демократиялаштыруу бул революциянын өзгөчөлөнгөн негизги аспектилеринин бири болуп саналат. Маалымат илимпоздору акыркы беш жылдын ичинде алдыңкы методологияларды күч-аракет жумшабастан ишке киргизип, кубаттуу маалыматтарды кыйратуучу компьютерлерди жаратышты. Жыйынтыктары таң калыштуу.

Бул постто биз кылдаттык менен карап чыгабыз машина үйрөнүү алгоритмдер жана алардын бардык вариациялары.

Ошентип, Machine Learning алгоритмдери деген эмне?

AI системасы өз милдетин аткаруу үчүн колдонгон ыкма - жалпысынан, берилген киргизилген маалыматтардан чыгуу баалуулуктарын болжолдоо - машинаны үйрөнүү алгоритми деп аталат.

Машина үйрөнүү алгоритми - бул маалыматтарды колдонгон процесс жана өндүрүшкө даяр болгон машина үйрөнүү моделдерин түзүү үчүн колдонулат. Эгерде машинаны үйрөнүү жумушту аткарган поезд болсо, анда машина үйрөнүү алгоритмдери ишти жылдыруучу локомотивдер.

Машинаны үйрөнүүнүн эң жакшы ыкмасы сиз чечүүгө аракет кылып жаткан бизнес көйгөйүңүз, сиз колдонуп жаткан маалымат топтомунун түрү жана сизде бар ресурстар менен аныкталат.

Машина үйрөнүү алгоритмдери маалыматтар топтомун моделге айландырган алгоритмдер. Сиз жооп берүүгө аракет кылып жаткан көйгөйдүн түрүнө жараша, колдо болгон иштетүү кубаттуулугуна жана сизде болгон маалыматтардын түрүнө, көзөмөлдөнгөн, көзөмөлсүз же күчөтүлгөн окутуу алгоритмдери жакшы иштеши мүмкүн.

Ошентип, биз көзөмөлдөнгөн, көзөмөлсүз жана бекемдөөчү окутуу жөнүндө сүйлөштүк, бирок алар эмне? Келгиле, аларды изилдеп көрөлү.

Көзөмөлгө алынган, көзөмөлсүз жана бекемделген окуу

Көзөмөлдөнгөн окутуу

Көзөмөлдөнгөн окутууда AI модели берилген киргизүүгө жана болжолдонгон натыйжаны көрсөткөн энбелгиге негизделет. Киргизүүлөрдүн жана чыгашалардын негизинде модель карта түзүү теңдемесин иштеп чыгат жана ошол карталоо теңдемесин колдонуу менен келечектеги киргизүүлөрдүн этикеткасын болжолдойт.

Ит менен мышыктын айырмасын ажырата ала турган моделди түзүү керек дейли. Моделди үйрөтүү үчүн мышыктар менен иттердин бир нече сүрөттөрү алардын мышык же ит экендигин көрсөткөн этикеткалары менен моделге берилет.

Модель кириш фотосүрөттөрүндөгү этикеткаларды ошол сүрөттөргө байланыштырган теңдемени түзүүгө умтулат. Модель сүрөттү мурда көрбөгөн күндө да, машыгуудан кийин анын мышык же ит экенин аныктай алат.

Көзөмөлсүз окутуу

Көзөмөлсүз окутуу AI моделин белгилөөсүз киргизүүлөр боюнча гана үйрөтүүнү камтыйт. Модель киргизилген маалыматтарды тиешелүү мүнөздөмөлөрү бар топторго бөлөт.

Киргизүүнүн келечектеги энбелгиси анын атрибуттары классификациялардын бирине канчалык дал келгенине жараша болжолдонот. Биз эки категорияга кызыл жана көк топторду бөлүү керек болгон жагдайды карап көрөлү.

Келгиле, шарлардын түсүн эске албаганда, башка мүнөздөмөлөрү бирдей деп коёлу. Топторду кантип эки класска бөлөөрүнүн негизинде, модель топтордун ортосунда айырмаланган мүнөздөмөлөрдү издейт.

Топтордун түсүнө жараша эки топко бөлүнгөндө, эки топ топтору — бири көк жана бир кызыл — пайда болот.

Кубаттоо билим

Окутууну күчөтүүдө AI модели белгилүү бир жагдайда ошондой эле аракет кылуу менен жалпы кирешени көбөйтүүгө умтулат. Анын мурунку жыйынтыктары боюнча пикир моделге үйрөнүүгө жардам берет.

Роботко А жана В чекиттеринин ортосундагы маршрутту тандоону буйруган сценарий жөнүндө ойлонуп көрүңүз. Робот адегенде курстардын бирин тандайт, анткени анын буга чейин тажрыйбасы жок.

Робот алган маршруту боюнча маалымат алат жана андан билим алат. Робот кийинки жолу ушундай жагдайга туш болгондо маселени чечүү үчүн киргизүүнү колдоно алат.

Мисалы, робот В вариантын тандап, оң пикир сыяктуу сыйлык алса, бул жолу ал сыйлыгын жогорулатуу үчүн В жолун тандашы керек экенин түшүнөт.

Эми баарыңар күтүп жаткан нерсе - бул алгоритмдер.

Машиналарды үйрөнүүнүн негизги алгоритмдери

1. Сызыктуу регрессия

Көзөмөлдөнгөн окутуудан четтеген эң жөнөкөй машина үйрөнүү ыкмасы сызыктуу регрессия. Көз карандысыз өзгөрмөлөрдөн алынган билим менен, ал көбүнчө регрессия маселелерин чечүү жана үзгүлтүксүз көз каранды өзгөрмөлөр боюнча болжолдоолорду түзүү үчүн колдонулат.

Үзгүлтүксүз көз каранды өзгөрмөлөр үчүн натыйжаны болжолдоого жардам бере турган эң туура сызыкты табуу сызыктуу регрессиянын максаты болуп саналат. Үй баалары, жаш курагы жана эмгек акысы үзгүлтүксүз баалуулуктардын кээ бир мисалдары болуп саналат.

сызыктуу регрессиялык

Жөнөкөй сызыктуу регрессия деп аталган модель бир көз карандысыз өзгөрмө менен бир көз каранды өзгөрмөнүн ортосундагы байланышты эсептөө үчүн түз сызыкты колдонот. Көп сызыктуу регрессияда экиден ашык көз карандысыз өзгөрмөлөр бар.

Сызыктуу регрессиялык моделдин төрт негизи бар:

Сызыктуулугу: X менен Yнин ортосунун ортосунда сызыктуу байланыш бар.
Homoscedasticity: X ар бир мааниси үчүн, калдык дисперсия бирдей.
Көз карандысыздык: Көз карандысыздык жагынан байкоолор бири-биринен көз карандысыз.
Кадимкилик: X белгиленгенде, Y кадимкидей бөлүштүрүлөт.

Сызыктуу регрессия сызыктар боюнча бөлүнүүчү маалыматтар үчүн укмуштуудай аткарат. Ал нормалдаштыруу, кайчылаш текшерүү жана өлчөмдүүлүктү азайтуу ыкмаларын колдонуу менен ашыкча тууралоону көзөмөлдөй алат. Бирок, кээде ашыкча ыңгайлаштырууга жана ызы-чууга алып келиши мүмкүн болгон кеңири мүмкүнчүлүктөрдү инженерия талап кылган учурлар бар.

2. Логистикалык регрессия

Логистикалык регрессия - бул көзөмөлдөнгөн окутуудан четтеген дагы бир машина үйрөнүү ыкмасы. Анын негизги колдонулушу классификация болуп саналат, ал эми регрессия көйгөйлөрү үчүн да колдонсо болот.

Логистикалык регрессия көз карандысыз факторлордун маалыматын колдонуу менен категориялык көз каранды өзгөрмөнү болжолдоо үчүн колдонулат. Максаты 0 жана 1 ортосунда гана түшө турган жыйынтыктарды классификациялоо.

логистикалык регрессия

Киргизүүлөрдүн жалпы салмагы сигмоиддик функция менен иштетилет, 0 жана 1 ортосундагы маанилерди өзгөрткөн активдештирүү функциясы.

Логистикалык регрессиянын негизи болуп максималдуу ыктымалдыкты баалоо саналат, белгилүү бир байкалган маалыматтар менен болжолдонгон ыктымалдык бөлүштүрүүнүн параметрлерин эсептөө ыкмасы.

3. Чечим дарагы

Көзөмөлдөнгөн окуудан ажыраган дагы бир машина үйрөнүү ыкмасы - чечим дарагы. Классификация жана регрессия маселелери үчүн чечим дарагынын ыкмасын колдонсо болот.

Даракты элестеткен бул чечим кабыл алуу куралы иш-аракеттердин болочок натыйжаларын, чыгымдарын жана кесепеттерин көрсөтүү үчүн визуалдык өкүлчүлүктөрдү колдонот. Маалыматтарды өзүнчө бөлүктөргө бөлүү менен идея адамдын акылына окшош.

Чечим дарагы

Берилиштер биз аны гранулдаштыра алганча, өзүнчө бөлүктөргө бөлүнгөн. Чечим дарагынын негизги максаты - максаттуу өзгөрмөнүн классын болжолдоо үчүн колдонула турган окутуу моделин түзүү. Жетишпеген маанилерди Чечим дарагынын жардамы менен автоматтык түрдө иштетүүгө болот.

Бир жолу коддоо, жасалма өзгөрмөлөр же башка маалыматтарды алдын ала тазалоо кадамдары үчүн эч кандай талап жок. Ага жаңы маалыматтарды кошуу кыйын деген мааниде катаал. Эгер сизде кошумча белгиленген дайындар болсо, даракты бүт маалымат топтомуна кайра үйрөтүшүңүз керек.

Натыйжада, чечим дарактары динамикалык моделди өзгөртүүнү талап кылган ар кандай колдонмо үчүн начар тандоо болуп саналат.

Максаттуу өзгөрмөнүн түрүнө жараша, чечим дарактары эки түргө бөлүнөт:

Категориялык өзгөрмө: Максат өзгөрмөсү категориялык болгон чечим дарагы.
Үзгүлтүксүз өзгөрмө: Максат өзгөрмөсү Үзгүлтүксүз болгон чечим дарагы.

4. Кокус токой

Random Forest Method - бул машинаны үйрөнүүнүн кийинки ыкмасы жана классификация жана регрессия маселелеринде кеңири колдонулган көзөмөлдөнүүчү машина үйрөнүү алгоритми. Бул ошондой эле чечим дарагына окшош даракка негизделген ыкма.

Дарактардан турган токой же көптөгөн чечүүчү дарактар, чечим чыгаруу үчүн кокус токой ыкмасы менен колдонулат. Классификация тапшырмаларын аткарууда, кокус токой ыкмасы үзгүлтүксүз өзгөрмөлөрдү камтыган маалымат топтомдору менен регрессия тапшырмаларын аткарууда категориялык өзгөрмөлөрдү колдонгон.

Random Forest

Ансамбль же көптөгөн моделдердин аралашуусу, кокус токой ыкмасы эмне кылат, башкача айтканда, божомолдор бир эмес, моделдердин тобу аркылуу жасалат.

Заманбап машина үйрөнүү системаларынын көпчүлүгүн түзгөн классификация жана регрессия көйгөйлөрү үчүн колдонуу мүмкүнчүлүгү кокус токойдун негизги артыкчылыгы болуп саналат.

Ансамбль эки башка стратегияны колдонот:

Каптоо: Муну жасоо менен, машыгуу маалымат топтому үчүн көбүрөөк маалымат өндүрүлөт. Божомолдордогу вариацияны азайтуу үчүн бул жасалат.
Көтөрүү – бул алсыз окуучуларды күчтүү окуучулар менен айкалыштыруу процесси, натыйжада акыркы үлгү максималдуу тактыкка ээ болот.

5. Naive Bayes

Бинардык (эки класстык) жана көп класстуу классификация маселеси Naive Bayes ыкмасын колдонуу менен чечилиши мүмкүн. Метод экилик же категория киргизүү маанилери аркылуу түшүндүрүлгөндө, аны түшүнүү эң жөнөкөй. Naive Bayes классификатору тарабынан жасалган божомол класста бир өзгөчөлүктүн болушу башка өзгөчөлүктөрдүн болушуна эч кандай тиешеси жок.

Naive Bayes

Жогорудагы формула көрсөтүп турат:

P(H): H гипотезасынын туура болуу ыктымалдыгы. Алдын ала ыктымалдуулук бул деп аталат.
P(E): Далилдердин ыктымалдыгы
P(E|H): Гипотезанын далилдер менен тастыкталуу ыктымалдыгы.
P(H|E): Далилдерди эске алуу менен гипотезанын чын болушу ыктымалдыгы.

Naive Bayes классификатору, бул атрибуттар бири-бири менен байланышкан болсо да, белгилүү бир натыйжанын ыктымалдыгын аныктоодо бул мүнөздөмөлөрдүн ар бирин жекече эске алат. А Naive Bayesian модели куруу үчүн жөнөкөй жана чоң маалымат топтому үчүн натыйжалуу.

Негизги болуу менен бирге эң татаал категориялаштыруу ыкмаларынан да жакшыраак иштей тургандыгы белгилүү. Бул жалгыз ыкмага эмес, Байес теоремасына негизделген алгоритмдердин жыйындысы.

6. К-Жакынкы кошуналар

K-эң жакын кошуналар (kNN) техникасы классификация жана регрессия маселелерин чечүү үчүн колдонула турган көзөмөлдөнгөн машина үйрөнүү бөлүгү болуп саналат. KNN алгоритми жакын жерде окшош объекттерди табууга болот деп болжолдойт.

Мен аны пикирлеш адамдардын чогулушу катары эстейм. kNN жакындыкты, жакындыкты же аралыкты колдонуу менен башка маалымат чекиттеринин ортосундагы окшоштук идеясын колдонот. Көрүнбөгөн маалыматтарды эң жакын белгиленген байкалуучу маалымат чекиттеринин негизинде белгилөө үчүн, графиктеги чекиттердин ортосундагы бөлүнүүнү аныктоо үчүн математикалык ыкма колдонулат.

K Жакынкы кошуналар

Жакынкы салыштырылуучу тактарды аныктоо үчүн маалымат чекиттеринин ортосундагы аралыкты аныктоо керек. Бул үчүн Евклиддик аралык, Хамминг аралык, Манхэттен аралык жана Минковски аралыктары сыяктуу аралыкты өлчөөлөр колдонулушу мүмкүн. К жакынкы кошуна саны катары белгилүү жана ал көбүнчө так сан болуп саналат.

KNN классификация жана регрессия көйгөйлөрүнө колдонулушу мүмкүн. KNN регрессия маселелери үчүн колдонулганда жасалган болжолдоо К-эң окшош көрүнүштөрдүн орточо же медианасына негизделген.

КННге негизделген классификациялоо алгоритминин натыйжасын К эң окшош көрүнүштөрдүн арасында эң жогорку жыштыгы бар класс катары аныктоого болот. Ар бир инстанция негизинен өз классы үчүн добуш берет жана болжолдоо эң көп добуш алган класска таандык.

7. К- билдирет

Бул кластердик маселелерди чечүүчү көзөмөлсүз окутуунун ыкмасы. Берилиштер топтому белгилүү сандагы кластерлерге бөлүнөт — келгиле аны К деп атагыла — ар бир кластердин маалымат чекиттери бир тектүү жана башка кластерлердегилерден айырмаланып тургандай кылып.

K 1 дегенди билдирет

K-кластерлөө методологиясын билдирет:

Ар бир кластер үчүн K-меанс алгоритми k центроиддерди же чекиттерди тандайт.
Жакынкы центроиддер же К кластерлери менен ар бир маалымат чекити кластерди түзөт.
Эми, жаңы центроиддер буга чейин катышкан кластердин мүчөлөрүнө жараша чыгарылат.
Ар бир маалымат чекити үчүн эң жакын аралык ушул жаңыртылган центроиддердин жардамы менен эсептелет. Центроиддер өзгөрмөйүнчө, бул процесс кайталанат.

Бул тезирээк, ишенимдүүрөөк жана түшүнүү үчүн жөнөкөй. Эгерде көйгөйлөр бар болсо, k-каражаттын ыңгайлашуусу жөндөөлөрдү жөнөкөйлөтөт. Берилиштер топтомдору бири-биринен айырмаланган же жакшы обочолонгондо, натыйжалар эң жакшы болот. Ал туура эмес маалыматтарды же четтөөлөрдү башкара албайт.

8. Колдоо вектордук машиналар

Маалыматтарды классификациялоо үчүн SVM ыкмасын колдонууда чийки маалыматтар n-өлчөмдүү мейкиндикте чекиттер катары көрсөтүлөт (мында n - сизде болгон функциялардын саны). Андан кийин берилиштерди оңой классификациялоого болот, анткени ар бир функциянын мааниси андан кийин белгилүү бир координатка туташтырылган.

Маалыматтарды бөлүп, графикке коюу үчүн классификаторлор деп аталган сызыктарды колдонуңуз. Бул ыкма ар бир маалымат чекитин n-өлчөмдүү мейкиндиктеги чекит катары графигин түзөт, мында n - сизде бар функциялардын саны жана ар бир өзгөчөлүктүн мааниси - белгилүү бир координаттык маани.

Колдоо вектордук машина

Эми биз маалыматтарды эки башка категорияга бөлүнгөн маалымат топтомуна бөлгөн сызыкты табабыз. Эки топтун ар бириндеги эң жакын чекиттердин аралыктары бул сызык боюнча бири-биринен эң алысыраак болот.

Эң жакын эки чекит жогорудагы мисалдагы сызыктан эң алыс жайгашкандыктан, маалыматтарды эки башка топко бөлгөн сызык орто сызык болуп саналат. Биздин классификатор бул сызык.

9. Өлчөмдүүлүктү азайтуу

Өлчөмдүүлүктү азайтуу ыкмасын колдонуу менен, окутуу маалыматтарында киргизүү өзгөрмөлөрү азыраак болушу мүмкүн. Жөнөкөй сөз менен айтканда, бул сиздин функциялар топтомуңуздун көлөмүн кичирейтүү процессин билдирет. Сиздин берилиштер топтомуңузда 100 тилке бар деп элестетип көрөлү; өлчөмдүүлүктү азайтуу бул сумманы 20 мамычага чейин азайтат.

Өлчөмдүүлүктү азайтуу

Модель автоматтык түрдө татаалдашат жана функциялардын саны көбөйгөн сайын ашыкча жабдылышы ыктымал. Чоңураак өлчөмдөгү маалыматтар менен иштөөдөгү эң чоң көйгөй - бул "өлчөмдүүлүктүн каргышы" деп аталган нерсе, ал сиздин маалыматтарыңыз ашыкча сандагы мүнөздөмөлөрдү камтыганда пайда болот.

Өлчөмдүүлүктү азайтуу үчүн төмөнкү элементтерди колдонсо болот:

Тиешелүү мүнөздөмөлөрдү табуу жана тандоо үчүн өзгөчөлүк тандоо колдонулат.
Бар болгон функцияларды колдонуу менен, өзгөчөлүк инженериясы кол менен жаңы функцияларды жаратат.

жыйынтыктоо

Көзөмөлсүз же көзөмөлсүз машина үйрөнүү экөө тең мүмкүн. Эгер дайындарыңыз азыраак болсо жана окутуу үчүн жакшы белгиленсе, көзөмөлдөнүүчү окутууну тандаңыз.

Чоң маалымат топтомдору көбүнчө көзөмөлсүз окутууну колдонуп, жакшы натыйжаларды берет. Deep окутуу Эгер сизде жеткиликтүү маалымат топтому болсо, ыкмалар эң жакшы.

Кубаттоо билим жана терең бекемдөөнү үйрөнүү - сиз окуган кээ бир темалар. Нейрондук тармактардын мүнөздөмөлөрү, колдонулушу жана чектөөлөрү эми сизге түшүнүктүү. Акыркысы, бирок эң аз дегенде, сиз өзүңүздүн жеке тилиңизди түзүүгө келгенде ар кандай программалоо тилдеринин, IDEлердин жана платформалардын варианттарын карап чыктыңыз. машина менен окутуунун моделдери.

Кийинки нерсе - ар бирин изилдеп, колдонууну баштоо машина үйрөнүү мамиле. Тема кенен болсо да, анын тереңдигине көңүл бурсаңыз, каалаган теманы бир нече саатта түшүнүүгө болот. Ар бир предмет башкалардан өзүнчө турат.

Сиз бир маалда бир маселе боюнча ойлонуп, аны изилдеп, иш жүзүндө колдонуп, андагы алгоритм(дерди) ишке ашыруу үчүн өзүңүз каалаган тилди колдонушуңуз керек.

Жаңы баштагандар үчүн машинаны үйрөнүүнүн негизги алгоритмдеринин тизмеси

Ошентип, Machine Learning алгоритмдери деген эмне?