Yangi boshlanuvchilar uchun mashinani o'rganishning asosiy algoritmlari ro'yxati

Mundarija[Yashirish][Show]

Xo'sh, Machine Learning algoritmlari nima?
Nazorat ostidagi, nazoratsiz va mustahkamlovchi o‘rganish+-
Mashinani o'rganishning asosiy algoritmlari+-
Xulosa

Sun'iy intellekt va kundalik hayotimizning barcha jabhalariga ta'sir ko'rsatadigan mashinalarni o'rganish tufayli dunyo tez o'zgarmoqda.

NLP va mashinani o'rganishdan foydalanadigan ovozli yordamchilardan tortib, uchrashuvlarni bron qilish, taqvimimizdagi voqealarni qidirish va musiqa tinglash juda aniq qurilmalargacha, ular bizning ehtiyojlarimizni biz ularni ko'rib chiqishimizdan oldin oldindan bilib olishlari mumkin.

Kompyuterlar shaxmat o'ynashi, jarrohlik amaliyotini bajarishi va mashinani o'rganish algoritmlari yordamida aqlliroq, odamga o'xshash mashinalarga aylanishi mumkin.

Biz uzluksiz texnologik taraqqiyot davridamiz va vaqt o'tishi bilan kompyuterlar qanday rivojlanganligini ko'rib, kelajakda nima bo'lishini bashorat qilishimiz mumkin.

Hisoblash vositalari va usullarini demokratlashtirish ushbu inqilobning muhim jihatlaridan biridir. Ma'lumot olimlari so'nggi besh yil ichida ilg'or metodologiyalarni bemalol tatbiq etish orqali kuchli ma'lumotlarni sindiruvchi kompyuterlarni yaratdilar. Natijalar hayratlanarli.

Ushbu postda biz diqqat bilan ko'rib chiqamiz kompyuterni o'rganish algoritmlar va ularning barcha o'zgarishlari.

Xo'sh, Machine Learning algoritmlari nima?

AI tizimi o'z vazifasini bajarish uchun qo'llaniladigan yondashuv - odatda, berilgan kirish ma'lumotlaridan chiqish qiymatlarini bashorat qilish - mashinani o'rganish algoritmi sifatida tanilgan.

Mashinani o'rganish algoritmi - bu ma'lumotlardan foydalanadigan va ishlab chiqarishga tayyor bo'lgan mashinani o'rganish modellarini yaratish uchun ishlatiladigan jarayon. Agar mashinani o'rganish ishni bajaradigan poezd bo'lsa, mashinani o'rganish algoritmlari ishni harakatga keltiradigan lokomotivlardir.

Foydalanish uchun eng yaxshi mashinani o'rganish yondashuvi siz hal qilmoqchi bo'lgan biznes muammosi, foydalanayotgan ma'lumotlar to'plamining turi va mavjud resurslaringiz bilan belgilanadi.

Mashinani o'rganish algoritmlari ma'lumotlar to'plamini modelga aylantiradigan algoritmlardir. Siz javob bermoqchi bo'lgan muammo turiga, mavjud ishlov berish quvvatiga va sizda mavjud bo'lgan ma'lumotlar turiga qarab, nazorat ostidagi, nazoratsiz yoki mustahkamlovchi o'rganish algoritmlari yaxshi ishlashi mumkin.

Shunday qilib, biz nazorat ostida, nazoratsiz va mustahkamlovchi o'rganish haqida gaplashdik, ammo ular nima? Keling, ularni kashf qilaylik.

Nazorat ostidagi, nazoratsiz va mustahkamlovchi o‘rganish

Boshqariladigan o'rganish

Nazorat ostidagi ta'limda AI modeli taqdim etilgan ma'lumotlar va bashorat qilingan natijani ifodalovchi yorliq asosida ishlab chiqiladi. Kirish va chiqishlar asosida model xaritalash tenglamasini ishlab chiqadi va ushbu xaritalash tenglamasidan foydalanib, kelajakdagi kirishlar yorlig'ini bashorat qiladi.

Aytaylik, it va mushukni ajrata oladigan model yaratishimiz kerak. Modelni o'rgatish uchun mushuk va itlarning bir nechta fotosuratlari ularning mushuk yoki it ekanligini ko'rsatadigan yorliqlar bilan modelga kiritilgan.

Model kirish fotosuratlaridagi teglar bilan ushbu tasvirlar bilan bog'liq tenglama o'rnatishga intiladi. Model ilgari hech qachon tasvirni ko'rmagan bo'lsa ham, mashg'ulotdan so'ng u mushuk yoki itga tegishli ekanligini aniqlay oladi.

Boshqarmasdan o'rganish

Nazoratsiz o'rganish AI modelini faqat kirishlar bo'yicha ularni etiketlamasdan o'qitishni o'z ichiga oladi. Model kiritilgan ma'lumotlarni tegishli xususiyatlarga ega guruhlarga ajratadi.

Keyinchalik kirishning kelajakdagi yorlig'i uning atributlari tasniflardan biriga qanchalik mos kelishiga qarab prognoz qilinadi. Qizil va ko'k to'plar guruhini ikkita toifaga ajratishimiz kerak bo'lgan vaziyatni ko'rib chiqing.

Faraz qilaylik, to'plarning boshqa xususiyatlari bir xil, rangdan tashqari. To'plarni ikki sinfga qanday ajratish mumkinligi asosida, model to'plar orasidagi farqli xususiyatlarni qidiradi.

Ikkita to'p klasteri - biri ko'k va bitta qizil - to'plar rangiga qarab ikki guruhga bo'linganda hosil bo'ladi.

Takomillashtirish

O'rganishni kuchaytirishda AI modeli muayyan vaziyatda bo'lgani kabi harakat qilish orqali umumiy foydani maksimal darajada oshirishga intiladi. Uning oldingi natijalari bo'yicha fikr-mulohazalar modelni o'rganishga yordam beradi.

Robotga A va B nuqtalari orasidagi marshrutni tanlash bo'yicha ko'rsatma berilgan stsenariy haqida o'ylab ko'ring. Robot avvaldan hech qanday tajribaga ega bo'lmagani uchun kurslardan birini tanlaydi.

Robot o'zi boradigan marshrut haqida ma'lumot oladi va undan bilim oladi. Robot keyingi safar shunga o'xshash vaziyatga duch kelganida muammoni hal qilish uchun kiritilgan ma'lumotlardan foydalanishi mumkin.

Misol uchun, agar robot B variantini tanlasa va ijobiy fikr bildirish kabi mukofot olsa, u bu safar mukofotini oshirish uchun B usulini tanlashi kerakligini tushunadi.

Nihoyat, barchangiz kutayotgan narsa bu algoritmlar.

Mashinani o'rganishning asosiy algoritmlari

1. Chiziqli regressiya

Nazorat ostidagi o'rganishdan chetga chiqadigan eng oddiy mashinani o'rganish usuli chiziqli regressiyadir. Mustaqil o'zgaruvchilardan olingan bilimlar bilan u asosan regressiya masalalarini hal qilish va doimiy bog'liq o'zgaruvchilar bo'yicha bashoratlarni yaratish uchun ishlatiladi.

Uzluksiz qaram o'zgaruvchilar uchun natijani bashorat qilishga yordam beradigan eng yaxshi moslik chizig'ini topish chiziqli regressiyaning maqsadi hisoblanadi. Uy-joy narxlari, yoshi va ish haqi doimiy qiymatlarning ba'zi bir misolidir.

Lineer regressiya

Oddiy chiziqli regressiya deb nomlanuvchi model bitta mustaqil o'zgaruvchi va bitta qaram o'zgaruvchi o'rtasidagi bog'lanishni hisoblash uchun to'g'ri chiziqdan foydalanadi. Ko'p chiziqli regressiyada ikkitadan ortiq mustaqil o'zgaruvchilar mavjud.

Chiziqli regressiya modeli to'rtta asosiy farazga ega:

Chiziqlilik: X va Y ning o'rtacha qiymati o'rtasida chiziqli bog'liqlik mavjud.
Homoskedastiklik: X ning har bir qiymati uchun qoldiq dispersiya bir xil bo'ladi.
Mustaqillik: Kuzatishlar mustaqillik nuqtai nazaridan bir-biridan mustaqil.
Oddiylik: X aniqlanganda, Y normal taqsimlanadi.

Chiziqli regressiya chiziqlar bo'ylab ajratilishi mumkin bo'lgan ma'lumotlar uchun ajoyib ishlaydi. U tartibga solish, o'zaro tekshirish va o'lchamlarni kamaytirish usullaridan foydalangan holda ortiqcha moslamani boshqarishi mumkin. Biroq, ba'zida haddan tashqari o'rnatish va shovqinga olib keladigan keng qamrovli muhandislik talab qilinadigan holatlar mavjud.

2. Logistik regressiya

Logistik regressiya - bu nazorat ostida o'rganishdan ajralib turadigan yana bir mashinani o'rganish usuli. Uning asosiy qo'llanilishi tasniflash bo'lib, u regressiya muammolari uchun ham ishlatilishi mumkin.

Logistik regressiya mustaqil omillardan olingan ma'lumotlardan foydalangan holda kategorik bog'liq o'zgaruvchini prognoz qilish uchun ishlatiladi. Maqsad faqat 0 dan 1 gacha bo'lishi mumkin bo'lgan natijalarni tasniflashdir.

Logistik regressiya

Kirishlarning umumiy og'irligi sigmasimon funktsiya tomonidan qayta ishlanadi, bu 0 dan 1 gacha bo'lgan qiymatlarni o'zgartiradigan faollashtirish funktsiyasi.

Logistik regressiyaning asosi - maksimal ehtimollikni baholash, aniq kuzatilgan ma'lumotlar asosida taxmin qilingan ehtimollik taqsimotining parametrlarini hisoblash usuli.

3. Qarorlar daraxti

Nazorat ostidagi o'rganishdan ajralib chiqadigan yana bir mashinani o'rganish usuli - bu qaror daraxti. Tasniflash va regressiya masalalari uchun qarorlar daraxti yondashuvidan foydalanish mumkin.

Daraxtga o'xshagan ushbu qaror qabul qilish vositasi harakatlarning istiqbolli natijalari, xarajatlari va oqibatlarini ko'rsatish uchun vizual tasvirlardan foydalanadi. Ma'lumotlarni alohida qismlarga bo'lish orqali g'oya inson ongiga o'xshashdir.

Qaror daraxti

Ma'lumotlar biz uni granulyatsiya qilishimiz mumkin bo'lgan darajada alohida qismlarga bo'lingan. Qarorlar daraxtining asosiy maqsadi maqsadli o'zgaruvchining sinfini prognoz qilish uchun ishlatilishi mumkin bo'lgan o'quv modelini yaratishdir. Yetishmayotgan qiymatlar qarorlar daraxti yordamida avtomatik tarzda ishlov berilishi mumkin.

Bir martalik kodlash, soxta o'zgaruvchilar yoki boshqa ma'lumotlarni qayta ishlash bosqichlari uchun hech qanday talab yo'q. Unga yangi ma'lumotlarni qo'shish qiyin degan ma'noda qattiq. Agar sizda qo'shimcha etiketli ma'lumotlar mavjud bo'lsa, daraxtni butun ma'lumotlar to'plamida qayta o'qitishingiz kerak.

Natijada, qarorlar daraxtlari dinamik modelni o'zgartirishni talab qiladigan har qanday dastur uchun yomon tanlovdir.

Maqsadli o'zgaruvchining turiga qarab, qaror daraxtlari ikki turga bo'linadi:

Kategorik o'zgaruvchi: Maqsad o'zgaruvchisi kategorik bo'lgan qaror daraxti.
Uzluksiz o'zgaruvchi: Maqsad o'zgaruvchisi Uzluksiz bo'lgan qaror daraxti.

4. Tasodifiy o'rmon

Tasodifiy o'rmon usuli mashinani o'rganishning navbatdagi usuli bo'lib, tasniflash va regressiya masalalarida keng qo'llaniladigan nazorat ostidagi mashinani o'rganish algoritmidir. Bu, shuningdek, qaror daraxtiga o'xshash daraxtga asoslangan usul.

Daraxtlar o'rmoni yoki ko'plab qaror daraxtlari hukm chiqarish uchun tasodifiy o'rmon usuli bilan ishlatiladi. Tasniflash vazifalarini bajarishda tasodifiy o'rmon usuli uzluksiz o'zgaruvchilarni o'z ichiga olgan ma'lumotlar to'plami bilan regressiya vazifalarini bajarishda kategorik o'zgaruvchilardan foydalangan.

Tasodifiy o'rmon

Ansambl yoki ko'plab modellarni aralashtirish tasodifiy o'rmon usulini bajaradi, ya'ni bashoratlar faqat bitta emas, balki bir guruh modellar yordamida amalga oshiriladi.

Zamonaviy mashinalarni o'rganish tizimlarining aksariyat qismini tashkil etuvchi tasniflash va regressiya muammolari uchun foydalanish qobiliyati tasodifiy o'rmonning asosiy afzalligi hisoblanadi.

Ansambl ikki xil strategiyadan foydalanadi:

Qoplash: Buni amalga oshirish orqali o'quv ma'lumotlar to'plami uchun ko'proq ma'lumotlar ishlab chiqariladi. Prognozlardagi o'zgarishlarni kamaytirish uchun bu amalga oshiriladi.
Boosting - bu ketma-ket modellarni yaratish orqali zaif o'quvchilarni kuchli o'quvchilar bilan birlashtirish jarayoni, natijada maksimal aniqlik bilan yakuniy model olinadi.

5. Naive Bayes

Ikkilik (ikki sinf) va ko'p sinfli tasniflash masalasini Naive Bayes texnikasi yordamida hal qilish mumkin. Usul ikkilik yoki kategoriya kiritish qiymatlari yordamida tushuntirilganda, uni tushunish eng oson bo'ladi. Naive Bayes klassifikatori tomonidan qilingan taxmin shundan iboratki, sinfda bir xususiyatning mavjudligi boshqa xususiyatlarning mavjudligiga ta'sir qilmaydi.

Naif Bayes

Yuqoridagi formula quyidagilarni bildiradi:

P (H): H gipotezasi to'g'ri bo'lish ehtimoli. Oldingi ehtimollik bu deb ataladi.
P (E): Dalillarning ehtimolligi
P (E | H): gipotezaning dalillar bilan qo'llab-quvvatlanishi ehtimoli.
P (H | E): dalillarni hisobga olgan holda gipotezaning to'g'ri bo'lish ehtimoli.

Naive Bayes klassifikatori ma'lum bir natija ehtimolini aniqlashda ushbu xususiyatlarning har birini alohida hisobga oladi, hatto bu atributlar bir-biriga bog'langan bo'lsa ham. Naive Bayesian modeli qurish oson va katta ma'lumotlar to'plami uchun samarali.

Ma'lumki, u asosiy bo'lsa ham, eng murakkab toifalash usullaridan ham yaxshiroq ishlaydi. Bu bitta usul emas, balki Bayes teoremasiga asoslangan algoritmlar to'plamidir.

6. K-Eng yaqin qo'shnilar

K-eng yaqin qo'shnilar (kNN) texnikasi tasniflash va regressiya masalalarini hal qilish uchun ishlatilishi mumkin bo'lgan nazorat ostidagi mashinalarni o'rganishning kichik to'plamidir. KNN algoritmi yaqin atrofda taqqoslanadigan ob'ektlarni topish mumkinligini taxmin qiladi.

Men buni hamfikrlar yig'ilishi sifatida eslayman. kNN yaqinlik, yaqinlik yoki masofadan foydalangan holda boshqa ma'lumotlar nuqtalari o'rtasidagi o'xshashlik g'oyasidan foydalanadi. Ko'rinmaydigan ma'lumotlarni eng yaqin etiketlangan kuzatilishi mumkin bo'lgan ma'lumotlar nuqtalari asosida belgilash uchun grafikdagi nuqtalar orasidagi bo'linishni aniqlash uchun matematik usul qo'llaniladi.

K eng yaqin qo'shnilar

Eng yaqin taqqoslanadigan nuqtalarni aniqlash uchun ma'lumotlar nuqtalari orasidagi masofani aniqlashingiz kerak. Buning uchun Evklid masofasi, Hamming masofasi, Manxetten masofasi va Minkovski masofasi kabi masofa o'lchovlaridan foydalanish mumkin. K eng yaqin qo'shni raqam sifatida tanilgan va u ko'pincha toq sondir.

KNN tasniflash va regressiya muammolariga qo'llanilishi mumkin. KNN regressiya masalalari uchun foydalanilganda qilingan bashorat K-eng o'xshash hodisalarning o'rtacha yoki medianasiga asoslanadi.

KNNga asoslangan tasniflash algoritmining natijasini K eng o'xshash hodisalar orasida eng yuqori chastotaga ega bo'lgan sinf sifatida aniqlash mumkin. Har bir misol asosan o'z sinfi uchun ovoz beradi va bashorat eng ko'p ovoz olgan sinfga tegishli.

7. K- degani

Bu klasterlash masalalarini hal qiluvchi nazoratsiz ta'lim texnikasi. Ma'lumotlar to'plamlari ma'lum miqdordagi klasterlarga bo'lingan - keling, uni K deb ataymiz - har bir klasterning ma'lumotlar nuqtalari bir hil va boshqa klasterlardagidan farq qiladigan tarzda.

K 1 degan ma'noni anglatadi

K-klasterlash metodologiyasini anglatadi:

Har bir klaster uchun K-means algoritmi k centroid yoki nuqtani tanlaydi.
Eng yaqin markazlar yoki K klasterlari bilan har bir ma'lumot nuqtasi klasterni hosil qiladi.
Endi mavjud bo'lgan klaster a'zolariga qarab yangi centroidlar ishlab chiqariladi.
Har bir ma'lumot nuqtasi uchun eng yaqin masofa ushbu yangilangan centroidlar yordamida hisoblanadi. Tsentroidlar o'zgarmaguncha, bu jarayon takrorlanadi.

Bu tezroq, ishonchliroq va tushunish osonroq. Muammolar mavjud bo'lsa, k-vositalari moslashuvi sozlashlarni soddalashtiradi. Ma'lumotlar to'plamlari bir-biridan aniq yoki yaxshi ajratilgan bo'lsa, natijalar eng yaxshi bo'ladi. U noto'g'ri ma'lumotlarni yoki o'zgaruvchan qiymatlarni boshqara olmaydi.

8. Vektorli mashinalarni qo'llab-quvvatlash

Ma'lumotlarni tasniflash uchun SVM texnikasidan foydalanganda, xom ma'lumotlar n o'lchovli bo'shliqda nuqta sifatida ko'rsatiladi (bu erda n - sizda mavjud bo'lgan xususiyatlar soni). Keyin ma'lumotlarni osongina tasniflash mumkin, chunki har bir xususiyatning qiymati ma'lum bir koordinataga ulanadi.

Ma'lumotlarni ajratish va ularni grafikaga qo'yish uchun tasniflagichlar deb nomlanuvchi chiziqlardan foydalaning. Ushbu yondashuv har bir ma'lumot nuqtasini n o'lchovli fazodagi nuqta sifatida chizadi, bu erda n - sizda mavjud bo'lgan xususiyatlar soni va har bir xususiyatning qiymati ma'lum bir koordinata qiymati.

Vektor mashinasini qo'llab-quvvatlash

Endi biz ma'lumotlarni turli xil tasniflangan ikkita ma'lumotlar to'plamiga ajratadigan qatorni topamiz. Ikkala guruhning har biridagi eng yaqin nuqtalardan masofalar ushbu chiziq bo'ylab bir-biridan eng uzoq bo'ladi.

Eng yaqin ikkita nuqta yuqoridagi misoldagi chiziqdan eng uzoqda joylashganligi sababli, ma'lumotlarni turli xil tasniflangan ikkita guruhga ajratadigan chiziq o'rta chiziqdir. Bizning klassifikatorimiz bu qatordir.

9. Hajmining qisqarishi

O'lchamlarni kamaytirish yondashuvidan foydalangan holda, o'quv ma'lumotlari kamroq kirish o'zgaruvchilariga ega bo'lishi mumkin. Oddiy so'zlar bilan aytganda, bu sizning xususiyatlar to'plamining hajmini qisqartirish jarayonini anglatadi. Tasavvur qilaylik, sizning ma'lumotlar majmuangiz 100 ta ustunga ega; o'lchamlarni kamaytirish bu miqdorni 20 ustunga kamaytiradi.

O'lchovni kamaytirish

Model avtomatik ravishda yanada murakkablashadi va funksiyalar soni ortib borishi bilan haddan tashqari moslashish xavfi katta. Kattaroq o'lchamdagi ma'lumotlar bilan ishlashning eng katta muammosi "o'lchovlilik la'nati" deb nomlanuvchi narsadir, bu sizning ma'lumotlaringiz haddan tashqari ko'p xususiyatlarni o'z ichiga olganida yuzaga keladi.

O'lchamlarni kamaytirish uchun quyidagi elementlardan foydalanish mumkin:

Tegishli xususiyatlarni topish va tanlash uchun xususiyat tanlash qo'llaniladi.
Mavjud xususiyatlardan foydalangan holda, xususiyat muhandisligi qo'lda yangi xususiyatlarni yaratadi.

Xulosa

Nazoratsiz yoki nazorat ostida mashinani o'rganish ikkalasi ham mumkin. Agar maʼlumotlaringiz kam boʻlsa va mashgʻulotlar uchun yaxshi belgilangan boʻlsa, nazorat ostida oʻrganishni tanlang.

Katta ma'lumotlar to'plamlari ko'pincha nazoratsiz ta'limdan foydalangan holda yaxshi natijalar beradi va yaxshi natijalar beradi. Chuqur o'rganish Agar sizda mavjud bo'lgan katta hajmdagi ma'lumotlar to'plami bo'lsa, usullar eng yaxshisidir.

Mustahkamlashni o'rganish va chuqur mustahkamlashni o'rganish siz o'rgangan ba'zi mavzulardir. Neyron tarmoqlarning xususiyatlari, qo'llanilishi va cheklovlari endi sizga tushunarli. Va nihoyat, siz o'zingizni yaratishda turli xil dasturlash tillari, IDE va platformalar uchun variantlarni ko'rib chiqdingiz. mashinani o'rganish modellari.

Siz qilishingiz kerak bo'lgan keyingi narsa - har birini o'rganish va foydalanishni boshlashdir kompyuterni o'rganish yondashuv. Mavzu keng bo'lsa ham, agar siz uning chuqurligiga e'tibor qaratsangiz, har qanday mavzuni bir necha soat ichida tushunish mumkin. Har bir mavzu boshqalardan ajralib turadi.

Siz bir vaqtning o'zida bitta masala haqida o'ylashingiz, uni o'rganishingiz, amalda qo'llashingiz va unda algoritm(lar)ni amalga oshirish uchun o'zingiz tanlagan tildan foydalanishingiz kerak.

Yangi boshlanuvchilar uchun mashinani o'rganishning asosiy algoritmlari ro'yxati

Xo'sh, Machine Learning algoritmlari nima?