Pagrindinių mašininio mokymosi algoritmų pradedantiesiems sąrašas

Turinys[Slėpti][Rodyti]

Taigi, kas yra mašininio mokymosi algoritmai?
Mokymasis prižiūrimas, neprižiūrimas ir sustiprinimas+-
Pagrindiniai mašininio mokymosi algoritmai+-
Išvada

Pasaulis greitai keičiasi dėl dirbtinio intelekto ir mašininio mokymosi, kuris turi įtakos kiekvienam mūsų kasdienio gyvenimo aspektui.

Nuo balso padėjėjų, naudojančių NLP ir mašininį mokymąsi, kad būtų galima rezervuoti susitikimus, ieškoti įvykių mūsų kalendoriuje ir leisti muziką, baigiant įrenginiais, kurie yra tokie tikslūs, kad gali numatyti mūsų poreikius, kol net nesvarstome.

Kompiuteriai gali žaisti šachmatais, atlikti operacijas ir, naudodamiesi mašininio mokymosi algoritmais, išsivystyti į protingesnes, labiau į žmones panašias mašinas.

Esame nuolatinės technologinės pažangos metu ir matydami, kaip laikui bėgant vystėsi kompiuteriai, galime numatyti, kas nutiks ateityje.

Skaičiavimo įrankių ir metodų demokratizavimas yra vienas iš pagrindinių šios revoliucijos aspektų, kuris išsiskiria. Duomenų mokslininkai per pastaruosius penkerius metus sukūrė galingus duomenis tiriančius kompiuterius, nesunkiai diegdami pažangiausias metodikas. Rezultatai yra stulbinantys.

Šiame įraše mes atidžiai apžvelgsime mašininis mokymasis algoritmai ir visi jų variantai.

Taigi, kas yra mašininio mokymosi algoritmai?

Metodas, kurį AI sistema naudoja savo užduočiai atlikti (paprastai numatant išvesties vertes iš pateiktų įvesties duomenų), yra žinomas kaip mašininio mokymosi algoritmas.

Mašininio mokymosi algoritmas yra procesas, kuris naudoja duomenis ir yra naudojamas mašininio mokymosi modeliams, paruoštiems gamybai, kurti. Jei mašininis mokymasis yra traukinys, kuris atlieka darbą, tai mašininio mokymosi algoritmai yra lokomotyvai, kurie atlieka darbą.

Geriausias mašininio mokymosi metodas priklausys nuo verslo problemos, kurią bandote išspręsti, naudojamo duomenų rinkinio tipą ir turimus išteklius.

Mašininio mokymosi algoritmai yra tie, kurie paverčia duomenų rinkinį modeliu. Priklausomai nuo problemos, kurią bandote išspręsti, apdorojimo galia ir turimų duomenų tipo, prižiūrimi, neprižiūrimi arba sustiprinami mokymosi algoritmai gali veikti gerai.

Taigi, mes kalbėjome apie prižiūrimą, neprižiūrimą ir sustiprintą mokymąsi, bet kas tai yra? Patyrinėkime juos.

Mokymasis prižiūrimas, neprižiūrimas ir sustiprinimas

Vadovaujamasi mokymuisi

Mokantis prižiūrint dirbtinio intelekto modelis kuriamas remiantis pateikta informacija ir etikete, nurodančia numatomą rezultatą. Remiantis įvestimis ir išvestimis, modelis sukuria atvaizdavimo lygtį ir, naudodamas šią lygtį, prognozuoja įvesties etiketę ateityje.

Tarkime, reikia sukurti modelį, kuris atskirtų šunį nuo katės. Į modelį įtraukiamos kelios kačių ir šunų nuotraukos su etiketėmis, nurodančiomis, ar tai katės ar šunys, kad būtų galima dresuoti modelį.

Modeliu siekiama nustatyti lygtį, susiejančią įvestų nuotraukų etiketes su tais vaizdais. Net jei modelis niekada anksčiau nematė vaizdo, po treniruotės jis gali nustatyti, ar tai katė, ar šuo.

Neprižiūrimas mokymasis

Neprižiūrimas mokymasis apima AI modelio mokymą tik naudojant įvestis, jų neženklinant. Modelis suskirsto įvesties duomenis į grupes su susijusiomis charakteristikomis.

Tada prognozuojama būsima įvesties etiketė, atsižvelgiant į tai, kiek jos atributai atitinka vieną iš klasifikacijų. Apsvarstykite situaciją, kai raudonų ir mėlynų kamuoliukų grupę turime padalyti į dvi kategorijas.

Tarkime, kad kitos kamuoliukų savybės yra identiškos, išskyrus spalvą. Remdamasis tuo, kaip galima suskirstyti kamuoliukus į dvi klases, modelis ieško skirtingų kamuoliukų charakteristikų.

Dvi rutuliukų sankaupos – vienas mėlynas ir vienas raudonas – susidaro, kai rutuliai skirstomi į dvi grupes pagal jų atspalvį.

Stiprinimo mokymasis

Stiprinant mokymąsi, AI modelis siekia maksimaliai padidinti bendrą pelną, veikdamas taip gerai, kaip gali tam tikromis aplinkybėmis. Atsiliepimai apie ankstesnius rezultatus padeda modeliui mokytis.

Pagalvokite apie scenarijų, kai robotui nurodoma pasirinkti maršrutą tarp taškų A ir B. Robotas pirmiausia pasirenka bet kurį iš kursų, nes neturi ankstesnės patirties.

Robotas gauna informaciją apie nueitą maršrutą ir iš jo įgyja žinių. Robotas gali panaudoti įvestį, kad išspręstų problemą, kai kitą kartą susidurs su panašia aplinkybe.

Pavyzdžiui, jei robotas pasirenka B parinktį ir gauna atlygį, pavyzdžiui, teigiamą atsiliepimą, šį kartą jis supranta, kad turi pasirinkti būdą B, kad padidintų atlygį.

Pagaliau tai, ko jūs visi laukiate, yra algoritmai.

Pagrindiniai mašininio mokymosi algoritmai

1. Tiesinė regresija

Paprasčiausias mašininio mokymosi metodas, nukrypstantis nuo prižiūrimo mokymosi, yra tiesinė regresija. Turint žinių iš nepriklausomų kintamųjų, jos dažniausiai naudojamos regresijos problemoms spręsti ir prognozėms dėl nuolatinių priklausomų kintamųjų kurti.

Linijinės regresijos tikslas yra rasti tinkamiausią liniją, kuri gali padėti prognozuoti nuolatinių priklausomų kintamųjų rezultatą. Būsto kainos, amžius ir darbo užmokestis yra keletas nuolatinių verčių pavyzdžių.

tiesinės regresijos

Modelis, žinomas kaip paprasta tiesinė regresija, naudoja tiesią liniją, kad apskaičiuotų ryšį tarp vieno nepriklausomo kintamojo ir vieno priklausomo kintamojo. Daugialypėje tiesinėje regresijoje yra daugiau nei du nepriklausomi kintamieji.

Linijinės regresijos modelis turi keturias pagrindines prielaidas:

Tiesiškumas: tarp X ir Y vidurkio yra tiesinis ryšys.
Homoscedastiškumas: kiekvienai X vertei likutinė dispersija yra tokia pati.
Nepriklausomybė: stebėjimai nepriklauso vienas nuo kito nepriklausomumo požiūriu.
Normalumas: kai X yra fiksuotas, Y yra normaliai pasiskirstęs.

Tiesinė regresija puikiai tinka duomenims, kuriuos galima atskirti linijomis. Jis gali kontroliuoti permontavimą naudodamas reguliavimo, kryžminio patvirtinimo ir matmenų mažinimo metodus. Tačiau yra atvejų, kai reikia atlikti išsamią funkcijų inžineriją, dėl kurios kartais gali būti per daug pritaikyta ir atsirasti triukšmo.

2. Logistinė regresija

Logistinė regresija yra dar viena mašininio mokymosi technika, kuri skiriasi nuo prižiūrimo mokymosi. Pagrindinis jo panaudojimas yra klasifikavimas, tačiau jis taip pat gali būti naudojamas regresijos problemoms spręsti.

Logistinė regresija naudojama kategoriškai priklausomam kintamajam prognozuoti naudojant nepriklausomų veiksnių informaciją. Tikslas yra klasifikuoti rezultatus, kurie gali būti tik nuo 0 iki 1.

Logistinė regresija

Svertinis įvesties skaičius apdorojamas sigmoidine funkcija – aktyvinimo funkcija, kuri konvertuoja reikšmes nuo 0 iki 1.

Logistinės regresijos pagrindas yra didžiausios tikimybės įvertinimas – metodas, leidžiantis apskaičiuoti tariamo tikimybių skirstinio parametrus, atsižvelgiant į konkrečius stebimus duomenis.

3. Sprendimų medis

Kitas mašininio mokymosi metodas, kuris atsiskiria nuo prižiūrimo mokymosi, yra sprendimų medis. Tiek klasifikavimo, tiek regresijos klausimams spręsti galima taikyti sprendimų medžio metodą.

Šis sprendimų priėmimo įrankis, panašus į medį, naudoja vaizdinius vaizdus, kad parodytų būsimus veiksmų rezultatus, išlaidas ir pasekmes. Padalijus duomenis į atskiras dalis, idėja yra analogiška žmogaus protui.

Sprendimų medis

Duomenys buvo suskirstyti į atskiras dalis tiek, kiek galėjome juos susmulkinti. Pagrindinis Sprendimų medžio tikslas yra sukurti mokymo modelį, kuris gali būti naudojamas prognozuojant tikslinio kintamojo klasę. Trūkstamos reikšmės gali būti tvarkomos automatiškai, naudojant sprendimų medį.

Nereikalaujama vienkartinio kodavimo, netikrų kintamųjų ar kitų išankstinio duomenų apdorojimo veiksmų. Jis nelankstus ta prasme, kad sunku pridėti naujų duomenų. Jei gavote papildomų pažymėtų duomenų, turėtumėte iš naujo išmokyti medį visame duomenų rinkinyje.

Dėl to sprendimų medžiai yra prastas pasirinkimas bet kuriai programai, kuriai reikia dinamiško modelio keitimo.

Atsižvelgiant į tikslinio kintamojo rūšį, sprendimų medžiai skirstomi į du tipus:

Kategorinis kintamasis: sprendimų medis, kuriame tikslo kintamasis yra kategorinis.
Nuolatinis kintamasis: sprendimų medis, kuriame tikslo kintamasis yra nenutrūkstamas.

4. Atsitiktinis miškas

Atsitiktinis miško metodas yra kita mašininio mokymosi technika ir yra prižiūrimas mašininio mokymosi algoritmas, plačiai naudojamas klasifikavimo ir regresijos klausimais. Tai taip pat medžiu pagrįstas metodas, panašus į sprendimų medį.

Medžių miškas arba daugelis sprendimų medžių yra naudojami atsitiktiniu miško metodu priimant sprendimus. Atliekant klasifikavimo užduotis, atsitiktinio miško metodas naudojo kategorinius kintamuosius, o regresijos užduotis atliko su duomenų rinkiniais, kuriuose yra nuolatinių kintamųjų.

Atsitiktinis miškas

Ansamblis arba daugelio modelių maišymas yra tai, ką daro atsitiktinis miško metodas, o tai reiškia, kad prognozės daromos naudojant modelių grupę, o ne vieną.

Galimybė būti naudojama tiek klasifikavimo, tiek regresijos problemoms, kurios sudaro daugumą šiuolaikinių mašininio mokymosi sistemų, yra pagrindinis atsitiktinio miško pranašumas.

„Ensemble“ naudoja dvi skirtingas strategijas:

Įtraukimas į maišus: tai darant treniruočių duomenų rinkiniui sukuriama daugiau duomenų. Tai daroma siekiant sumažinti prognozių skirtumus.
Stiprinimas – tai silpnų besimokančiųjų ir stiprių besimokančiųjų derinimo procesas kuriant nuoseklius modelius, todėl galutinis modelis gaunamas maksimaliai tiksliai.

5. Naivus Bayesas

Dvejetainė (dviejų klasių) ir kelių klasių klasifikavimo problema gali būti išspręsta naudojant Naive Bayes techniką. Kai metodas paaiškinamas naudojant dvejetaines arba kategorijų įvesties reikšmes, tai lengviausia suvokti. Naive Bayes klasifikatoriuje daroma prielaida, kad vienos savybės egzistavimas klasėje neturi jokios įtakos kitų požymių buvimui.

Naivus Bayesas

Aukščiau pateikta formulė rodo:

P(H): tikimybė, kad hipotezė H yra teisinga. Išankstinė tikimybė vadinama tokia.
P(E): įrodymų tikimybė
P(E|H): tikimybė, kad hipotezę patvirtina įrodymai.
P(H|E): tikimybė, kad hipotezė yra teisinga, atsižvelgiant į įrodymus.

Naivus Bayes klasifikatorius, nustatydamas tam tikro rezultato tikimybę, atsižvelgtų į kiekvieną iš šių savybių atskirai, net jei šie požymiai yra tarpusavyje susiję. Naivus Bajeso modelis yra paprastas sukurti ir veiksmingas dideliems duomenų rinkiniams.

Žinoma, kad jis veikia geriau nei net sudėtingiausios kategorizavimo technologijos, nors yra pagrindinis. Tai algoritmų rinkinys, kuris yra pagrįstas Bayeso teorema, o ne vienu metodu.

6. K-Artimiausi kaimynai

K-arčiausių kaimynų (kNN) technika yra prižiūrimo mašininio mokymosi pogrupis, kurį galima naudoti klasifikavimo ir regresijos problemoms spręsti. KNN algoritmas daro prielaidą, kad netoliese galima rasti panašių objektų.

Prisimenu tai kaip bendraminčių susibūrimą. kNN pasinaudoja kitų duomenų taškų panašumo idėja, naudojant artumą, artumą arba atstumą. Norint pažymėti nematomus duomenis pagal artimiausius pažymėtus stebimus duomenų taškus, naudojamas matematinis metodas, skirtas nustatyti atstumą tarp taškų diagramoje.

K Artimiausi kaimynai

Turite nustatyti atstumą tarp duomenų taškų, kad nustatytumėte artimiausias panašias vietas. Tam gali būti naudojami atstumo matavimai, tokie kaip Euklido atstumas, Hamingo atstumas, Manheteno atstumas ir Minkovskio atstumas. K yra žinomas kaip artimiausio kaimyno skaičius ir dažnai yra nelyginis skaičius.

KNN gali būti taikomas klasifikavimo ir regresijos problemoms spręsti. Numatymas, atliktas, kai KNN naudojamas regresijos problemoms spręsti, yra pagrįstas K-panašiausių įvykių vidurkiu arba mediana.

Klasifikavimo algoritmo, pagrįsto KNN, rezultatas gali būti nustatytas kaip klasė, kurios dažnis yra didžiausias tarp K labiausiai panašių įvykių. Kiekvienas atvejis iš esmės balsuoja už savo klasę, o prognozė priklauso klasei, kuri gauna daugiausia balsų.

7. K reiškia

Tai nekontroliuojamo mokymosi metodas, kuriuo sprendžiamos klasterizacijos problemos. Duomenų rinkiniai yra suskirstyti į tam tikrą skaičių grupių – pavadinkime tai K – taip, kad kiekvieno klasterio duomenų taškai būtų vienarūšiai ir skiriasi nuo kitų klasterių.

K reiškia 1

K-means klasterizacijos metodika:

Kiekvienam klasteriui K-means algoritmas parenka k centroidus arba taškus.
Su artimiausiais centroidais arba K klasteriais kiekvienas duomenų taškas sudaro klasterį.
Dabar nauji centroidai gaminami priklausomai nuo jau esančių klasterio narių.
Artimiausias kiekvieno duomenų taško atstumas apskaičiuojamas naudojant šiuos atnaujintus centroidus. Kol centroidai nepasikeičia, šis procesas kartojamas.

Tai greitesnė, patikimesnė ir lengviau suprantama. Jei kyla problemų, „k-means“ prisitaikymas palengvina koregavimą. Kai duomenų rinkiniai yra skirtingi arba gerai atskirti vienas nuo kito, rezultatai yra geriausi. Jis negali valdyti klaidingų duomenų ar nukrypimų.

8. Palaikykite vektorines mašinas

Kai duomenims klasifikuoti naudojate SVM metodą, neapdoroti duomenys rodomi kaip taškai n matmenų erdvėje (kur n yra jūsų turimų funkcijų skaičius). Tada duomenis galima lengvai klasifikuoti, nes tada kiekvienos funkcijos reikšmė yra susieta su konkrečia koordinate.

Norėdami atskirti duomenis ir sudėti juos į grafiką, naudokite eilutes, žinomas kaip klasifikatoriai. Šis metodas kiekvieną duomenų tašką nubraižo kaip tašką n matmenų erdvėje, kur n yra jūsų turimų ypatybių skaičius, o kiekvienos funkcijos reikšmė yra konkreti koordinačių reikšmė.

Palaikykite vektorinę mašiną

Dabar mes surasime eilutę, kuri padalija duomenis į du duomenų rinkinius, kurie buvo suskirstyti į skirtingas kategorijas. Atstumai nuo artimiausių taškų kiekvienoje iš dviejų grupių bus toliausiai vienas nuo kito išilgai šios linijos.

Kadangi du arčiausiai esantys taškai yra labiausiai nutolę nuo aukščiau pateiktame pavyzdyje esančios linijos, linija, padalijanti duomenis į dvi grupes, kurios buvo suskirstytos skirtingai, yra vidurinė linija. Mūsų klasifikatorius yra ši eilutė.

9. Matmenų mažinimas

Naudojant matmenų mažinimo metodą, mokymo duomenys gali turėti mažiau įvesties kintamųjų. Paprastai tariant, tai reiškia jūsų funkcijų rinkinio dydžio mažinimo procesą. Įsivaizduokime, kad jūsų duomenų rinkinyje yra 100 stulpelių; matmenų sumažinimas sumažins šią sumą iki 20 stulpelių.

Matmenų mažinimas

Modelis automatiškai tobulėja ir didėja permontavimo rizika didėjant funkcijų skaičiui. Didžiausia problema dirbant su didesnių matmenų duomenimis yra tai, kas vadinama „matmenų prakeiksmu“, kuris atsiranda, kai jūsų duomenyse yra per daug charakteristikų.

Šie elementai gali būti naudojami norint sumažinti matmenis:

Norint rasti ir pasirinkti atitinkamas charakteristikas, naudojamas funkcijų pasirinkimas.
Naudojant jau esamas funkcijas, funkcijų inžinerija rankiniu būdu sukuria naujas funkcijas.

Išvada

Galimas ir neprižiūrimas, ir prižiūrimas mašininis mokymasis. Pasirinkite prižiūrimą mokymąsi, jei jūsų duomenų yra mažiau ir jie tinkamai pažymėti mokymui.

Dideli duomenų rinkiniai dažnai veiktų ir duotų geresnių rezultatų naudojant neprižiūrimą mokymąsi. Gilus mokymasis metodai yra geriausi, jei turite didelį duomenų rinkinį, kuris yra lengvai prieinamas.

Armatūros mokymasis ir gilus mokymasis yra keletas temų, kurias studijavote. Dabar jums aiškūs neuroninių tinklų ypatumai, naudojimas ir apribojimai. Paskutinis, bet ne mažiau svarbus dalykas, kurdami savo, apsvarstėte įvairių programavimo kalbų, IDE ir platformų parinktis. mašinų mokymosi modeliai.

Kitas dalykas, kurį jums reikia padaryti, yra pradėti mokytis ir naudoti kiekvieną mašininis mokymasis metodas. Net jei tema plati, bet kurią temą galima suprasti per kelias valandas, jei sutelkiate dėmesį į jos gylį. Kiekvienas subjektas išsiskiria iš kitų.

Turite galvoti apie vieną problemą vienu metu, ją išstudijuoti, pritaikyti praktikoje ir naudoti pasirinktą kalbą, kad įdiegtumėte algoritmą (-us).

Pagrindinių mašininio mokymosi algoritmų pradedantiesiems sąrašas

Taigi, kas yra mašininio mokymosi algoritmai?