List fan Major Machine Learning Algoritmen foar begjinners

Table of Contents[Ferstopje][Toanje]

Dat, wat binne Machine Learning-algoritmen?
Tafersjoch, sûnder tafersjoch en fersterking learen+-
Major Machine Learning Algoritmen+-
Konklúzje

De wrâld feroaret fluch troch keunstmjittige yntelliginsje, en masine learen, dy't in ynfloed hat op elk aspekt fan ús deistich libben.

Fan stimassistenten dy't NLP en masine learen brûke om ôfspraken te boeken, eveneminten op te sykjen op ús kalinder, en muzyk spielje oant apparaten dy't sa akkuraat binne dat se ús behoeften kinne antisipearje foardat wy se sels beskôgje.

Kompjûters kinne skaak spielje, sjirurgy dwaan, en ûntwikkelje ta tûkere, mear minsklike masines mei help fan masine-learalgoritmen.

Wy binne yn in tiid fan oanhâldende technologyske foarútgong, en troch te sjen hoe't kompjûters har ûntwikkele troch de tiid, kinne wy meitsje foarsizzings oer wat sil barre yn 'e takomst.

De demokratisearring fan kompjûterynstruminten en -metoaden is ien fan 'e wichtichste aspekten fan dizze revolúsje dy't opfalt. Data wittenskippers hawwe yn 'e lêste fiif jier krêftige kompjûters dy't gegevens kreëarje makke troch maklike ymplemintaasje fan moderne metoaden. De útkomsten binne ferrassend.

Yn dizze post sille wy nau besjen masine learen algoritmen en al har fariaasjes.

Dat, wat binne Machine Learning-algoritmen?

De oanpak brûkt troch it AI-systeem om syn taak út te fieren - yn 't algemien, it foarsizzen fan útfierwearden fan opjûne ynfiergegevens - is bekend as in masine-learalgoritme.

In algoritme foar masine-learen is in proses dat gegevens brûkt en wurdt brûkt om modellen foar masine-learen te meitsjen dy't klear binne foar produksje. As masine-learen de trein is dy't in baan útfiert, dan binne masine-learalgoritmen de lokomotyfen dy't it wurk ferpleatse.

De bêste oanpak foar masine-learen om te brûken sil wurde bepaald troch it saaklike probleem dat jo besykje te pakken, it type dataset dat jo brûke, en de boarnen dy't jo beskikber hawwe.

Masine-learalgoritmen binne dejingen dy't in dataset omsette yn in model. Ofhinklik fan it soarte probleem dat jo besykje te beantwurdzjen, kinne de beskikbere ferwurkingskrêft en it type gegevens dat jo hawwe, begeliede, sûnder tafersjoch, of fersterkjende learalgoritmen goed prestearje.

Dat, wy hawwe it oer learen ûnder tafersjoch, sûnder tafersjoch en fersterking, mar wat binne dat? Litte wy se ûndersykje.

Tafersjoch, sûnder tafersjoch en fersterking learen

Begeliede learen

Yn begeliede learen wurdt it AI-model ûntwikkele op basis fan 'e ynfier dy't is levere en it label dat de foarseine útkomst fertsjintwurdiget. Op grûn fan de yn- en útgongen ûntwikkelet it model in mapping-fergeliking, en mei dy mapping-fergeliking prognostearret it it label fan de ynputs yn 'e takomst.

Litte wy sizze dat wy in model moatte meitsje dat ûnderskied kin tusken in hûn en in kat. Meardere foto's fan katten en hûnen wurde yn it model fiede mei labels dy't oanjaan oft it katten of hûnen binne om it model te trenen.

It model besiket in fergeliking op te stellen dy't de labels op 'e ynfierfoto's relatearret oan dy ôfbyldings. Sels as it model it byld noch noait earder sjoen hat, kin it nei training identifisearje oft it fan in kat of in hûn is.

Sûnder learen learen

Learje sûnder tafersjoch omfettet training fan in AI-model allinich op ynputs sûnder se te labeljen. It model dielt de ynfiergegevens yn groepen mei relatearre skaaimerken.

It takomstige label fan 'e ynfier wurdt dan foarsizze ôfhinklik fan hoe nau syn attributen oerienkomme mei ien fan' e klassifikaasjes. Beskôgje de situaasje wêr't wy in groep reade en blauwe ballen moatte ferdiele yn twa kategoryen.

Litte wy oannimme dat de oare skaaimerken fan 'e ballen identyk binne, mei útsûndering fan kleur. Op grûn fan hoe't it de ballen yn twa klassen ferdield kin, siket it model nei de skaaimerken dy't ferskillend binne tusken de ballen.

Twa klusters fan ballen - ien blau en ien read - wurde produsearre as de ballen wurde ferdield yn twa groepen basearre op har kleur.

Learjen fan fersterking

Yn fersterking learen besiket it AI-model de totale winst te maksimalisearjen troch sa goed te hanneljen as it kin yn in bepaalde omstannichheden. Feedback oer har eardere resultaten helpt it model te learen.

Tink oan it senario as in robot de opdracht wurdt om in rûte te selektearjen tusken punten A en B. De robot kiest earst ien fan 'e kursussen om't er gjin foarôf ûnderfining hat.

De robot krijt ynput oer de rûte dy't er rint en krijt dêr kennis fan. De robot kin ynfier brûke om it probleem te reparearjen de folgjende kear dat it in ferlykbere omstannichheid tsjinkomt.

Bygelyks, as de robot opsje B kiest en in beleanning krijt, lykas positive feedback, begrypt hy dizze kear dat it manier B moat selektearje om syn beleanning te ferheegjen.

No úteinlik wêr't jo allegear op wachtsje, binne de algoritmen.

Major Machine Learning Algoritmen

1. Lineêre regression

De ienfâldichste oanpak fan masine-learen dy't ôfwykt fan begeliede learen is lineêre regression. Mei de kennis fan ûnôfhinklike fariabelen wurdt it meast brûkt om regressionproblemen op te lossen en foarsizzingen te meitsjen oer trochgeande ôfhinklike fariabelen.

It finen fan de line fan bêste fit, dy't kin helpe by it foarsizzen fan de útkomst foar trochgeande ôfhinklike fariabelen, is it doel fan lineêre regression. Hûsprizen, leeftyd en lean binne inkele foarbylden fan trochgeande wearden.

Lineêre regression

In model bekend as ienfâldige lineêre regression brûkt in rjochte line om de assosjaasje te berekkenjen tusken ien ûnôfhinklike fariabele en ien ôfhinklike fariabele. D'r binne mear as twa ûnôfhinklike fariabelen yn meardere lineêre regression.

In lineêre regressionmodel hat fjouwer ûnderlizzende oannames:

Lineariteit: Der is in lineêre ferbining tusken X en it gemiddelde fan Y.
Homoscedasticity: Foar elke wearde fan X is de oerbliuwende fariânsje itselde.
Unôfhinklikens: Observaasjes binne ûnôfhinklik fan elkoar yn termen fan ûnôfhinklikens.
Normaliteit: As X fêst is, wurdt Y normaal ferdield.

Lineêre regression prestearret bewûnderlik foar gegevens dy't kinne wurde skieden lâns rigels. It kin overfitting kontrolearje troch te brûken regularisaasje, krúsvalidaasje, en dimensjereduksjetechniken. D'r binne lykwols gefallen wêr't wiidweidige funksje-engineering fereaske is, wat soms kin resultearje yn overfitting en lûd.

2. Logistyske regression

Logistyske regression is in oare masine-learentechnyk dy't ôfwykt fan begeliede learen. It wichtichste gebrûk is klassifikaasje, wylst it ek kin wurde brûkt foar regressionproblemen.

Logistyske regression wurdt brûkt om de kategoriale ôfhinklike fariabele te foarsizzen mei de ynformaasje fan 'e ûnôfhinklike faktoaren. It doel is om útgongen te klassifisearjen, dy't mar tusken 0 en 1 falle kinne.

Logistyske regression

It gewogen totaal fan 'e ynputen wurdt ferwurke troch de sigmoid-funksje, in aktivearringsfunksje dy't wearden konvertearret tusken 0 en 1.

De basis fan logistyske regression is skatting fan maksimale kâns, in metoade foar it berekkenjen fan de parameters fan in oannommen kânsferdieling jûn spesifike waarnommen gegevens.

3. Beslút Tree

In oare metoade foar masine-learen dy't splinteret fan begeliede learen is de beslútbeam. Foar sawol klassifikaasje as regressionproblemen kin de beslútbeambenadering brûkt wurde.

Dit ark foar beslútfoarming, dat liket op in beam, brûkt fisuele foarstellings om de potensjele resultaten, kosten en gefolgen fan aksjes te sjen. Troch de gegevens yn aparte dielen te dielen, is it idee analoog oan 'e minsklike geast.

Beslútsteam

De gegevens binne safolle ferdield yn ûnderskate dielen as wy it kinne granulearje. It haaddoel fan in Decision Tree is om in trainingsmodel te bouwen dat kin wurde brûkt om de klasse fan 'e doelfariabele te foarsizzen. Untbrekkende wearden kinne automatysk behannele wurde mei de Beslútbeam.

D'r is gjin eask foar ien-shot kodearring, dummy fariabelen, of oare gegevens foarbehanneling stappen. It is stiif yn 'e sin dat it lestich is om frisse gegevens oan te foegjen. As jo oanfoljende markearre gegevens krigen hawwe, moatte jo de beam opnij traine op 'e heule dataset.

As gefolch binne beslútbeammen in minne kar foar elke applikaasje dy't dynamyske modelferoaring fereasket.

Op grûn fan it soarte fan doelfariabele wurde beslútbeammen yndield yn twa soarten:

Kategoaryske fariabele: In beslútbeam wêryn de doelfariabele Kategoarysk is.
Trochrinnende fariabele: In beslútbeam wêryn de doelfariabele kontinu is.

4. Random Forest

De Random Forest-metoade is de folgjende masine-leartechnyk en is in begeliede masine-learen-algoritme dat wiidweidich brûkt wurdt yn klassifikaasje- en regressionproblemen. It is ek in beam-basearre metoade, fergelykber mei in beslútbeam.

In bosk fan beammen, of in protte beslútbeammen, wurdt brûkt troch de willekeurige boskmetoade om oardielen te meitsjen. By it behanneljen fan klassifikaasjetaken brûkte de willekeurige boskmetoade kategoaryske fariabelen by it behanneljen fan regressiontaken mei datasets dy't trochgeande fariabelen befetsje.

Random Forest

In ensemble, of it mingen fan in protte modellen, is wat de willekeurige boskmetoade docht, wat betsjut dat foarsizzings wurde makke mei in groep modellen ynstee fan mar ien.

De mooglikheid om te brûken foar sawol klassifikaasje- as regressionproblemen, dy't de mearderheid fan moderne masine-learsystemen útmeitsje, is in wichtich foardiel fan it willekeurige bosk.

Twa ferskillende strategyen wurde brûkt troch Ensemble:

Bagging: Troch dit te dwaan, wurde mear gegevens produsearre foar de trainingsdataset. Om de fariaasje yn de prognoazes te ferminderjen wurdt dat dien.
Boosting is it proses fan it kombinearjen fan swakke learlingen mei sterke learlingen troch opienfolgjende modellen te bouwen, wat resulteart yn it definitive model mei maksimale krektens.

5. Naïve Bayes

In binêr (twa-klasse) en multi-klasse klassifikaasjeprobleem kin wurde oplost mei de Naive Bayes-technyk. As de metoade wurdt útlein mei help fan binêre of kategory ynfier wearden, it is it simpelst te begripen. In oanname makke troch in Naive Bayes klassifisearring is dat it bestean fan ien funksje yn in klasse hat gjin ynfloed op de oanwêzigens fan oare funksjes.

Naïve Bayes

De boppesteande formule jout oan:

P(H): De kâns dat hypoteze H korrekt is. De eardere kâns wurdt oantsjut as dit.
P (E): De kâns fan it bewiis
P(E|H): De kâns dat de hypoteze wurdt stipe troch it bewiis.
P(H|E): De kâns dat de hypoteze wier is, sjoen it bewiis.

In naïve Bayes-klasser soe elk fan dizze skaaimerken yndividueel rekken hâlde by it bepalen fan de kâns op in bepaald resultaat, sels as dizze attributen mei elkoar ferbûn binne. In naïve Bayesian model is ienfâldich te bouwen en effektyf foar grutte datasets.

It is bekend dat it better presteart dan sels de meast komplekse kategorisearringstechniken, wylst se basis binne. It is in samling algoritmen dy't allegear basearre binne op 'e Bayes' Theorem, ynstee fan in inkele metoade.

6. K-Nearste buorlju

De K-nearest neighbours (kNN) technyk is in subset fan tafersjoch masine learen dy't kin wurde brûkt om klassifikaasje- en regressionproblemen oan te pakken. It KNN-algoritme giet derfan út dat fergelykbere objekten yn de buert te finen binne.

Ik herinner my it as in gearkomste fan like-minded yndividuen. kNN makket foardiel fan it idee fan oerienkomst tusken oare gegevenspunten mei gebrûk fan tichtby, tichtby of ôfstân. Om de ûnsichtbere gegevens te markearjen op basis fan de tichtst markearre waarneembare gegevenspunten, wurdt in wiskundige metoade brûkt om de skieding tusken punten op in grafyk te bepalen.

K tichtst buorlju

Jo moatte de ôfstân tusken de gegevenspunten bepale om de tichtst fergelykbere plakken te identifisearjen. Ofstânsmjittingen lykas de Euklidyske ôfstân, Hamming-ôfstân, Manhattan-ôfstân en Minkowski-ôfstân kinne hjirfoar brûkt wurde. De K stiet bekend as it tichtste buorgetal, en it is faaks in ûneven getal.

KNN kin tapast wurde op klassifikaasje- en regressionproblemen. De foarsizzing makke as KNN brûkt wurdt foar regressionproblemen is basearre op it gemiddelde of mediaan fan 'e K-meast ferlykbere foarfallen.

It resultaat fan in klassifikaasjealgoritme basearre op KNN kin bepaald wurde as de klasse mei de heechste frekwinsje ûnder de K meast ferlykbere foarfallen. Elke eksimplaar jout yn wêzen in stim foar har klasse, en de foarsizzing heart by de klasse dy't de measte stimmen krijt.

7. K-betsjut

It is in technyk foar learen sûnder tafersjoch dy't klusteringproblemen oanpakt. Gegevenssets wurde ferdield yn in bepaald oantal klusters - neam litte wy it K - op sa'n manier dat de gegevenspunten fan elk kluster homogeen binne en ferskille fan dy yn 'e oare klusters.

K betsjut 1

K-betsjut clustering metodyk:

Foar elk kluster selekteart it K-means-algoritme k centroids, as punten.
Mei de tichtstby lizzende centroids of K-klusters foarmet elk gegevenspunt in kluster.
No wurde nije centroids produsearre ôfhinklik fan 'e klusterleden dy't al oanwêzich binne.
De tichtste ôfstân foar elk gegevenspunt wurdt berekkene mei dizze bywurke centroids. Oant de sintroiden net feroarje, wurdt dit proses werhelle.

It is rapper, betrouberer en ienfâldiger te begripen. As d'r problemen binne, makket k-means 'oanpassingsfermogen oanpassingen ienfâldich. As de datasetten ûnderskiede of goed isolearre binne fan elkoar, binne de resultaten it bêste. It kin gjin ûnregelmjittige gegevens of útfallers beheare.

8. Support Vector Machines

By it brûken fan de SVM-technyk om gegevens te klassifisearjen, wurde rauwe gegevens werjûn as punten yn in n-dimensionale romte (wêr't n it oantal funksjes is dy't jo hawwe). De gegevens kinne dan maklik klassifisearre wurde, om't de wearde fan elke funksje dan ferbûn is mei in spesifike koördinaat.

Om de gegevens te skieden en se op in grafyk te setten, brûke rigels bekend as klassifikaasjes. Dizze oanpak plot elk gegevenspunt as in punt yn in n-diminsjonale romte, wêrby't n it oantal funksjes is dy't jo hawwe en de wearde fan elke funksje in spesifike koördinaatwearde is.

Stypje Vector Machine

Wy sille no in line fine dy't de gegevens dielt yn twa sets gegevens dy't oars binne kategorisearre. De ôfstannen fan 'e tichtstbye punten yn elk fan 'e twa groepen sille it fierste útinoar wêze lâns dizze line.

Om't de twa tichtste punten dejingen binne dy't it fierste binne fan 'e line yn it foarbyld hjirboppe, is de line dy't de gegevens dielt yn 'e twa groepen dy't oars yndield binne de middelste line. Us klassifikaasje is dizze line.

9. Dimensionality Reduction

Troch de oanpak fan dimensjereduksje te brûken, kinne trainingsgegevens minder ynfierfariabelen hawwe. Yn ienfâldige termen ferwiist it nei it proses fan it krimpjen fan de grutte fan jo funksjeset. Litte wy ús foarstelle dat jo dataset 100 kolommen hat; dimensionality reduksje sil ôfnimme dat bedrach oan 20 kolommen.

Dimensjonaliteit Reduksje

It model wurdt automatysk mear ferfine en hat in grutter risiko fan overfitting as it oantal funksjes nimt ta. It grutste probleem mei it wurkjen mei gegevens yn gruttere dimensjes is wat bekend is as de "flok fan dimensionaliteit", dy't optreedt as jo gegevens in oerstallich oantal skaaimerken befetsje.

De folgjende eleminten kinne brûkt wurde om dimensjereduksje te berikken:

Om relevante skaaimerken te finen en te kiezen, wurdt funksjeseleksje brûkt.
Troch al besteande funksjes te brûken, makket funksje-engineering manueel nije funksjes.

Konklúzje

Net tafersjoch of tafersjoch masine learen is beide mooglik. Kies begeliede learen as jo gegevens minder oerfloedich binne en goed tagged foar training.

Grutte datasets soene faaks bettere resultaten prestearje en produsearje mei sûnder tafersjoch learen. Djippe learen metoaden binne it bêste as jo in sizable gegevenssammeling hawwe dy't maklik beskikber is.

Fersterking learen en djip fersterking learen binne guon ûnderwerpen dy't jo studearre. De skaaimerken, gebrûk en beheiningen fan neurale netwurken binne no dúdlik foar jo. As lêste, mar net it minste, hawwe jo de opsjes foar ferskate programmeartalen, IDE's en platfoarms beskôge as it gie om jo eigen te meitsjen masine learmodellen.

It folgjende ding dat jo moatte dwaan is om elk te begjinnen te studearjen en te brûken masine learen oanpak. Sels as it ûnderwerp breed is, kin elk ûnderwerp yn in pear oeren wurde begrepen as jo rjochtsje op de djipte. Elk ûnderwerp stiet allinnich fan 'e oaren.

Jo moatte oer ien probleem tagelyk tinke, it studearje, it yn 'e praktyk bringe en in taal fan jo kar brûke om de algoritme(n) dêryn te ymplementearjen.

List fan Major Machine Learning Algoritmen foar begjinners

Dat, wat binne Machine Learning-algoritmen?