Galveno mašīnmācīšanās algoritmu saraksts iesācējiem

Saturs[Paslēpt][Rādīt]

Tātad, kas ir mašīnmācīšanās algoritmi?
Uzraudzīta, bez uzraudzības un pastiprināšana+-
Galvenie mašīnmācīšanās algoritmi+-
Secinājumi

Pasaule ātri mainās mākslīgā intelekta un mašīnmācības dēļ, kas ietekmē katru mūsu ikdienas dzīves aspektu.

Sākot ar balss palīgiem, kas izmanto NLP un mašīnmācīšanos, lai rezervētu tikšanās, meklētu notikumus mūsu kalendārā un atskaņotu mūziku, līdz ierīcēm, kas ir tik precīzas, ka tās var paredzēt mūsu vajadzības, pirms mēs tās vēl apsveram.

Ar mašīnmācīšanās algoritmu palīdzību datori var spēlēt šahu, veikt operācijas un kļūt par viedākām, cilvēkiem līdzīgākām mašīnām.

Mēs atrodamies nepārtrauktas tehnoloģiskās attīstības laikā, un, redzot, kā datori laika gaitā ir attīstījušies, mēs varam prognozēt, kas notiks nākotnē.

Skaitļošanas rīku un metožu demokratizācija ir viens no šīs revolūcijas galvenajiem aspektiem, kas izceļas. Datu zinātnieki pēdējo piecu gadu laikā ir radījuši jaudīgus datorus, kas ļauj apstrādāt datus, bez piepūles ieviešot visprogresīvākās metodoloģijas. Rezultāti ir pārsteidzoši.

Šajā rakstā mēs rūpīgi aplūkosim mašīna mācīšanās algoritmi un visas to variācijas.

Tātad, kas ir mašīnmācīšanās algoritmi?

Pieeja, ko AI sistēma izmanto sava uzdevuma veikšanai, parasti prognozējot izejas vērtības no dotajiem ievades datiem, ir pazīstama kā mašīnmācīšanās algoritms.

Mašīnmācīšanās algoritms ir process, kas izmanto datus un tiek izmantots, lai izveidotu mašīnmācīšanās modeļus, kas ir gatavi ražošanai. Ja mašīnmācīšanās ir vilciens, kas veic darbu, tad mašīnmācīšanās algoritmi ir lokomotīves, kas virza darbu.

Labāko izmantojamo mašīnmācīšanās pieeju noteiks uzņēmējdarbības problēma, kuru mēģināt risināt, izmantotās datu kopas veids un pieejamie resursi.

Mašīnmācīšanās algoritmi ir tie, kas pārvērš datu kopu par modeli. Atkarībā no problēmas veida, kuru mēģināt risināt, pieejamās apstrādes jaudas un jūsu rīcībā esošo datu veida, uzraudzītie, neuzraudzītie vai pastiprināšanas mācīšanās algoritmi var darboties labi.

Tātad, mēs runājām par uzraudzītu, neuzraudzītu un pastiprinošu mācīšanos, bet kas tās ir? Izpētīsim tos.

Uzraudzīta, bez uzraudzības un pastiprināšana

Vadīta mācīšanās

Uzraudzītās mācībās AI modelis tiek izstrādāts, pamatojoties uz sniegto ievadi un etiķeti, kas atspoguļo paredzamo rezultātu. Pamatojoties uz ieejām un izvadēm, modelis izstrādā kartēšanas vienādojumu, un, izmantojot šo kartēšanas vienādojumu, tas prognozē ievades apzīmējumu nākotnē.

Pieņemsim, ka mums ir jāizveido modelis, kas spēj atšķirt suni un kaķi. Lai apmācītu modeli, modelī tiek ievadītas vairākas kaķu un suņu fotogrāfijas ar etiķetēm, kas norāda, vai tie ir kaķi vai suņi.

Modelis cenšas izveidot vienādojumu, kas saista ievades fotogrāfiju etiķetes ar šiem attēliem. Pat ja modelis nekad iepriekš nav redzējis attēlu, pēc apmācības tas var noteikt, vai tas ir kaķis vai suns.

Bez uzraudzības mācīšanās

Nepārraudzīta mācīšanās ietver AI modeļa apmācību tikai uz ievades datiem, tos nemarķējot. Modelis ieejas datus sadala grupās ar saistītām īpašībām.

Pēc tam tiek prognozēts turpmākais ievades apzīmējums atkarībā no tā, cik precīzi tās atribūti atbilst kādai no klasifikācijām. Apsveriet situāciju, kad sarkano un zilo bumbiņu grupa ir jāsadala divās kategorijās.

Pieņemsim, ka pārējās bumbiņu īpašības ir identiskas, izņemot krāsu. Pamatojoties uz to, kā tas var sadalīt bumbiņas divās klasēs, modelis meklē īpašības, kas atšķiras starp bumbiņām.

Divas bumbiņu kopas — viena zila un viena sarkana — veidojas, ja bumbiņas tiek sadalītas divās grupās, pamatojoties uz to nokrāsu.

Pastiprināšanas mācības

Pastiprināšanas mācībās AI modelis cenšas maksimāli palielināt kopējo peļņu, rīkojoties tik labi, cik tas ir iespējams noteiktos apstākļos. Atsauksmes par tā iepriekšējiem rezultātiem palīdz modelim mācīties.

Padomājiet par scenāriju, kad robotam tiek uzdots izvēlēties maršrutu starp punktiem A un B. Robots vispirms izvēlas kādu no kursiem, jo tam nav iepriekšējas pieredzes.

Robots saņem informāciju par maršrutu, ko tas veic, un iegūst no tā zināšanas. Robots var izmantot ievadi, lai novērstu problēmu nākamreiz, kad tas saskaras ar līdzīgu apstākli.

Piemēram, ja robots izvēlas B opciju un saņem atlīdzību, piemēram, pozitīvu atgriezenisko saiti, tas šoreiz saprot, ka tam ir jāizvēlas veids B, lai palielinātu atlīdzību.

Tagad beidzot tas, ko jūs visi gaidāt, ir algoritmi.

Galvenie mašīnmācīšanās algoritmi

1. Lineārā regresija

Vienkāršākā mašīnmācīšanās pieeja, kas atšķiras no uzraudzītas mācīšanās, ir lineārā regresija. Izmantojot zināšanas no neatkarīgiem mainīgajiem, tās galvenokārt tiek izmantotas, lai atrisinātu regresijas problēmas un radītu prognozes par nepārtrauktiem atkarīgiem mainīgajiem.

Lineārās regresijas mērķis ir atrast vispiemērotāko līniju, kas var palīdzēt prognozēt nepārtrauktu atkarīgo mainīgo iznākumu. Mājokļu cenas, vecums un algas ir daži nepārtrauktu vērtību piemēri.

Linear Regression

Modelis, kas pazīstams kā vienkārša lineāra regresija, izmanto taisnu līniju, lai aprēķinātu saistību starp vienu neatkarīgu mainīgo un vienu atkarīgo mainīgo. Vairākās lineārajā regresijā ir vairāk nekā divi neatkarīgi mainīgie.

Lineārās regresijas modelim ir četri pamatā esošie pieņēmumi:

Linearitāte: pastāv lineārs savienojums starp X un Y vidējo vērtību.
Homoscedasticitāte: katrai X vērtībai atlikušā dispersija ir vienāda.
Neatkarība: novērojumi ir neatkarīgi viens no otra neatkarības ziņā.
Normalitāte: ja X ir fiksēts, Y ir normāli sadalīts.

Lineārā regresija lieliski darbojas datiem, kurus var atdalīt pa līnijām. Tas var kontrolēt pārmērīgu pielāgošanu, izmantojot regularizācijas, savstarpējās validācijas un izmēru samazināšanas metodes. Tomēr ir gadījumi, kad ir nepieciešama plaša funkciju izstrāde, kas dažkārt var izraisīt pārmērīgu uzstādīšanu un troksni.

2. Loģistiskā regresija

Loģistiskā regresija ir vēl viena mašīnmācīšanās metode, kas atšķiras no uzraudzītas mācīšanās. Tās galvenais lietojums ir klasifikācija, bet to var izmantot arī regresijas problēmām.

Loģistisko regresiju izmanto, lai prognozētu kategoriski atkarīgo mainīgo, izmantojot informāciju no neatkarīgiem faktoriem. Mērķis ir klasificēt rezultātus, kas var būt tikai no 0 līdz 1.

Loģistiskā regresija

Ievades svērto kopējo vērtību apstrādā sigmoīda funkcija — aktivizācijas funkcija, kas pārvērš vērtības no 0 līdz 1.

Loģistiskās regresijas pamatā ir maksimālās varbūtības novērtējums, metode pieņemtā varbūtības sadalījuma parametru aprēķināšanai, ņemot vērā konkrētus novērotos datus.

3. Lēmumu koks

Vēl viena mašīnmācīšanās metode, kas atdalās no uzraudzītās mācīšanās, ir lēmumu koks. Gan klasifikācijas, gan regresijas jautājumos var izmantot lēmumu koka pieeju.

Šis lēmumu pieņemšanas rīks, kas atgādina koku, izmanto vizuālus attēlojumus, lai parādītu darbību paredzamos rezultātus, izmaksas un sekas. Sadalot datus atsevišķās daļās, ideja ir līdzīga cilvēka prātam.

Lēmumu koks

Dati ir sadalīti atsevišķās daļās, cik vien mēs tos varējām granulēt. Lēmumu koka galvenais mērķis ir izveidot apmācības modeli, ko var izmantot mērķa mainīgā klases prognozēšanai. Trūkstošās vērtības var apstrādāt automātiski, izmantojot lēmumu koku.

Nav prasības pēc vienreizēja kodēšanas, fiktīviem mainīgajiem vai citām datu pirmapstrādes darbībām. Tas ir stingrs tādā nozīmē, ka ir grūti pievienot jaunus datus. Ja jums ir papildu marķēti dati, jums jāpārmāca koks visā datu kopā.

Rezultātā lēmumu koki ir slikta izvēle jebkurai lietojumprogrammai, kurai nepieciešama dinamiska modeļa maiņa.

Atkarībā no mērķa mainīgā veida lēmumu koki tiek iedalīti divos veidos:

Kategoriskais mainīgais: lēmumu koks, kurā mērķa mainīgais ir kategorisks.
Nepārtraukts mainīgais: Lēmumu koks, kurā mērķa mainīgais ir Nepārtraukts.

4. Random Forest

Random Forest Method ir nākamā mašīnmācīšanās metode, un tā ir uzraudzīts mašīnmācīšanās algoritms, ko plaši izmanto klasifikācijas un regresijas jautājumos. Tā ir arī uz koku balstīta metode, līdzīga lēmumu kokam.

Koku mežs vai daudzi lēmumu pieņemšanas koki tiek izmantoti pēc nejaušības principa, lai pieņemtu spriedumus. Apstrādājot klasifikācijas uzdevumus, nejaušā meža metode izmantoja kategoriskos mainīgos, vienlaikus apstrādājot regresijas uzdevumus ar datu kopām, kas satur nepārtrauktus mainīgos.

Nejaušais mežs

Ansamblis vai daudzu modeļu sajaukums ir tas, ko dara nejaušā meža metode, kas nozīmē, ka prognozes tiek veiktas, izmantojot modeļu grupu, nevis tikai vienu.

Iespēja izmantot gan klasifikācijas, gan regresijas problēmu risināšanai, kas veido lielāko daļu mūsdienu mašīnmācīšanās sistēmu, ir galvenais izlases meža ieguvums.

Ensemble izmanto divas dažādas stratēģijas:

Iepakošana: šādi tiek iegūts vairāk datu apmācības datu kopai. Tas tiek darīts, lai samazinātu prognožu atšķirības.
Paaugstināšana ir process, kurā vāji apmācāmie tiek apvienoti ar spēcīgiem apmācāmajiem, veidojot secīgus modeļus, kā rezultātā tiek iegūts galīgais modelis ar maksimālu precizitāti.

5. Naivai Beiji

Bināro (divu klašu) un vairāku klašu klasifikācijas problēmu var atrisināt, izmantojot Naive Bayes tehniku. Ja metode ir izskaidrota, izmantojot bināras vai kategorijas ievades vērtības, to ir visvienkāršāk saprast. Naive Bayes klasifikatora pieņēmums ir tāds, ka vienas pazīmes esamība klasē neietekmē citu pazīmju klātbūtni.

Naivie Beiji

Iepriekš minētā formula norāda:

P(H): varbūtība, ka hipotēze H ir pareiza. Iepriekšējā varbūtība tiek saukta par šo.
P(E): pierādījumu iespējamība
P(E|H): varbūtība, ka hipotēzi apstiprina pierādījumi.
P(H|E): iespēja, ka hipotēze ir patiesa, ņemot vērā pierādījumus.

Naivais Bayes klasifikators, nosakot noteikta rezultāta iespējamību, ņems vērā katru no šiem raksturlielumiem atsevišķi, pat ja šie atribūti ir saistīti viens ar otru. Naivais Bajesa modelis ir vienkārši konstruējams un efektīvs lielām datu kopām.

Ir zināms, ka tas darbojas labāk nekā pat vissarežģītākās kategorizēšanas metodes, vienlaikus ir pamata. Tas ir algoritmu kopums, kas visi ir balstīti uz Bayes teorēmu, nevis vienu metodi.

6. K-Tuvākie kaimiņi

K-tuvāko kaimiņu (kNN) tehnika ir uzraudzītas mašīnmācīšanās apakškopa, ko var izmantot, lai risinātu klasifikācijas un regresijas problēmas. KNN algoritms paredz, ka tuvumā var atrast salīdzināmus objektus.

Es to atceros kā līdzīgi domājošu cilvēku pulcēšanos. kNN izmanto ideju par līdzību starp citiem datu punktiem, izmantojot tuvumu, tuvumu vai attālumu. Lai marķētu neredzētos datus, pamatojoties uz tuvākajiem marķētajiem novērojamajiem datu punktiem, tiek izmantota matemātiska metode, lai noteiktu attālumu starp punktiem diagrammā.

K Tuvākie kaimiņi

Lai noteiktu tuvākos salīdzināmos punktus, jums ir jānosaka attālums starp datu punktiem. Šim nolūkam var izmantot attāluma mērījumus, piemēram, Eiklīda attālumu, Haminga attālumu, Manhetenas attālumu un Minkovska attālumu. K ir pazīstams kā tuvākā kaimiņa skaitlis, un tas bieži ir nepāra skaitlis.

KNN var piemērot klasifikācijas un regresijas problēmām. Prognoze, kas veikta, kad KNN tiek izmantota regresijas problēmām, ir balstīta uz K līdzīgāko gadījumu vidējo vai mediānu.

Klasifikācijas algoritma rezultātu, kura pamatā ir KNN, var noteikt kā klasi ar visaugstāko biežumu starp K līdzīgākajiem gadījumiem. Katrs gadījums būtībā balso par savu klasi, un prognoze pieder klasei, kas saņem visvairāk balsu.

7. K-nozīmē

Tas ir paņēmiens bez uzraudzības mācībām, kas risina klasterizācijas problēmas. Datu kopas ir sadalītas noteiktā skaitā klasteru — sauksim to par K — tā, lai katra klastera datu punkti būtu viendabīgi un atšķirtos no citiem klasteriem.

K nozīmē 1

K-nozīmē klasterizācijas metodoloģija:

Katram klasterim K-means algoritms atlasa k centroīdus vai punktus.
Ar tuvākajiem centroīdiem vai K klasteriem katrs datu punkts veido kopu.
Tagad tiek ražoti jauni centroīdi atkarībā no jau esošajiem klastera dalībniekiem.
Katram datu punktam tuvākais attālums tiek aprēķināts, izmantojot šos atjauninātos centroīdus. Kamēr centroīdi nemainās, šo procesu atkārto.

Tas ir ātrāks, uzticamāks un vienkāršāk uztverams. Ja rodas problēmas, k-mean pielāgošanās spēja atvieglo korekcijas. Ja datu kopas ir atšķirīgas vai labi izolētas viena no otras, rezultāti ir vislabākie. Tas nevar pārvaldīt nepareizus datus vai novirzes.

8. Atbalstīt Vector mašīnas

Izmantojot SVM paņēmienu datu klasificēšanai, neapstrādātie dati tiek parādīti kā punkti n-dimensiju telpā (kur n ir jūsu funkciju skaits). Pēc tam datus var viegli klasificēt, jo katra objekta vērtība tiek savienota ar noteiktu koordinātu.

Lai atdalītu datus un ievietotu tos diagrammā, izmantojiet līnijas, kas pazīstamas kā klasifikatori. Šī pieeja katru datu punktu attēlo kā punktu n-dimensiju telpā, kur n ir jūsu objektu skaits un katra objekta vērtība ir noteikta koordinātu vērtība.

Atbalstiet vektoru mašīnu

Tagad mēs atradīsim rindiņu, kas sadala datus divās datu kopās, kas ir klasificētas atšķirīgi. Attālumi no tuvākajiem punktiem katrā no abām grupām būs vistālāk viens no otra pa šo līniju.

Tā kā divi tuvākie punkti ir tie, kas atrodas vistālāk no līnijas iepriekš minētajā piemērā, līnija, kas sadala datus divās grupās, kuras tika klasificētas atšķirīgi, ir vidējā līnija. Mūsu klasifikators ir šī līnija.

9. Izmēru samazināšana

Izmantojot dimensiju samazināšanas pieeju, apmācības datiem var būt mazāk ievades mainīgo. Vienkārši izsakoties, tas attiecas uz funkciju kopas lieluma samazināšanas procesu. Pieņemsim, ka jūsu datu kopā ir 100 kolonnas; dimensijas samazināšana samazinās šo summu līdz 20 kolonnām.

Dimensiju samazināšana

Modelis automātiski kļūst sarežģītāks, un, palielinoties funkciju skaitam, tam ir lielāks pārklāšanās risks. Lielākā problēma, strādājot ar lielāka izmēra datiem, ir tā sauktais “dimensiju lāsts”, kas rodas, ja jūsu datos ir pārāk daudz raksturlielumu.

Lai samazinātu izmēru, var izmantot šādus elementus:

Lai atrastu un izvēlētos atbilstošos raksturlielumus, tiek izmantota funkciju atlase.
Izmantojot jau esošās funkcijas, funkciju inženierija manuāli izveido jaunas funkcijas.

Secinājumi

Ir iespējama gan neuzraudzīta, gan uzraudzīta mašīnmācīšanās. Izvēlieties uzraudzītu apmācību, ja jūsu dati ir mazāk bagātīgi un labi marķēti apmācībai.

Lielas datu kopas bieži darbotos un sniegtu labākus rezultātus, izmantojot nekontrolētu mācīšanos. Dziļa mācīšanās metodes ir vislabākās, ja jums ir apjomīga datu kolekcija, kas ir viegli pieejama.

Pastiprināšanas mācīšanās un dziļa pastiprināšana ir dažas tēmas, kuras jūs pētījāt. Tagad jums ir skaidras neironu tīklu īpašības, lietojumi un ierobežojumi. Visbeidzot, jūs apsvērāt dažādu programmēšanas valodu, IDE un platformu iespējas, veidojot savu mašīnmācīšanās modeļi.

Nākamā lieta, kas jums jādara, ir sākt mācīties un izmantot katru mašīna mācīšanās pieeja. Pat ja tēma ir plaša, jebkuru tēmu var saprast dažu stundu laikā, ja koncentrējaties uz tās dziļumu. Katrs priekšmets atšķiras no citiem.

Jums ir jādomā par vienu jautājumu vienlaikus, tas jāizpēta, jāīsteno praksē un jāizmanto jūsu izvēlēta valoda, lai tajā ieviestu algoritmu(-us).

Galveno mašīnmācīšanās algoritmu saraksts iesācējiem

Tātad, kas ir mašīnmācīšanās algoritmi?