Liste over store maskinlæringsalgoritmer for nybegynnere

Innholdsfortegnelse[Gjemme seg][Forestilling]

Så, hva er maskinlæringsalgoritmer?
Supervised, Unsupervised & Reinforcement Learning+-
Store maskinlæringsalgoritmer+-
konklusjonen

Verden endrer seg raskt på grunn av kunstig intelligens og maskinlæring, som har innvirkning på alle aspekter av hverdagen vår.

Fra stemmeassistenter som bruker NLP og maskinlæring til å bestille avtaler, slå opp hendelser i kalenderen vår og spille musikk til enheter som er så nøyaktige at de kan forutse våre behov før vi i det hele tatt vurderer dem.

Datamaskiner kan spille sjakk, operere og utvikle seg til smartere, mer menneskelignende maskiner ved hjelp av maskinlæringsalgoritmer.

Vi er i en tid med kontinuerlige teknologiske fremskritt, og ved å se hvordan datamaskiner har utviklet seg gjennom tiden, kan vi gi spådommer om hva som vil skje i fremtiden.

Demokratiseringen av dataverktøy og -metoder er en av nøkkelaspektene ved denne revolusjonen som skiller seg ut. Data forskere har skapt kraftige data-knusende datamaskiner i løpet av de siste fem årene ved å enkelt implementere banebrytende metoder. Resultatene er forbløffende.

I dette innlegget skal vi se nærmere på maskinlæring algoritmer og alle deres variasjoner.

Så, hva er maskinlæringsalgoritmer?

Tilnærmingen som brukes av AI-systemet for å utføre oppgaven sin - vanligvis å forutsi utgangsverdier fra gitte inngangsdata - er kjent som en maskinlæringsalgoritme.

En maskinlæringsalgoritme er en prosess som utnytter data og brukes til å lage maskinlæringsmodeller som er klare for produksjon. Hvis maskinlæring er toget som utfører en jobb, så er maskinlæringsalgoritmer lokomotivene som flytter arbeidet videre.

Den beste maskinlæringstilnærmingen å bruke vil bli bestemt av forretningsproblemet du prøver å løse, typen datasett du bruker og ressursene du har tilgjengelig.

Maskinlæringsalgoritmer er de som gjør et datasett til en modell. Avhengig av hva slags problem du prøver å svare på, tilgjengelig prosesseringskraft og typen data du har, kan overvåket, uovervåket eller forsterkende læringsalgoritmer fungere godt.

Så vi snakket om overvåket, uovervåket og forsterkende læring, men hva er de? La oss utforske dem.

Supervised, Unsupervised & Reinforcement Learning

Veiledet læring

I veiledet læring utvikles AI-modellen basert på input som er gitt og merkelappen som representerer det forutsagte resultatet. Basert på inngangene og utgangene, utvikler modellen en kartleggingsligning, og ved å bruke den kartleggingsligningen, forutsier den etiketten til inngangene i fremtiden.

La oss si at vi må lage en modell som kan skille mellom en hund og en katt. Flere bilder av katter og hunder mates inn i modellen med etiketter som indikerer om de er katter eller hunder for å trene modellen.

Modellen søker å etablere en ligning som relaterer etikettene på inngangsbildene til disse bildene. Selv om modellen aldri har sett bildet før, kan den etter trening identifisere om det er en katt eller en hund.

Uovervåket læring

Uovervåket læring innebærer å trene en AI-modell kun på innganger uten å merke dem. Modellen deler inn dataene i grupper med relaterte egenskaper.

Den fremtidige etiketten til inngangen blir deretter prognosert avhengig av hvor nært dens attributter samsvarer med en av klassifikasjonene. Tenk på situasjonen der vi må dele en gruppe røde og blå kuler i to kategorier.

La oss anta at kulenes øvrige egenskaper er identiske, med unntak av farge. På bakgrunn av hvordan den kan dele ballene i to klasser, ser modellen etter egenskapene som er forskjellige mellom ballene.

To klynger med kuler – en blå og en rød – produseres når kulene deles inn i to grupper basert på fargetonen.

Forsterkningslæring

I forsterkende læring søker AI-modellen å maksimere den totale fortjenesten ved å handle så godt den kan i en bestemt omstendighet. Tilbakemelding på tidligere resultater hjelper modellen å lære.

Tenk på scenariet når en robot blir bedt om å velge en rute mellom punkt A og B. Roboten velger først en av kursene fordi den ikke har noen tidligere erfaring.

Roboten får innspill på ruten den tar og får kunnskap fra den. Roboten kan bruke input for å fikse problemet neste gang den støter på en lignende situasjon.

For eksempel, hvis roboten velger alternativ B og mottar en belønning, for eksempel positiv tilbakemelding, forstår den denne gangen at den må velge måte B for å øke belønningen.

Nå, endelig det dere alle venter på, er algoritmene.

Store maskinlæringsalgoritmer

1. Lineær regresjon

Den enkleste maskinlæringstilnærmingen som avviker fra overvåket læring er lineær regresjon. Med kunnskapen fra uavhengige variabler brukes den mest til å løse regresjonsproblemer og lage spådommer på kontinuerlige avhengige variabler.

Å finne linjen med best tilpasning, som kan hjelpe til med å forutsi utfallet for kontinuerlige avhengige variabler, er målet med lineær regresjon. Boligpriser, alder og lønn er noen eksempler på kontinuerlige verdier.

lineær regresjon

En modell kjent som enkel lineær regresjon bruker en rett linje for å beregne assosiasjonen mellom en uavhengig variabel og en avhengig variabel. Det er mer enn to uavhengige variabler i multippel lineær regresjon.

En lineær regresjonsmodell har fire underliggende forutsetninger:

Linearitet: Det er en lineær forbindelse mellom X og gjennomsnittet av Y.
Homoscedastisitet: For hver verdi av X er restvariansen den samme.
Uavhengighet: Observasjoner er uavhengige av hverandre når det gjelder uavhengighet.
Normalitet: Når X er fast, er Y normalfordelt.

Lineær regresjon yter beundringsverdig for data som kan separeres langs linjer. Den kan kontrollere overtilpasning ved å bruke teknikker for regularisering, kryssvalidering og dimensjonalitetsreduksjon. Imidlertid er det tilfeller hvor omfattende funksjonsteknikk er nødvendig, noe som av og til kan føre til overtilpasning og støy.

2. Logistisk regresjon

Logistisk regresjon er en annen maskinlæringsteknikk som avviker fra overvåket læring. Hovedbruken er klassifisering, mens den også kan brukes til regresjonsproblemer.

Logistisk regresjon brukes til å forutsi den kategoriske avhengige variabelen ved å bruke informasjonen fra de uavhengige faktorene. Målet er å klassifisere utdata, som bare kan falle mellom 0 og 1.

Logistisk regresjon

Den vektede summen av inngangene behandles av sigmoid-funksjonen, en aktiveringsfunksjon som konverterer verdier mellom 0 og 1.

Grunnlaget for logistisk regresjon er maksimal sannsynlighetsestimering, en metode for å beregne parametrene til en antatt sannsynlighetsfordeling gitt spesifikke observerte data.

3. Beslutningstre

En annen maskinlæringsmetode som splintres av overvåket læring er beslutningstreet. For både klassifiserings- og regresjonsspørsmål kan beslutningstretilnærmingen brukes.

Dette beslutningsverktøyet, som ligner et tre, bruker visuelle representasjoner for å vise handlingers potensielle resultater, kostnader og konsekvenser. Ved å dele dataene i separate deler, er ideen analog med det menneskelige sinn.

Beslutningstre

Dataene har blitt delt inn i forskjellige deler så mye vi kan granulere dem. Et Decision Trees hovedmål er å bygge en treningsmodell som kan brukes til å forutsi klassen til målvariabelen. Manglende verdier kan håndteres automatisk ved hjelp av beslutningstreet.

Det er ingen krav til one-shot-koding, dummyvariabler eller andre dataforbehandlingstrinn. Det er rigid i den forstand at det er vanskelig å legge til ferske data til det. Hvis du har flere merkede data, bør du trene treet på nytt i hele datasettet.

Som et resultat er beslutningstrær et dårlig valg for enhver applikasjon som krever dynamisk modellendring.

Basert på typen målvariabel, er beslutningstrær klassifisert i to typer:

Kategorisk variabel: Et beslutningstre der målvariabelen er Kategorisk.
Kontinuerlig variabel: Et beslutningstre der målvariabelen er Kontinuerlig.

4. Tilfeldig skog

Random Forest Method er den neste maskinlæringsteknikken og er en overvåket maskinlæringsalgoritme som brukes mye i klassifiserings- og regresjonsspørsmål. Det er også en trebasert metode, som ligner på et beslutningstre.

En skog av trær, eller mange beslutningstrær, brukes av tilfeldig skog-metoden for å gjøre vurderinger. Ved håndtering av klassifiseringsoppgaver brukte den tilfeldige skogmetoden kategoriske variabler mens han håndterte regresjonsoppgaver med datasett som inneholder kontinuerlige variabler.

Tilfeldig skog

Et ensemble, eller blanding av mange modeller, er hva den tilfeldige skogmetoden gjør, noe som betyr at spådommer gjøres ved å bruke en gruppe modeller i stedet for bare én.

Evnen til å bli brukt til både klassifiserings- og regresjonsproblemer, som utgjør flertallet av moderne maskinlæringssystemer, er en viktig fordel med den tilfeldige skogen.

To forskjellige strategier brukes av Ensemble:

Bagging: Ved å gjøre dette produseres mer data for treningsdatasettet. For å minske variasjonen i prognosene gjøres dette.
Forsterkning er prosessen med å kombinere svake elever med sterke elever ved å bygge påfølgende modeller, noe som resulterer i den endelige modellen med maksimal nøyaktighet.

5. Naive Bayes

Et binært (to-klassers) og multi-class klassifiseringsproblem kan løses ved å bruke Naive Bayes-teknikken. Når metoden er forklart ved hjelp av binære eller kategoriinndataverdier, er den enklest å forstå. En antakelse gjort av en naiv Bayes-klassifikator er at eksistensen av en funksjon i en klasse ikke har noen betydning for tilstedeværelsen av andre funksjoner.

Naiv Bayes

Formelen ovenfor indikerer:

P(H): Sannsynligheten for at hypotese H er riktig. Forutsannsynligheten omtales som dette.
P(E): Sannsynligheten for bevisene
P(E|H): Sannsynligheten for at hypotesen støttes av bevisene.
P(H|E): Sannsynligheten for at hypotesen er sann, gitt bevisene.

En naiv Bayes-klassifikator vil ta hensyn til hver av disse egenskapene individuelt når de bestemmer sannsynligheten for et bestemt resultat, selv om disse attributtene er knyttet til hverandre. En naiv Bayesiansk modell er enkel å konstruere og effektiv for store datasett.

Det er kjent for å prestere bedre enn selv de mest komplekse kategoriseringsteknikkene samtidig som det er grunnleggende. Det er en samling algoritmer som alle er basert på Bayes' teorem, i stedet for en enkelt metode.

6. K-Nærmeste Naboer

Teknikken K-nearest neighbours (kNN) er en undergruppe av overvåket maskinlæring som kan brukes til å løse problemer med klassifisering og regresjon. KNN-algoritmen antar at sammenlignbare objekter kan finnes i nærheten.

Jeg husker det som en samling av likesinnede individer. kNN drar nytte av ideen om likhet mellom andre datapunkter ved å bruke nærhet, nærhet eller avstand. For å merke de usynlige dataene basert på de nærmeste merkede observerbare datapunktene, brukes en matematisk metode for å bestemme separasjonen mellom punkter på en graf.

K Nærmeste naboer

Du må bestemme avstanden mellom datapunktene for å identifisere de nærmeste sammenlignbare stedene. Avstandsmålinger som den euklidiske avstanden, Hamming-avstanden, Manhattan-avstanden og Minkowski-avstanden kan brukes til dette. K-en er kjent som nærmeste nabonummer, og det er ofte et oddetall.

KNN kan brukes på klassifiserings- og regresjonsproblemer. Prediksjonen som gjøres når KNN brukes til regresjonsproblemer, er basert på gjennomsnittet eller medianen av de K-lignende forekomstene.

Resultatet av en klassifiseringsalgoritme basert på KNN kan bestemmes som klassen med høyest frekvens blant K mest like forekomster. Hver instans avgir i hovedsak en stemme for sin klasse, og spådommen tilhører den klassen som får flest stemmer.

7. K-betyr

Det er en teknikk for uovervåket læring som tar opp klyngeproblemer. Datasett er delt inn i et visst antall klynger – kall la oss det K – på en slik måte at hver klynges datapunkter er homogene og forskjellige fra de i de andre klyngene.

K betyr 1

K-betyr klyngemetodikk:

For hver klynge velger K-means-algoritmen k sentroider, eller punkter.
Med de nærmeste centroidene eller K-klynger, danner hvert datapunkt en klynge.
Nå produseres nye sentroider avhengig av klyngemedlemmene som allerede er til stede.
Den nærmeste avstanden for hvert datapunkt beregnes ved å bruke disse oppdaterte tyngdepunktene. Frem til tyngdepunktene ikke endres, gjentas denne prosessen.

Det er raskere, mer pålitelig og enklere å forstå. Hvis det er problemer, gjør k-means' tilpasningsevne justeringer enkle. Når datasettene er forskjellige eller godt isolert fra hverandre, er resultatene best. Den kan ikke håndtere uberegnelige data eller uteliggere.

8. Støtt vektormaskiner

Når du bruker SVM-teknikken for å klassifisere data, vises rådata som prikker i et n-dimensjonalt rom (der n er antallet funksjoner du har). Dataene kan da enkelt klassifiseres fordi hver funksjons verdi deretter kobles til en spesifikk koordinat.

For å skille dataene og sette dem på en graf, bruk linjer kjent som klassifiserere. Denne tilnærmingen plotter hvert datapunkt som et punkt i et n-dimensjonalt rom, der n er antallet funksjoner du har og hver funksjons verdi er en spesifikk koordinatverdi.

Støtt vektormaskin

Vi vil nå finne en linje som deler dataene inn i to sett med data som har blitt kategorisert forskjellig. Avstandene fra de nærmeste punktene i hver av de to gruppene vil være lengst fra hverandre langs denne linjen.

Siden de to nærmeste punktene er de som er fjernest fra linjen i eksemplet ovenfor, er linjen som deler dataene inn i de to gruppene som ble kategorisert forskjellig midtlinjen. Klassifisereren vår er denne linjen.

9. Dimensjonsreduksjon

Ved å bruke tilnærmingen til dimensjonalitetsreduksjon, kan treningsdata ha færre inngangsvariabler. Enkelt sagt refererer det til prosessen med å krympe størrelsen på funksjonssettet ditt. La oss forestille oss at datasettet ditt har 100 kolonner; dimensjonalitetsreduksjon vil redusere dette beløpet til 20 kolonner.

Dimensjonsreduksjon

Modellen blir automatisk mer sofistikert og har større risiko for overmontering etter hvert som antallet funksjoner øker. Det største problemet med å jobbe med data i større dimensjoner er det som er kjent som "dimensjonalitetens forbannelse", som oppstår når dataene dine inneholder et for stort antall egenskaper.

Følgende elementer kan brukes for å oppnå dimensjonalitetsreduksjon:

For å finne og velge relevante egenskaper, brukes funksjonsvalg.
Ved å bruke allerede eksisterende funksjoner oppretter funksjonsteknikk nye funksjoner manuelt.

konklusjonen

Uovervåket eller overvåket maskinlæring er begge mulig. Velg overvåket læring hvis dataene dine er mindre rike og godt merket for trening.

Store datasett ville ofte prestere og gi bedre resultater ved å bruke uovervåket læring. Dyp læring Metodene er best hvis du har en betydelig datainnsamling som er lett tilgjengelig.

Forsterkningslæring og dyp forsterkende læring er noen av temaene du har studert. Nevrale nettverks egenskaper, bruk og begrensninger er nå klare for deg. Sist, men ikke minst, vurderte du alternativene for forskjellige programmeringsspråk, IDE-er og plattformer når det kom til å lage dine egne maskinlæringsmodeller.

Det neste du må gjøre er å begynne å studere og bruke hver maskinlæring nærme seg. Selv om emnet er bredt, kan ethvert emne forstås på noen få timer hvis du fokuserer på dybden. Hvert fag står alene fra de andre.

Du må tenke på ett problem om gangen, studere det, sette det i praksis og bruke et språk du velger for å implementere algoritmen(e) i den.

Liste over store maskinlæringsalgoritmer for nybegynnere

Så, hva er maskinlæringsalgoritmer?