Lys van groot masjienleeralgoritmes vir beginners

INHOUDSOPGAWE[Versteek][Wys]

So, wat is masjienleer-algoritmes?
Onder toesig, sonder toesig en versterkingsleer+-
Groot Masjienleeralgoritmes+-
Gevolgtrekking

Die wêreld verander vinnig as gevolg van kunsmatige intelligensie, en masjienleer, wat 'n impak op elke aspek van ons alledaagse lewe het.

Van stemassistente wat NLP en masjienleer gebruik om afsprake te bespreek, gebeurtenisse op ons kalender op te soek en musiek te speel tot toestelle wat so akkuraat is dat hulle ons behoeftes kan voorsien voordat ons dit eers oorweeg.

Rekenaars kan skaak speel, chirurgie doen en ontwikkel tot slimmer, meer mensagtige masjiene met behulp van masjienleeralgoritmes.

Ons is in 'n tyd van voortdurende tegnologiese vooruitgang, en deur te sien hoe rekenaars deur die tyd ontwikkel het, kan ons voorspellings maak oor wat in die toekoms gaan gebeur.

Die demokratisering van rekenaarhulpmiddels en -metodes is een van die sleutelaspekte van hierdie revolusie wat uitstaan. Datawetenskaplikes het die afgelope vyf jaar kragtige rekenaars vir data-knars geskep deur die nuutste metodes moeiteloos te implementeer. Die uitkomste is verstommend.

In hierdie pos sal ons noukeurig kyk machine learning algoritmes en al hul variasies.

So, wat is masjienleer-algoritmes?

Die benadering wat deur die KI-stelsel gebruik word om sy taak uit te voer - gewoonlik die voorspelling van uitsetwaardes vanaf gegewe insetdata - staan bekend as 'n masjienleeralgoritme.

'n Masjienleeralgoritme is 'n proses wat data gebruik en gebruik word om masjienleermodelle te skep wat gereed is vir produksie. As masjienleer die trein is wat 'n werk uitvoer, dan is masjienleeralgoritmes die lokomotiewe wat die werk voortbeweeg.

Die beste masjienleerbenadering om te gebruik, sal bepaal word deur die besigheidsprobleem wat jy probeer aanspreek, die tipe datastel wat jy gebruik en die hulpbronne wat jy beskikbaar het.

Masjienleeralgoritmes is dié wat 'n datastel in 'n model omskep. Afhangende van die soort probleem wat jy probeer beantwoord, die verwerkingskrag wat beskikbaar is en die tipe data wat jy het, kan leeralgoritmes onder toesig, sonder toesig of versterking goed presteer.

So, ons het gepraat oor leer onder toesig, sonder toesig en versterking, maar wat is dit? Kom ons verken hulle.

Onder toesig, sonder toesig en versterkingsleer

Toesig oor leer

By leer onder toesig word die KI-model ontwikkel op grond van die insette wat verskaf is en die etiket wat die voorspelde uitkoms verteenwoordig. Gebaseer op die insette en uitsette, ontwikkel die model 'n karteringvergelyking, en deur daardie karteringvergelyking te gebruik, voorspel dit die etiket van die insette in die toekoms.

Kom ons sê ons moet 'n model skep wat tussen 'n hond en 'n kat kan onderskei. Veelvuldige foto's van katte en honde word in die model ingevoer met etikette wat aandui of hulle katte of honde is om die model op te lei.

Die model poog om 'n vergelyking daar te stel wat die byskrifte op die insetfoto's met daardie beelde verbind. Selfs al het die model nog nooit die beeld gesien nie, kan dit na opleiding identifiseer of dit van 'n kat of 'n hond is.

Onbewaakte leer

Leer sonder toesig behels die opleiding van 'n KI-model slegs op insette sonder om dit te etiketteer. Die model verdeel die insetdata in groepe met verwante kenmerke.

Die toekomstige etiket van die inset word dan voorspel afhangende van hoe nou sy eienskappe ooreenstem met een van die klassifikasies. Beskou die situasie waar ons 'n groep rooi en blou balle in twee kategorieë moet verdeel.

Kom ons neem aan dat die balle se ander eienskappe identies is, met die uitsondering van kleur. Op grond van hoe dit die balle in twee klasse kan verdeel, soek die model die eienskappe wat verskil tussen die balle.

Twee trosse balle—een blou en een rooi—word gevorm wanneer die balle volgens hul kleur in twee groepe verdeel word.

Versterking Leer

In versterkingsleer poog die KI-model om algehele wins te maksimeer deur so goed op te tree as wat dit kan in 'n bepaalde omstandighede. Terugvoer oor sy vorige resultate help die model om te leer.

Dink aan die scenario wanneer 'n robot opdrag gegee word om 'n roete tussen punte A en B te kies. Die robot kies eers een van die kursusse omdat dit geen vorige ondervinding het nie.

Die robot ontvang insette oor die roete wat hy neem en kry kennis daaruit. Die robot kan insette gebruik om die probleem op te los die volgende keer as dit 'n soortgelyke omstandigheid teëkom.

Byvoorbeeld, as die robot opsie B kies en 'n beloning ontvang, soos positiewe terugvoer, verstaan hy hierdie keer dat hy manier B moet kies om sy beloning te verhoog.

Nou uiteindelik waarvoor julle almal wag, is die algoritmes.

Groot Masjienleeralgoritmes

1. Lineêre regressie

Die eenvoudigste masjienleerbenadering wat afwyk van leer onder toesig is lineêre regressie. Met die kennis van onafhanklike veranderlikes word dit meestal aangewend om regressiekwessies op te los en voorspellings oor kontinu afhanklike veranderlikes te skep.

Die doel van lineêre regressie is om die lyn van die beste passing te vind, wat kan help met die voorspelling van die uitkoms vir kontinue afhanklike veranderlikes. Huispryse, ouderdom en lone is 'n paar voorbeelde van deurlopende waardes.

lineêre regressie

'n Model bekend as eenvoudige lineêre regressie gebruik 'n reguit lyn om die assosiasie tussen een onafhanklike veranderlike en een afhanklike veranderlike te bereken. Daar is meer as twee onafhanklike veranderlikes in meervoudige lineêre regressie.

’n Lineêre regressiemodel het vier onderliggende aannames:

Lineariteit: Daar is 'n lineêre verband tussen X en die gemiddelde van Y.
Homoscedastisiteit: Vir elke waarde van X is die oorblywende variansie dieselfde.
Onafhanklikheid: Waarnemings is onafhanklik van mekaar in terme van onafhanklikheid.
Normaliteit: Wanneer X vas is, is Y normaalverdeel.

Lineêre regressie presteer uitstekend vir data wat langs lyne geskei kan word. Dit kan oorpassing beheer deur gebruik te maak van regularisering, kruisvalidering en dimensieverminderingstegnieke. Daar is egter gevalle waar uitgebreide kenmerk-ingenieurswese vereis word, wat soms kan lei tot oorpassing en geraas.

2. Logistiese regressie

Logistiese regressie is nog 'n masjienleertegniek wat van leer onder toesig afwyk. Die hoofgebruik daarvan is klassifikasie, terwyl dit ook vir regressieprobleme gebruik kan word.

Logistiese regressie word gebruik om die kategoriese afhanklike veranderlike te voorspel deur die inligting van die onafhanklike faktore te gebruik. Die doel is om uitsette te klassifiseer, wat slegs tussen 0 en 1 kan val.

Logistieke regressie

Die geweegde totaal van die insette word verwerk deur die sigmoid-funksie, 'n aktiveringsfunksie wat waardes tussen 0 en 1 omskakel.

Die basis van logistiese regressie is maksimum waarskynlikheid skatting, 'n metode vir die berekening van die parameters van 'n veronderstelde waarskynlikheidsverdeling gegewe spesifieke waargenome data.

3. Besluitboom

Nog 'n masjienleermetode wat van leer onder toesig afbreek, is die besluitboom. Vir beide klassifikasie- en regressiekwessies kan die besluitboombenadering gebruik word.

Hierdie besluitnemingsinstrument, wat soos 'n boom lyk, gebruik visuele voorstellings om aksies se voornemende resultate, koste en reperkussies te wys. Deur die data in afsonderlike gedeeltes te verdeel, is die idee analoog aan die menslike verstand.

Besluitboom

Die data is verdeel in afsonderlike dele soveel as wat ons dit kon granuleer. 'n Besluitboom se hoofdoelwit is om 'n opleidingsmodel te bou wat gebruik kan word om die klas van die teikenveranderlike te voorspel. Ontbrekende waardes kan outomaties met behulp van die Besluitboom hanteer word.

Daar is geen vereiste vir eenskoot-enkodering, dummy-veranderlikes of ander data-voorbehandelingstappe nie. Dit is rigied in die sin dat dit moeilik is om vars data daarby te voeg. As jy addisionele benoemde data het, moet jy die boom op die hele datastel heroplei.

As gevolg hiervan is besluitnemingsbome 'n swak keuse vir enige toepassing wat dinamiese modelverandering vereis.

Op grond van die soort teikenveranderlike word besluitnemingsbome in twee tipes geklassifiseer:

Kategoriese veranderlike: 'n Beslissingsboom waarin die doelveranderlike Kategories is.
Kontinue veranderlike: 'n Besluitboom waarin die doelveranderlike Kontinu is.

4. Random Forest

Die Random Forest-metode is die volgende masjienleertegniek en is 'n masjienleeralgoritme onder toesig wat wyd gebruik word in klassifikasie- en regressiekwessies. Dit is ook 'n boomgebaseerde metode, soortgelyk aan 'n besluitboom.

'n Bos van bome, of baie besluitebome, word deur die ewekansige woudmetode gebruik om uitsprake te maak. By die hantering van klassifikasietake het die ewekansige woudmetode kategoriese veranderlikes gebruik terwyl regressietake met datastelle wat kontinue veranderlikes bevat, hanteer word.

Random Forest

'n Ensemble, of vermenging van baie modelle, is wat die ewekansige woudmetode doen, wat beteken dat voorspellings gemaak word deur 'n groep modelle eerder as net een te gebruik.

Die vermoë om vir beide klassifikasie- en regressieprobleme gebruik te word, wat die meerderheid van moderne masjienleerstelsels uitmaak, is 'n sleutelvoordeel van die ewekansige woud.

Twee verskillende strategieë word deur Ensemble gebruik:

Bagasie: Deur dit te doen, word meer data vir die opleidingdatastel geproduseer. Om die variasie in die voorspellings te verminder, word dit gedoen.
Versterking is die proses om swak leerders met sterk leerders te kombineer deur opeenvolgende modelle te bou, wat die finale model met maksimum akkuraatheid tot gevolg het.

5. Naïef Bayes

'n Binêre (twee-klas) en multi-klas klassifikasie kwessie kan opgelos word met behulp van die Naive Bayes tegniek. Wanneer die metode met behulp van binêre of kategorie-invoerwaardes verduidelik word, is dit die eenvoudigste om te begryp. 'n Aanname gemaak deur 'n Naïewe Bayes-klassifiseerder is dat die bestaan van een kenmerk in 'n klas geen invloed het op die teenwoordigheid van enige ander kenmerke nie.

Naïewe Bayes

Die formule hierbo dui aan:

P(H): Die waarskynlikheid dat hipotese H korrek is. Die vorige waarskynlikheid word na verwys as hierdie.
P(E): Die waarskynlikheid van die getuienis
P(E|H): Die waarskynlikheid dat die hipotese deur die bewyse ondersteun word.
P(H|E): Die waarskynlikheid dat die hipotese waar is, gegewe die bewyse.

'n Naïewe Bayes-klassifiseerder sal elkeen van hierdie kenmerke individueel in ag neem wanneer die waarskynlikheid van 'n sekere resultaat bepaal word, selfs al is hierdie eienskappe aan mekaar verbind. 'n Naïewe Bayesiaanse model is maklik om te bou en effektief vir groot datastelle.

Dit is bekend dat dit beter presteer as selfs die mees komplekse kategoriseringstegnieke terwyl dit basies is. Dit is 'n versameling van algoritmes wat almal gebaseer is op die Bayes se Stelling, eerder as 'n enkele metode.

6. K-Naaste bure

Die K-naaste bure (kNN) tegniek is 'n subset van masjienleer onder toesig wat gebruik kan word om klassifikasie- en regressiekwessies aan te spreek. Die KNN-algoritme veronderstel dat vergelykbare voorwerpe naby gevind kan word.

Ek onthou dit as 'n byeenkoms van eendersdenkende individue. kNN maak voordeel uit die idee van ooreenkoms tussen ander datapunte deur gebruik te maak van nabyheid, nabyheid of afstand. Om die onsigbare data te benoem op grond van die naaste benoemde waarneembare datapunte, word 'n wiskundige metode gebruik om die skeiding tussen punte op 'n grafiek te bepaal.

K Naaste bure

Jy moet die afstand tussen die datapunte bepaal om die naaste vergelykbare kolle te identifiseer. Afstandmetings soos die Euklidiese afstand, Hamming-afstand, Manhattan-afstand en Minkowski-afstand kan hiervoor gebruik word. Die K staan bekend as die naaste buurgetal, en dit is dikwels 'n onewe getal.

KNN kan toegepas word op klassifikasie- en regressieprobleme. Die voorspelling wat gemaak word wanneer KNN aan regressiekwessies gebruik word, is gebaseer op die gemiddelde of mediaan van die K-mees soortgelyke voorkomste.

Die resultaat van 'n klassifikasie-algoritme gebaseer op KNN kan bepaal word as die klas met die hoogste frekwensie onder die K mees soortgelyke voorkomste. Elke geval bring in wese 'n stem vir hul klas, en die voorspelling behoort aan die klas wat die meeste stemme ontvang.

7. K-beteken

Dit is 'n tegniek vir leer sonder toesig wat groeperingskwessies aanspreek. Datastelle word in 'n sekere aantal trosse verdeel—noem kom ons dit K—op so 'n manier dat elke groep se datapunte homogeen en onderskei van dié in die ander groepe is.

K beteken 1

K-beteken groepering metodologie:

Vir elke groep kies die K-beteken algoritme k sentroïede, of punte.
Met die naaste sentroïede of K-klusters, vorm elke datapunt 'n groep.
Nou word nuwe sentroïede vervaardig, afhangende van die groeplede wat reeds teenwoordig is.
Die naaste afstand vir elke datapunt word bereken deur hierdie opgedateerde sentroïede te gebruik. Totdat die sentroïede nie verander nie, word hierdie proses herhaal.

Dit is vinniger, meer betroubaar en makliker om te verstaan. As daar probleme is, maak k-means se aanpasbaarheid aanpassings eenvoudig. Wanneer die datastelle onderskei of goed van mekaar geïsoleer is, is die resultate die beste. Dit kan nie wisselvallige data of uitskieters bestuur nie.

8. Ondersteun vektormasjiene

Wanneer die SVM-tegniek gebruik word om data te klassifiseer, word rou data as kolletjies in 'n n-dimensionele ruimte getoon (waar n die aantal kenmerke is wat jy het). Die data kan dan maklik geklassifiseer word omdat elke kenmerk se waarde dan aan 'n spesifieke koördinaat gekoppel word.

Om die data te skei en op 'n grafiek te plaas, gebruik lyne bekend as klassifiseerders. Hierdie benadering plot elke datapunt as 'n punt in 'n n-dimensionele ruimte, waar n die aantal kenmerke is wat jy het en elke kenmerk se waarde 'n spesifieke koördinaatwaarde is.

Ondersteun vektormasjien

Ons sal nou 'n lyn opspoor wat die data verdeel in twee stelle data wat verskillend gekategoriseer is. Die afstande vanaf die naaste punte in elk van die twee groepe sal langs hierdie lyn die verste uitmekaar wees.

Aangesien die twee naaste punte dié is wat die verste van die lyn in die voorbeeld hierbo is, is die lyn wat die data verdeel in die twee groepe wat verskillend gekategoriseer is, die middellyn. Ons klassifiseerder is hierdie lyn.

9. Dimensionaliteitvermindering

Deur die benadering van dimensionaliteitvermindering te gebruik, kan opleidingsdata minder insetveranderlikes hê. In eenvoudige terme verwys dit na die proses om die grootte van jou kenmerkstel te verklein. Kom ons verbeel ons jou datastel het 100 kolomme; dimensionaliteitsvermindering sal daardie hoeveelheid tot 20 kolomme verminder.

Dimensionaliteit Vermindering

Die model word outomaties meer gesofistikeerd en het 'n groter risiko om te oorpas namate die aantal kenmerke toeneem. Die grootste probleem met die werk met data in groter dimensies is wat bekend staan as die "vloek van dimensionaliteit", wat plaasvind wanneer jou data 'n oormatige aantal kenmerke bevat.

Die volgende elemente kan gebruik word om dimensionaliteitsvermindering te bewerkstellig:

Om toepaslike eienskappe te vind en te kies, word kenmerkkeuse gebruik.
Deur reeds bestaande kenmerke te gebruik, skep kenmerk-ingenieurswese met die hand nuwe kenmerke.

Gevolgtrekking

Masjienleer sonder toesig of onder toesig is albei moontlik. Kies leer onder toesig as jou data minder volop is en goed gemerk is vir opleiding.

Groot datastelle sal dikwels presteer en beter uitkomste lewer deur sonder toesig te leer. Diep leer metodes is die beste as jy 'n aansienlike dataversameling het wat geredelik beskikbaar is.

Versterking leer en diep versterkingsleer is 'n paar onderwerpe wat jy bestudeer het. Neurale netwerke se kenmerke, gebruike en beperkings is nou vir jou duidelik. Laastens, maar nie die minste nie, het jy die opsies vir verskillende programmeertale, IDE's en platforms oorweeg wanneer dit by die skep van jou eie kom. masjienleermodelle.

Die volgende ding wat jy moet doen is om te begin studeer en elkeen te gebruik machine learning benadering. Selfs al is die onderwerp breed, kan enige onderwerp binne 'n paar uur verstaan word as jy op die diepte daarvan fokus. Elke vak staan alleen van die ander.

Jy moet oor een saak op 'n slag dink, dit bestudeer, dit in die praktyk toepas en 'n taal van jou keuse gebruik om die algoritme(s) daarin te implementeer.

Lys van belangrikste masjienleeralgoritmes vir beginners

So, wat is masjienleer-algoritmes?