A főbb gépi tanulási algoritmusok listája kezdőknek

Tartalomjegyzék[Elrejt][Előadás]

Tehát mik azok a gépi tanulási algoritmusok?
Felügyelt, felügyelet nélküli és megerősítéses tanulás+-
Főbb gépi tanulási algoritmusok+-
Következtetés

A világ gyorsan változik a mesterséges intelligencia és a gépi tanulás miatt, ami mindennapi életünk minden területére hatással van.

Az NLP-t és a gépi tanulást használó hangasszisztensektől az időpontok lefoglalására, a naptárunkban lévő események megkeresésére és a zenelejátszásra egészen az olyan eszközökig, amelyek annyira pontosak, hogy már azelőtt előre látják az igényeinket, hogy még megfontolnánk őket.

A számítógépek sakkozhatnak, műtétet végezhetnek, és okosabb, emberszerűbb gépekké fejlődhetnek a gépi tanulási algoritmusok segítségével.

A folyamatos technológiai fejlődés korszakát éljük, és ha látjuk, hogy a számítógépek hogyan fejlődtek az idők során, előrejelzéseket készíthetünk arról, hogy mi fog történni a jövőben.

A számítástechnikai eszközök és módszerek demokratizálódása ennek a forradalomnak az egyik kulcsfontosságú aspektusa, amely kiemelkedik. Adattudósok az elmúlt öt évben nagy teljesítményű adattörő számítógépeket hoztak létre a legmodernebb módszerek könnyed megvalósításával. Az eredmények elképesztőek.

Ebben a bejegyzésben alaposan megvizsgáljuk gépi tanulás algoritmusok és azok összes változata.

Tehát mik azok a gépi tanulási algoritmusok?

A mesterséges intelligencia rendszer által a feladat végrehajtására használt megközelítés – általában a kimeneti értékek előrejelzése adott bemeneti adatokból – gépi tanulási algoritmusként ismert.

A gépi tanulási algoritmus egy olyan folyamat, amely adatokat használ, és gyártásra kész gépi tanulási modellek létrehozására szolgál. Ha a gépi tanulás az a vonat, amelyik elvégzi a munkát, akkor a gépi tanulási algoritmusok azok a mozdonyok, amelyek a munkát végigmozgatják.

A legjobban használható gépi tanulási megközelítést a kezelni kívánt üzleti probléma, a használt adatkészlet típusa és a rendelkezésre álló erőforrások határozzák meg.

A gépi tanulási algoritmusok azok, amelyek egy adathalmazt modelleznek. A megválaszolni kívánt probléma típusától, a rendelkezésre álló feldolgozási teljesítménytől és a birtokában lévő adatok típusától függően a felügyelt, nem felügyelt vagy megerősítő tanulási algoritmusok jól teljesíthetnek.

Szóval, beszéltünk felügyelt, felügyelet nélküli és megerősítéses tanulásról, de mik ezek? Fedezzük fel őket.

Felügyelt, felügyelet nélküli és megerősítéses tanulás

Felügyelt tanulás

A felügyelt tanulás során az AI-modellt a megadott input és az előre jelzett eredményt jelző címke alapján fejlesztik ki. A bemenetek és kimenetek alapján a modell leképezési egyenletet dolgoz ki, és ennek felhasználásával előrejelzi a bemenetek címkéjét a jövőben.

Tegyük fel, hogy létre kell hoznunk egy modellt, amely megkülönbözteti a kutyát és a macskát. A modell kiképzése érdekében több macskáról és kutyáról készült fotó is bekerül a modellbe, címkékkel, amelyek jelzik, hogy macskák vagy kutyák.

A modell egy egyenlet létrehozására törekszik, amely a bemeneti fényképek címkéit ezekhez a képekhez kapcsolja. Még ha a modell még soha nem látta a képet, edzés után képes azonosítani, hogy macskáról vagy kutyáról van-e szó.

Felügyelet nélküli tanulás

A felügyelet nélküli tanulás magában foglalja a mesterséges intelligencia modelljének csak a bemeneteken való betanítását, címkézés nélkül. A modell a bemeneti adatokat kapcsolódó jellemzőkkel rendelkező csoportokra osztja.

A bemenet jövőbeni címkéjét a rendszer ezután előrejelzi, attól függően, hogy attribútumai mennyire egyeznek az egyik osztályozással. Tekintsük azt a helyzetet, amikor a piros és kék golyók csoportját két kategóriába kell osztanunk.

Tegyük fel, hogy a golyók egyéb jellemzői a szín kivételével azonosak. Az alapján, hogy a golyókat hogyan tudja két osztályba osztani, a modell megkeresi a golyók között eltérő tulajdonságokat.

Két golyócsoport – egy kék és egy piros – keletkezik, ha a golyókat árnyalatuk alapján két csoportra osztjuk.

Erősítő tanulás

A megerősítő tanulás során az AI-modell arra törekszik, hogy maximalizálja az általános profitot azáltal, hogy a lehető legjobban cselekszik egy adott körülmények között. A korábbi eredményeire vonatkozó visszajelzések segítik a modellt a tanulásban.

Gondoljon arra a forgatókönyvre, amikor egy robotot arra utasítanak, hogy válasszon útvonalat az A és B pontok között. A robot először választja a kurzusok egyikét, mert nincs előzetes tapasztalata.

A robot bemenetet kap a megtett útvonalról, és abból szerez ismereteket. A robot felhasználhatja a bemenetet a probléma megoldására, amikor legközelebb hasonló körülménybe ütközik.

Például, ha a robot a B lehetőséget választja, és jutalmat kap, például pozitív visszajelzést, akkor ezúttal megérti, hogy a B módot kell választania jutalma növeléséhez.

Most végre, amire mindannyian vártok, az az algoritmusok.

Főbb gépi tanulási algoritmusok

1. Lineáris regresszió

A legegyszerűbb gépi tanulási megközelítés, amely eltér a felügyelt tanulástól, a lineáris regresszió. A független változókból származó ismeretek birtokában leginkább regressziós problémák megoldására és folytonos függő változókra vonatkozó előrejelzések készítésére használják.

A lineáris regresszió célja a legjobb illeszkedés vonalának megtalálása, amely segíthet a folytonos függő változók kimenetelének előrejelzésében. A lakásárak, az életkor és a bérek néhány példa a folyamatos értékekre.

Lineáris regresszió

Az egyszerű lineáris regressziónak nevezett modell egyenes vonalat használ egy független változó és egy függő változó közötti összefüggés kiszámítására. A többszörös lineáris regressziónak kettőnél több független változója van.

A lineáris regressziós modell négy alapfeltevésből áll:

Linearitás: X és Y átlaga között lineáris kapcsolat van.
Homoscedaszticitás: X minden értékénél a reziduális variancia azonos.
Függetlenség: A megfigyelések függetlenek egymástól a függetlenség szempontjából.
Normalitás: Ha X rögzített, Y normál eloszlású.

A lineáris regresszió kiválóan teljesít a vonalak mentén elválasztható adatok esetében. Szabályozási, keresztellenőrzési és dimenziócsökkentési technikák segítségével képes szabályozni a túlillesztést. Vannak azonban olyan esetek, amikor átfogó tervezésre van szükség, ami esetenként túlillesztést és zajt okozhat.

2. Logisztikai regresszió

A logisztikai regresszió egy másik gépi tanulási technika, amely eltér a felügyelt tanulástól. Legfőbb felhasználási területe az osztályozás, de regressziós problémákra is használható.

Logisztikus regressziót használunk a kategorikus függő változó előrejelzésére a független tényezőkből származó információk felhasználásával. A cél a kimenetek osztályozása, amelyek csak 0 és 1 közé eshetnek.

Logisztikus regresszió

A bemenetek súlyozott összegét a szigmoid függvény dolgozza fel, egy aktiváló függvény, amely 0 és 1 közötti értékeket konvertál.

A logisztikus regresszió alapja a maximum likelihood becslés, egy feltételezett valószínűségi eloszlás paramétereinek számítására szolgáló módszer konkrét megfigyelt adatok mellett.

3. Döntési fa

Egy másik gépi tanulási módszer, amely elszakad a felügyelt tanulástól, a döntési fa. Mind az osztályozási, mind a regressziós kérdésekre a döntési fa megközelítés alkalmazható.

Ez a fára emlékeztető döntéshozó eszköz vizuális ábrázolások segítségével mutatja be a cselekvések várható eredményeit, költségeit és következményeit. Ha az adatokat külön részekre osztjuk, az ötlet analóg az emberi elmével.

Döntési fa

Az adatokat külön részekre bontottuk, amennyire csak granulálni tudtuk. A döntési fa fő célja egy olyan képzési modell felépítése, amely felhasználható a célváltozó osztályának előrejelzésére. A hiányzó értékek automatikusan kezelhetők a döntési fa segítségével.

Nincs szükség egyszeri kódolásra, álváltozókra vagy egyéb adat-előkezelési lépésekre. Merev abban az értelemben, hogy nehéz friss adatokat hozzáadni hozzá. Ha további címkézett adatokat kapott, akkor újra kell képeznie a fát a teljes adatkészleten.

Ennek eredményeként a döntési fák rossz választás minden olyan alkalmazáshoz, amely dinamikus modellváltást igényel.

A célváltozó típusa alapján a döntési fákat két típusba soroljuk:

Kategorikus változó: Olyan döntési fa, amelyben a célváltozó Kategorikus.
Folyamatos változó: Olyan döntési fa, amelyben a célváltozó Folyamatos.

4. Random Forest

A Random Forest Method a következő gépi tanulási technika, és egy felügyelt gépi tanulási algoritmus, amelyet széles körben használnak osztályozási és regressziós kérdésekben. Ez is egy fa alapú módszer, hasonlóan a döntési fához.

A fák erdejét vagy sok döntési fát a véletlenszerű erdő módszerrel használnak ítéletek meghozatalára. Az osztályozási feladatok kezelése során a véletlenszerű erdő módszer kategorikus változókat alkalmazott, míg a regressziós feladatokat folytonos változókat tartalmazó adatkészletekkel kezelte.

Véletlen Erdő

A véletlenszerű erdőmódszer egy együttest vagy sok modell keverését teszi lehetővé, ami azt jelenti, hogy az előrejelzések nem csak egy modell, hanem több modell segítségével készülnek.

A véletlenszerű erdő egyik fő előnye, hogy a modern gépi tanulási rendszerek többségét alkotó osztályozási és regressziós problémákra egyaránt használható.

Az Ensemble két különböző stratégiát használ:

Zsákolás: Ezzel több adat keletkezik a betanítási adatkészlethez. Az előrejelzések eltéréseinek csökkentése érdekében ez megtörténik.
A feljavítás az a folyamat, amikor a gyenge tanulókat erős tanulókkal kombinálják egymást követő modellek felépítésével, ami a végső modellt maximális pontossággal eredményezi.

5. Naiv Bayes

Egy bináris (kétosztályos) és többosztályos osztályozási probléma megoldható a Naive Bayes technikával. Ha a módszert bináris vagy kategória bemeneti értékekkel magyarázzuk, akkor a legegyszerűbb megérteni. A Naive Bayes osztályozó feltételezése szerint az egyik jellemző létezése egy osztályban nincs hatással más jellemzők jelenlétére.

Naiv Bayes

A fenti képlet a következőket jelzi:

P(H): Annak a valószínűsége, hogy a H hipotézis helyes. Az előzetes valószínűséget ennek nevezzük.
P(E): A bizonyíték valószínűsége
P(E|H): Annak a valószínűsége, hogy a hipotézist a bizonyítékok alátámasztják.
P(H|E): Annak a valószínűsége, hogy a hipotézis igaz, a bizonyítékok alapján.

A naiv Bayes-osztályozó ezeket a jellemzőket külön-külön figyelembe veszi egy bizonyos eredmény valószínűségének meghatározásakor, még akkor is, ha ezek az attribútumok kapcsolódnak egymáshoz. A naiv Bayes-modell egyszerűen megszerkeszthető, és hatékony nagy adathalmazokhoz.

Köztudott, hogy még a legbonyolultabb kategorizációs technikáknál is jobban teljesít, miközben alapvető. Ez olyan algoritmusok gyűjteménye, amelyek mindegyike a Bayes-tételen alapul, nem pedig egyetlen módszeren.

6. K-Legközelebbi szomszédok

A K-közelebbi szomszédok (kNN) technika a felügyelt gépi tanulás egy részhalmaza, amely osztályozási és regressziós problémák megoldására használható. A KNN algoritmus feltételezi, hogy a közelben hasonló objektumok találhatók.

Úgy emlékszem rá, mint a hasonló gondolkodású egyének összejövetelére. A kNN kihasználja a más adatpontok közötti hasonlóság gondolatát a közelség, a közelség vagy a távolság felhasználásával. Annak érdekében, hogy a nem látható adatokat a legközelebbi címkézett megfigyelhető adatpontok alapján címkézzük, matematikai módszert alkalmazunk a grafikon pontjai közötti távolság meghatározására.

K Legközelebbi szomszédok

Meg kell határoznia az adatpontok közötti távolságot a legközelebbi összehasonlítható pontok azonosításához. Ehhez olyan távolságméréseket lehet használni, mint az euklideszi távolság, a Hamming-távolság, a Manhattan-távolság és a Minkowski-távolság. A K a legközelebbi szomszéd számként ismert, és gyakran páratlan szám.

A KNN alkalmazható osztályozási és regressziós problémákra. A KNN-t a regressziós kérdésekhez használt előrejelzés a K-leghasonlóbb előfordulások átlagán vagy mediánján alapul.

A KNN alapú osztályozási algoritmus eredménye a K leginkább hasonló előfordulások közül a legnagyobb gyakoriságú osztályként határozható meg. Lényegében minden példány a saját osztályára szavaz, és a jóslat azé az osztályé, amelyik a legtöbb szavazatot kapta.

7. K-közeli

Ez a felügyelet nélküli tanulás technikája, amely a klaszterezési problémákat kezeli. Az adatkészletek bizonyos számú fürtre vannak felosztva – nevezzük K-nek – oly módon, hogy az egyes klaszterek adatpontjai homogének és különböznek a többi klaszter adatpontjaitól.

K jelentése 1

K-means klaszterezési módszertan:

A K-means algoritmus minden klaszterhez k centroidot vagy pontot választ ki.
A legközelebbi centroidokkal vagy K-klaszterekkel minden adatpont egy klasztert alkot.
Most új centroidok készülnek a már jelenlévő klasztertagoktól függően.
Az egyes adatpontok legközelebbi távolságát a rendszer ezen frissített súlypontok segítségével számítja ki. Amíg a centroidok nem változnak, ez a folyamat megismétlődik.

Gyorsabb, megbízhatóbb és könnyebben érthető. Ha problémák vannak, a k-mean alkalmazkodóképessége egyszerűvé teszi a beállításokat. Ha az adatkészletek különböznek egymástól, vagy jól el vannak különítve egymástól, akkor az eredmények a legjobbak. Nem tudja kezelni a hibás adatokat vagy a kiugró értékeket.

8. A vektoros gépek támogatása

Ha az SVM technikát használja az adatok osztályozására, a nyers adatok pontokként jelennek meg egy n-dimenziós térben (ahol n a szolgáltatások száma). Az adatok ezután könnyen osztályozhatók, mivel minden jellemző értéke egy adott koordinátához kapcsolódik.

Az adatok szétválasztásához és grafikonon való elhelyezéséhez használjon osztályozóként ismert sorokat. Ez a megközelítés minden adatpontot egy n-dimenziós térben lévő pontként ábrázol, ahol n a jellemzők száma, és az egyes jellemzők értéke egy adott koordinátaérték.

Támogatja a vektoros gépet

Most megkeresünk egy sort, amely az adatokat két eltérő kategóriájú adathalmazra osztja. A két csoport legközelebbi pontjaitól való távolság ezen a vonalon lesz a legtávolabb egymástól.

Mivel a két legközelebbi pont az, amelyik a legtávolabb van a fenti példában szereplő vonaltól, a középső vonal az a vonal, amely az adatokat a két eltérő kategóriájú csoportra osztja. A mi osztályozónk ez a sor.

9. Dimenziócsökkentés

A dimenziócsökkentés megközelítésével a képzési adatok kevesebb bemeneti változót tartalmazhatnak. Egyszerűen fogalmazva, a funkciókészlet méretének csökkentésének folyamatára utal. Képzeljük el, hogy az adatkészlet 100 oszlopból áll; a méretcsökkentéssel ez az összeg 20 oszlopra csökken.

Dimenzionalitás csökkentés

A modell automatikusan kifinomultabbá válik, és a funkciók számának növekedésével nagyobb a túlillesztés kockázata. A nagyobb dimenziójú adatokkal való munka során a legnagyobb probléma az úgynevezett „dimenziós átka”, amely akkor fordul elő, ha az adatok túl sok jellemzőt tartalmaznak.

A következő elemek használhatók a méretcsökkentés végrehajtására:

A megfelelő jellemzők megtalálásához és kiválasztásához a jellemzők kiválasztását alkalmazzuk.
A már meglévő funkciók felhasználásával a funkciótervezés manuálisan hoz létre új funkciókat.

Következtetés

Felügyelt vagy felügyelt gépi tanulás egyaránt lehetséges. Válassza a felügyelt tanulást, ha az adatok kevésbé bőségesek, és jól meg vannak jelölve a képzéshez.

A nagy adatkészletek gyakran teljesítenek, és jobb eredményeket produkálnak felügyelet nélküli tanulással. Mély tanulás A módszerek akkor a legjobbak, ha jelentős, könnyen elérhető adatgyűjteménnyel rendelkezik.

Erősítő tanulás és a mélyreható tanulás néhány olyan téma, amelyet tanulmányozott. A neurális hálózatok jellemzői, felhasználása és korlátai most már világosak az Ön számára. Végül, de nem utolsósorban, figyelembe vette a különböző programozási nyelvek, IDE-k és platformok lehetőségeit, amikor a saját létrehozásáról volt szó. gépi tanulási modellek.

A következő dolog, amit meg kell tennie, hogy elkezdi tanulmányozni és használni mindegyiket gépi tanulás megközelítés. Még ha a téma tág is, bármely téma néhány óra alatt megérthető, ha a mélységére összpontosít. Mindegyik tárgy külön áll a többiektől.

Egyszerre egy kérdést kell átgondolnia, tanulmányoznia, gyakorlatba ültetnie, és az Ön által választott nyelven kell végrehajtania az algoritmus(oka)t.

A főbb gépi tanulási algoritmusok listája kezdőknek

Tehát mik azok a gépi tanulási algoritmusok?