A 40+ gépi tanulással kapcsolatos interjúkérdés (2024)

Tartalomjegyzék[Elrejt][Előadás]

1. Magyarázza el a gépi tanulás, a mesterséges intelligencia és a mély tanulás közötti különbségeket.
2. Kérjük, ismertesse a gépi tanulás különböző típusait.
3. Mi a torzítás és a variancia közötti kompromisszum?
4. A gépi tanulási algoritmusok az idők során jelentősen fejlődtek. Hogyan lehet kiválasztani a megfelelő algoritmust egy adott adathalmazhoz?
5. Miben különbözik a kovariancia és a korreláció?
6. A gépi tanulásban mit jelent a klaszterezés?
7. Melyik gépi tanulási algoritmust részesíti előnyben?
8. Lineáris regresszió a gépi tanulásban: mi ez?
9. Ismertesse a KNN és a k-közép klaszterezés közötti különbségeket!
10. Mit jelent számodra a „kiválasztási elfogultság”?
11. Mi is pontosan a Bayes-tétel?
12. Mit jelent a gépi tanulási modellben a „képzési készlet” és a „tesztkészlet”?
13. Mi az a hipotézis a gépi tanulásban?
14. Mit jelent a gépi tanulás túlillesztése, és hogyan előzhető meg?
15. Mik is pontosan a Naive Bayes osztályozók?
16. Mit jelentenek a költségfüggvények és a veszteségfüggvények?
17. Mi különbözteti meg a generatív modellt a diszkriminatív modelltől?
18. Ismertesse az I. és II. típusú hibák közötti eltéréseket.
19. Mi az Ensemble learning technika a gépi tanulásban?
20. Mik is pontosan a parametrikus modellek? Adj példát.
21. Ismertesse a kollaboratív szűrést! Valamint a tartalom alapú szűrés?
22. Mit értesz pontosan az idősor alatt?
23. Ismertesse a Gradient Boosting és a Random Forest algoritmusok közötti eltéréseket!
24. Miért van szükség zavarmátrixra? Mi az?
25. Mi is pontosan az elvi komponens elemzés?
26. Miért olyan kulcsfontosságú a komponensek rotációja a PCA (főkomponens-elemzés) szempontjából?
27. Hogyan tér el egymástól a regularizáció és a normalizálás?
28. Miben különbözik egymástól a normalizálás és a szabványosítás?
29. Mit jelent pontosan a „variancia inflációs tényező”?
30. Az edzéskészlet mérete alapján hogyan válassz osztályozót?
31. A gépi tanulásban melyik algoritmust nevezik „lusta tanulónak” és miért?
32. Mi a ROC görbe és az AUC?
33. Mik azok a hiperparaméterek? Mitől egyediek a modell paraméterei közül?
34. Mit jelent az F1 pontszám, visszahívás és pontosság?
35. Mi is pontosan a keresztellenőrzés?
36. Tegyük fel, hogy felfedezte, hogy a modellje jelentős eltérést mutat. Ön szerint melyik algoritmus a legalkalmasabb ennek a helyzetnek a kezelésére?
37. Mi különbözteti meg a Ridge-regressziót a Lasso-regressziótól?
38. Mi a fontosabb: a modell teljesítménye vagy a modell pontossága? Melyiket és miért részesítené előnyben?
39. Hogyan kezelne egy egyenlőtlenségekkel rendelkező adatkészletet?
40. Hogyan lehet különbséget tenni a boosting és a bagging között?
41. Ismertesse az induktív és a deduktív tanulás közötti különbségeket!
Következtetés

A vállalkozások élvonalbeli technológiát alkalmaznak, például a mesterséges intelligenciát (AI) és a gépi tanulást, hogy növeljék az információk és szolgáltatások hozzáférhetőségét az egyének számára.

Ezeket a technológiákat számos iparág alkalmazza, köztük a bankszektor, a pénzügy, a kiskereskedelem, a gyártás és az egészségügy.

Az egyik legkeresettebb, mesterséges intelligenciát használó szervezeti szerep az adattudósok, mesterséges intelligencia-mérnökök, gépi tanulási mérnökök és adatelemzők számára.

Ez a bejegyzés sokrétűen végigvezeti Önt gépi tanulás interjúkérdések, az alapoktól az összetettekig, hogy segítsen felkészülni minden olyan kérdésre, amelyet feltehetnek, amikor ideális állását keresi.

1. Magyarázza el a gépi tanulás, a mesterséges intelligencia és a mély tanulás közötti különbségeket.

A mesterséges intelligencia különféle gépi tanulási és mélytanulási megközelítéseket alkalmaz, amelyek lehetővé teszik a számítógépes rendszerek számára, hogy az emberhez hasonló intelligenciát logikával és szabályokkal felhasználva hajtsanak végre feladatokat.

A gépi tanulás különféle statisztikákat és Deep Learning megközelítéseket használ annak érdekében, hogy a gépek tanuljanak korábbi teljesítményükből, és ügyesebbek legyenek bizonyos feladatok önálló elvégzésében, emberi felügyelet nélkül.

A Deep Learning olyan algoritmusok gyűjteménye, amelyek lehetővé teszik a szoftver számára, hogy önmagától tanuljon, és különféle kereskedelmi funkciókat hajtson végre, például hang- és képfelismerést.

Rendszerek, amelyek feltárják többrétegűségüket neurális hálózatok a tanuláshoz szükséges hatalmas mennyiségű adat képes mély tanulásra.

2. Kérjük, ismertesse a gépi tanulás különböző típusait.

A gépi tanulás három különböző típusban létezik:

Felügyelt tanulás: A modell előrejelzéseket vagy ítéleteket hoz létre címkézett vagy előzményadatok felhasználásával a felügyelt gépi tanulásban. Azokat az adatkészleteket, amelyeket jelentésük növelése érdekében megcímkéztek vagy felcímkéztek, címkézett adatoknak nevezzük.
Felügyelet nélküli tanulás: Nincsenek címkézett adataink a felügyelet nélküli tanuláshoz. A bejövő adatokban a modell mintákat, furcsaságokat és összefüggéseket találhat.
Megerősítő tanulás: A modell képes megerősítés segítségével tanulni tanulás és a korábbi viselkedéséért kapott jutalmak.

3. Mi a torzítás és a variancia közötti kompromisszum?

A túlillesztés a torzítás eredménye, ami azt jelenti, hogy a modell milyen mértékben illeszkedik az adatokhoz. Az elfogultságot az Ön helytelen vagy túl egyszerű feltételezései okozzák gépi tanulási algoritmus.

A szórás az ML algoritmus bonyolultsága által okozott hibákra utal, amelyek érzékenységet okoznak a képzési adatok nagy eltéréseire és a túlillesztésre.

A szórás az, hogy egy modell mennyire változik a bemenetektől függően.

Más szóval, az alapmodellek rendkívül torzítottak, de stabilak (alacsony szórású). A túlillesztés problémát jelent az összetett modelleknél, bár ennek ellenére megragadják a modell valóságát (alacsony torzítás).

A nagy szórás és a nagy torzítás elkerülése érdekében kompromisszumra van szükség a torzítás és a variancia között a legjobb hibacsökkentés érdekében.

4. A gépi tanulási algoritmusok az idők során jelentősen fejlődtek. Hogyan lehet kiválasztani a megfelelő algoritmust egy adott adathalmazhoz?

Az alkalmazandó gépi tanulási technika csak az adott adatkészletben lévő adatok típusától függ.

Ha az adatok lineárisak, akkor lineáris regressziót használunk. A zsákolási módszer jobban teljesítene, ha az adatok nemlinearitást jeleznének. Döntési fákat vagy SVM-et használhatunk, ha az adatokat kereskedelmi célból kell kiértékelni vagy értelmezni.

A neurális hálózatok hasznosak lehetnek a pontos válasz megszerzéséhez, ha az adatkészlet fényképeket, videókat és hangot tartalmaz.

Az algoritmus kiválasztása egy adott körülményre vagy adatgyűjtésre nem történhet csak egyetlen intézkedés alapján.

A legmegfelelőbb módszer kialakításához először az adatokat feltáró adatelemzéssel (EDA) kell megvizsgálnunk, és meg kell értenünk az adathalmaz hasznosításának célját.

5. Miben különbözik a kovariancia és a korreláció?

A kovariancia azt értékeli, hogy két változó hogyan kapcsolódik egymáshoz, és hogyan változhat az egyik a másik változásaira válaszul.

Ha az eredmény pozitív, az azt jelzi, hogy közvetlen kapcsolat van a változók között, és hogy az alapváltozó növekedésével vagy csökkenésével emelkedne vagy csökkenne, feltételezve, hogy az összes többi feltétel állandó marad.

A korreláció két valószínűségi változó közötti kapcsolatot méri, és csak három különböző értéke van: 1, 0 és -1.

6. A gépi tanulásban mit jelent a klaszterezés?

Az adatpontokat csoportosító, felügyelet nélküli tanulási módszereket klaszterezésnek nevezzük. Adatpontok gyűjteményével a klaszterezési technika alkalmazható.

Ezzel a stratégiával az összes adatpontot funkcióik szerint csoportosíthatja.

Az azonos kategóriába tartozó adatpontok jellemzői és minősége hasonló, míg a külön csoportosításba tartozó adatpontoké eltérő.

Ez a megközelítés használható statisztikai adatok elemzésére.

7. Melyik gépi tanulási algoritmust részesíti előnyben?

Lehetősége van bemutatni preferenciáit és egyedi tehetségét ebben a kérdésben, valamint számos gépi tanulási technikával kapcsolatos átfogó ismereteit.

Íme néhány tipikus gépi tanulási algoritmus, amelyekre érdemes gondolni:

Lineáris regresszió
Logisztikus regresszió
Naiv Bayes
Döntési fák
K jelentése
Véletlenszerű erdő algoritmus
K-legközelebbi szomszéd (KNN)

8. Lineáris regresszió a gépi tanulásban: mi ez?

A felügyelt gépi tanulási algoritmus a lineáris regresszió.

Prediktív analízisben alkalmazzák a függő és független változók közötti lineáris kapcsolat meghatározására.

A lineáris regresszió egyenlete a következő:

Y = A + BX

ahol:

A bemeneti vagy független változó neve X.
A függő vagy kimeneti változó Y.
X együtthatója b, metszéspontja pedig a.

9. Ismertesse a KNN és a k-közép klaszterezés közötti különbségeket!

Az elsődleges különbség az, hogy a KNN-nek (egy osztályozási módszer, felügyelt tanulás) címkézett pontokra van szüksége, míg a k-középnek nincs szüksége (klaszterező algoritmus, felügyelet nélküli tanulás).

A címkézett adatokat a K-Legközelebbi szomszédok segítségével címkézetlen pontokba sorolhatja. A K-means klaszterezés a pontok közötti átlagos távolságot használja a címkézetlen pontok csoportosításának megtanulásához.

10. Mit jelent számodra a „kiválasztási elfogultság”?

A kísérlet mintavételi szakaszában a torzítás statisztikai pontatlanságból adódik.

A pontatlanság miatt az egyik mintacsoportot gyakrabban választják ki, mint a kísérlet többi csoportját.

Ha a kiválasztási torzítást nem veszik tudomásul, az helytelen következtetéshez vezethet.

11. Mi is pontosan a Bayes-tétel?

Ha tisztában vagyunk más valószínűségekkel, a Bayes-tétel segítségével meghatározhatunk egy valószínűséget. Más szóval, előzetes információk alapján kínálja fel az előfordulás utólagos valószínűségét.

Ez a tétel egy jó módszert ad a feltételes valószínűségek becslésére.

Osztályozási prediktív modellezési problémák kidolgozásakor és modell illesztése során a tréninghez adatkészlet a gépi tanulásban, Bayes-tételt alkalmazunk (pl. Naiv Bayes, Bayes Optimális Osztályozó).

12. Mit jelent a gépi tanulási modellben a „képzési készlet” és a „tesztkészlet”?

Edzőkészlet:

A képzési készlet olyan példányokból áll, amelyeket elemzés és tanulás céljából elküldenek a modellnek.
Ez a címkézett adat, amelyet a modell betanításához használunk fel.
Általában az összes adat 70%-át használják betanítási adatkészletként.

Tesztkészlet:

A tesztkészlet a modell hipotézisgenerálási pontosságának értékelésére szolgál.
Felcímkézett adatok nélkül tesztelünk, majd címkéket használunk az eredmények megerősítésére.
A fennmaradó 30%-ot tesztadatkészletként használjuk.

13. Mi az a hipotézis a gépi tanulásban?

A gépi tanulás lehetővé teszi a meglévő adatkészletek használatát egy adott funkció jobb megértéséhez, amely összekapcsolja a bemenetet a kimenettel. Ezt függvény közelítésnek nevezik.

Ebben az esetben közelítést kell alkalmazni ahhoz, hogy az ismeretlen célfüggvény a lehető legjobb módon továbbítsa az összes elképzelhető megfigyelést az adott helyzet alapján.

A gépi tanulásban a hipotézis egy olyan modell, amely segít a célfüggvény becslésében és a megfelelő input-output leképezések elvégzésében.

Az algoritmusok kiválasztása és tervezése lehetővé teszi a modell által reprezentálható lehetséges hipotézisek terének meghatározását.

Egyetlen hipotézis esetén a kis h (h) betűt, de a nagy h (H) betűt a teljes keresett hipotézistérre használjuk. Röviden áttekintjük ezeket a jelöléseket:

A (h) hipotézis egy olyan speciális modell, amely megkönnyíti a bemenet és a kimenet leképezését, amelyet később értékelésre és előrejelzésre lehet használni.
A hipotézishalmaz (H) a hipotézisek kereshető tere, amely felhasználható a bemenetek kimenetekre való leképezésére. A probléma keretezése, a modell és a modellkonfiguráció néhány példa az általános korlátozásokra.

14. Mit jelent a gépi tanulás túlillesztése, és hogyan előzhető meg?

Amikor egy gép megpróbál tanulni egy elégtelen adatkészletből, túlillesztés történik.

Ennek eredményeként a túlillesztés fordítottan korrelál az adatmennyiséggel. A keresztellenőrzési megközelítés lehetővé teszi a túlillesztés elkerülését kis adatkészletek esetén. Ebben a módszerben egy adatkészlet két részre van osztva.

A teszteléshez és a képzéshez szükséges adatkészlet ebből a két részből fog állni. A betanítási adatkészlet egy modell létrehozására szolgál, míg a tesztelési adatkészlet a modell értékelésére szolgál különböző bemenetek használatával.

Így lehet megelőzni a túlillesztést.

15. Mik is pontosan a Naive Bayes osztályozók?

Különféle osztályozási módszerek alkotják a Naive Bayes osztályozókat. Az ezeknek az osztályozóknak nevezett algoritmusok mindegyike ugyanazon az alapgondolaton dolgozik.

A naiv Bayes-osztályozók feltételezése szerint az egyik jellemző jelenléte vagy hiánya nincs hatással egy másik jellemző jelenlétére vagy hiányára.

Más szavakkal, ezt nevezzük „naivnak”, mivel abból indul ki, hogy minden adatkészlet-attribútum egyformán jelentős és független.

Az osztályozás naiv Bayes osztályozók segítségével történik. Használatuk egyszerű, és jobb eredményeket produkálnak, mint a bonyolultabb előrejelzők, ha a függetlenség előfeltétele igaz.

Szövegelemzésben, levélszemétszűrésben és ajánlási rendszerekben alkalmazzák.

16. Mit jelentenek a költségfüggvények és a veszteségfüggvények?

A „vesztési függvény” kifejezés a számítási veszteség számítási folyamatára utal, amikor csak egy adatot veszünk figyelembe.

Ezzel szemben a költségfüggvényt arra használjuk, hogy meghatározzuk a hibák teljes mennyiségét számos adat esetében. Nincs lényeges különbségtétel.

Más szavakkal, míg a költségfüggvények a teljes betanítási adatkészlet különbségét aggregálják, a veszteségfüggvényeket úgy tervezték, hogy rögzítsék egyetlen rekord tényleges és előrejelzett értékei közötti különbséget.

17. Mi különbözteti meg a generatív modellt a diszkriminatív modelltől?

A diszkriminatív modell megtanulja a különböző adatkategóriák közötti különbségeket. A generatív modell különböző adattípusokat vesz fel.

Az osztályozási problémák tekintetében a diszkriminatív modellek gyakran felülmúlják a többi modellt.

18. Ismertesse az I. és II. típusú hibák közötti eltéréseket.

A hamis pozitívak az I. típusú hibák, míg a hamis negatívok a II. típusú hibák kategóriájába tartoznak (azt állítják, hogy semmi sem történt, amikor valójában megtörtént).

19. Mi az Ensemble learning technika a gépi tanulásban?

Az ensemble learningnek nevezett technika sok gépi tanulási modellt kever össze, hogy hatékonyabb modelleket hozzon létre.

A modell többféle ok miatt változhat. Számos oka van:

Különféle populációk
Különféle hipotézisek
Különféle modellezési módszerek

A modell betanítási és tesztelési adatainak használata során problémába ütközünk. A torzítás, a szórás és az irreducibilis hiba lehetséges típusai ennek a hibának.

Most ezt az egyensúlyt a torzítás és a variancia között a modellben torzítás-variancia kompromisszumnak nevezzük, és ennek mindig léteznie kell. Ezt a kompromisszumot az ensemble learning használatával érik el.

Noha különféle ensemble megközelítések állnak rendelkezésre, két közös stratégia létezik számos modell kombinálására:

A zsákolásnak nevezett natív megközelítés az edzéskészletet használja további edzéskészletek előállításához.
Boosting, kifinomultabb technika: Hasonlóan a zsákoláshoz, az erősítést is arra használják, hogy megtalálják az ideális súlyozási formulát az edzéskészlethez.

20. Mik is pontosan a parametrikus modellek? Adj példát.

A paraméteres modellekben korlátozott számú paraméter található. Az adatok előrejelzéséhez csak a modell paramétereit kell tudni.

Tipikus példák a következők: logisztikus regresszió, lineáris regresszió és lineáris SVM-ek. A nem paraméteres modellek rugalmasak, mivel korlátlan számú paramétert tartalmazhatnak.

Az adatok előrejelzéséhez a modell paraméterei és a megfigyelt adatok állapota szükséges. Íme néhány tipikus példa: témamodellek, döntési fák és k-legközelebbi szomszédok.

21. Ismertesse a kollaboratív szűrést! Valamint a tartalom alapú szűrés?

A személyre szabott tartalomjavaslatok létrehozásának bevált módszere az együttműködésen alapuló szűrés.

A kollaboratív szűrésnek nevezett ajánlási rendszer egyfajta új anyagot jósol azáltal, hogy egyensúlyba hozza a felhasználói preferenciákat a közös érdekekkel.

A tartalomalapú ajánlórendszerek csak a felhasználói beállításokat veszik figyelembe. A felhasználó korábbi választásainak fényében a kapcsolódó anyagokból új ajánlásokat adunk.

22. Mit értesz pontosan az idősor alatt?

Az idősor számok gyűjteménye növekvő sorrendben. Egy előre meghatározott időtartamon keresztül figyeli a kiválasztott adatpontok mozgását, és időszakonként rögzíti az adatpontokat.

Az idősorokhoz nincs minimális vagy maximális időbevitel.

Az elemzők gyakran használnak idősorokat az adatok egyedi követelményeik szerinti elemzésére.

23. Ismertesse a Gradient Boosting és a Random Forest algoritmusok közötti eltéréseket!

Véletlen erdő:

A végén nagyszámú döntési fát egyesítenek, és véletlenszerű erdőknek nevezik őket.
Míg a gradiens növelése minden fát a többitől függetlenül állít elő, addig a véletlenszerű erdő egyesével építi fel az egyes fákat.
Multiclass tárgy észlelése jól működik véletlenszerű erdőkkel.

Gradiens kiemelés:

Míg a véletlenszerű erdők a folyamat végén csatlakoznak a döntési fákhoz, addig a Gradient Boosting Machines a kezdetektől kombinálja őket.
Ha a paraméterek megfelelően vannak beállítva, a gradiens növelése felülmúlja a véletlenszerű erdőket az eredmények tekintetében, de nem okos választás, ha az adatkészlet sok kiugró értékkel, anomáliával vagy zajjal rendelkezik, mivel ez a modell túlillesztését okozhatja.
Kiegyensúlyozatlan adatok esetén, mint a valós idejű kockázatértékelésnél, a gradiensnövelés jól teljesít.

24. Miért van szükség zavarmátrixra? Mi az?

A zavarmátrixként ismert táblázatot, amelyet néha hibamátrixnak is neveznek, széles körben használják annak bemutatására, hogy egy osztályozási modell vagy osztályozó mennyire teljesít olyan tesztadatokon, amelyek valódi értékei ismertek.

Lehetővé teszi számunkra, hogy lássuk, hogyan működik egy modell vagy algoritmus. Ez megkönnyíti számunkra, hogy észrevegyük a félreértéseket a különböző tanfolyamok között.

Ez egy mód annak értékelésére, hogy egy modell vagy algoritmus milyen jól működik.

Az osztályozási modell előrejelzései összetévesztési mátrixba kerülnek. Az egyes osztálycímkék számértékeit használták fel a helyes és helytelen előrejelzések teljes számának lebontására.

Részleteket ad az osztályozó által okozott hibákról, valamint az osztályozók által okozott különféle hibákról.

25. Mi is pontosan az elvi komponens elemzés?

Az egymással korrelált változók számának minimalizálásával a cél az adatgyűjtés dimenziósságának minimalizálása. De fontos, hogy a lehető legnagyobb mértékben megőrizzük a változatosságot.

A változók egy teljesen új változókészletté változnak, amelyeket főkomponenseknek nevezünk.

Ezek a PC-k ortogonálisak, mivel egy kovarianciamátrix sajátvektorai.

26. Miért olyan kulcsfontosságú a komponensek rotációja a PCA (főkomponens-elemzés) szempontjából?

A forgatás kulcsfontosságú a PCA-ban, mert optimalizálja az egyes komponensek által kapott varianciák szétválasztását, egyszerűbbé téve a komponensek értelmezését.

Kibővített komponensekre van szükségünk, hogy kifejezzük az összetevő variációit, ha az összetevők nincsenek elforgatva.

27. Hogyan tér el egymástól a regularizáció és a normalizálás?

Normalizálás:

Az adatok a normalizálás során módosulnak. Normalizálja az adatokat, ha azok skálái drasztikusan eltérőek, különösen az alacsonytól a magasig. Állítsa be az egyes oszlopokat úgy, hogy az alapvető statisztikák kompatibilisek legyenek.

A pontosság elvesztésének elkerülése érdekében ez hasznos lehet. A jel észlelése a zaj figyelmen kívül hagyása mellett a modellképzés egyik célja.

Fennáll a túlillesztés lehetősége, ha a modell teljes irányítást kap a hiba csökkentése érdekében.

Szabályozás:

A regularizálás során a predikciós függvény módosul. Ez némileg szabályozható a szabályozással, ami az egyszerűbb illesztési funkciókat részesíti előnyben a bonyolultabbakkal szemben.

28. Miben különbözik egymástól a normalizálás és a szabványosítás?

A jellemzőskálázás két legszélesebb körben használt technikája a normalizálás és a szabványosítás.

Normalizálás:

Az adatok [0,1] tartományra való átméretezését normalizálásnak nevezzük.
Ha minden paraméternek azonos pozitív skálával kell rendelkeznie, a normalizálás hasznos, de az adatkészlet kiugró értékei elvesznek.

Szabályozás:

A szabványosítási folyamat részeként az adatokat átskálázzuk, hogy az átlaguk 0 legyen, a szórása pedig 1 legyen (Unit variance)

29. Mit jelent pontosan a „variancia inflációs tényező”?

A modell varianciájának és a csak egy független változót tartalmazó modell varianciájának arányát variációs inflációs tényezőnek (VIF) nevezzük.

A VIF megbecsüli a több regressziós változóból álló halmazban jelenlévő multikollinearitás mértékét.

A modell varianciája (VIF) Modell egy független változó varianciával

30. Az edzéskészlet mérete alapján hogyan válassz osztályozót?

A nagy torzítású, alacsony szórású modell jobban teljesít egy rövid edzéssorozatnál, mivel kevésbé valószínű a túlillesztés. A Naive Bayes az egyik példa.

Annak érdekében, hogy bonyolultabb interakciókat ábrázolhassunk egy nagy képzési halmaznál, az alacsony torzítású és nagy varianciájú modellt részesítsük előnyben. Jó példa erre a logisztikai regresszió.

31. A gépi tanulásban melyik algoritmust nevezik „lusta tanulónak” és miért?

A lassú tanuló, a KNN egy gépi tanulási algoritmus. Mivel a K-NN dinamikusan kiszámítja a távolságot minden alkalommal, amikor osztályozni kíván, ahelyett, hogy bármilyen gépileg tanult értéket vagy változót tanulna meg a betanítási adatokból, megjegyzi a betanítási adatkészletet.

Ez teszi a K-NN-t lusta tanulóvá.

32. Mi a ROC görbe és az AUC?

Az osztályozási modell teljesítményét minden küszöbérték mellett grafikusan ábrázolja a ROC görbe. Valódi pozitív arány és hamis pozitív arány kritériumai vannak.

Egyszerűen fogalmazva, a ROC-görbe alatti területet AUC-nak (ROC-görbe alatti terület) nevezik. A ROC görbe kétdimenziós területét (0,0) AUC-ig mérjük (1,1). A bináris osztályozási modellek értékeléséhez teljesítménystatisztikaként használják.

33. Mik azok a hiperparaméterek? Mitől egyediek a modell paraméterei közül?

A modell belső változóját modellparaméternek nevezzük. A betanítási adatok felhasználásával egy paraméter értékét közelítjük.

A modell számára ismeretlen hiperparaméter egy változó. Az érték nem határozható meg adatokból, ezért gyakran használják modellparaméterek kiszámítására.

34. Mit jelent az F1 pontszám, visszahívás és pontosság?

Az összetévesztés mértéke az osztályozási modell hatékonyságának mérésére használt mérőszám. A következő kifejezések használhatók a zavartság mérőszámának jobb magyarázatára:

TP: Valódi pozitívumok – Ezek azok a pozitív értékek, amelyekre megfelelően számítottak. Azt sugallja, hogy a kivetített osztály és a tényleges osztály értéke egyaránt pozitív.

TN: True Negatives – Ezek azok a kedvezőtlen értékek, amelyeket pontosan előre jeleztek. Azt sugallja, hogy mind a tényleges osztály, mind a várt osztály értéke negatív.

Ezek az értékek – hamis pozitív és hamis negatív értékek – akkor jelentkeznek, ha a tényleges osztály eltér a várt osztálytól.

Most,

A valódi pozitív arány (TP) arányát az adott osztályban végzett összes megfigyeléshez visszahívásnak, más néven érzékenységnek nevezik.

A visszahívás TP/(TP+FN).

A precizitás a pozitív prediktív érték mérőszáma, amely összehasonlítja a modell által valóban megjósolt pozitívumok számát a pontosan megjósolt helyes pozitív értékkel.

A pontosság TP/(TP + FP)

A legkönnyebben megérthető teljesítménymutató a pontosság, amely csak a megfelelően előrejelzett megfigyelések aránya az összes megfigyeléshez képest.

A pontosság egyenlő (TP+TN)/(TP+FP+FN+TN).

A pontosságot és a visszahívást súlyozzák és átlagolják, hogy megkapják az F1 pontszámot. Ennek eredményeként ez a pontszám egyaránt figyelembe veszi a hamis pozitívakat és a hamis negatívokat.

Az F1 gyakran értékesebb, mint a pontosság, különösen, ha egyenlőtlen az osztályeloszlás, még akkor is, ha intuitív módon nem is olyan egyszerű megérteni, mint a pontosságot.

A legjobb pontosság akkor érhető el, ha a hamis pozitív és a hamis negatív ára összehasonlítható. Célszerű mind a Precision, mind a Recall szerepeltetni, ha a hamis pozitív és a hamis negatív értékekkel kapcsolatos költségek jelentősen eltérnek.

35. Mi is pontosan a keresztellenőrzés?

A gépi tanulásban a keresztellenőrzésnek nevezett statisztikai újramintavételezési megközelítés több adatkészlet-alkészletet alkalmaz a gépi tanulási algoritmusok több körben történő betanításához és értékeléséhez.

Egy új adatköteget, amelyet nem használtak fel a modell betanításához, keresztellenőrzéssel tesztelik annak megállapítására, hogy a modell mennyire jósolja meg azt. Az adatok túlillesztését a keresztellenőrzés akadályozza meg.

K-Fold A leggyakrabban használt újramintavételezési módszer a teljes adatkészletet K azonos méretű halmazra bontja. Ezt keresztellenőrzésnek hívják.

36. Tegyük fel, hogy felfedezte, hogy a modellje jelentős eltérést mutat. Ön szerint melyik algoritmus a legalkalmasabb ennek a helyzetnek a kezelésére?

A nagy variabilitás kezelése

A nagy eltérések esetén a zsákolási technikát használjuk.

A véletlenszerű adatok ismételt mintavételét használja a zsákoló algoritmus az adatok alcsoportokra való felosztására. Az adatok felosztása után véletlenszerű adatokat és egy speciális képzési eljárást használhatunk a szabályok létrehozásához.

Ezt követően közvélemény-kutatással kombinálható a modell előrejelzése.

37. Mi különbözteti meg a Ridge-regressziót a Lasso-regressziótól?

Két széles körben használt regularizációs módszer a Lasso (más néven L1) és a Ridge (néha L2) regresszió. Az adatok túlillesztésének megakadályozására szolgálnak.

A legjobb megoldás megtalálása és a bonyolultság minimalizálása érdekében ezeket a technikákat alkalmazzák az együtthatók büntetésére. Az együtthatók abszolút értékeinek összegének büntetésével a Lasso-regresszió működik.

A Ridge vagy L2 regresszió büntetési függvénye az együtthatók négyzeteinek összegéből származik.

38. Mi a fontosabb: a modell teljesítménye vagy a modell pontossága? Melyiket és miért részesítené előnyben?

Ez egy megtévesztő kérdés, ezért először meg kell érteni, mi az a Model Performance. Ha a teljesítményt sebességként határozzuk meg, akkor az az alkalmazás típusától függ; minden valós idejű helyzetet magában foglaló alkalmazás nagy sebességet igényel, mint döntő összetevőt.

Például a legjobb keresési eredmények kevésbé lesznek értékesek, ha a lekérdezés eredményei túl sokáig tartanak.

Ha a Teljesítményt használják annak indoklásaként, hogy miért kell a pontosságot és a visszahívást előnyben részesíteni a pontosság felett, akkor az F1 pontszám hasznosabb lesz, mint a pontosság a kiegyensúlyozatlan adatkészlet üzleti helyzetének bemutatására.

39. Hogyan kezelne egy egyenlőtlenségekkel rendelkező adatkészletet?

A kiegyensúlyozatlan adathalmaz számára előnyösek lehetnek a mintavételi technikák. A mintavétel történhet alul- vagy túlmintavételezéssel.

Az Under Sampling lehetővé teszi, hogy a többségi osztály méretét lecsökkentsük a kisebbségi osztályhoz, ami segít a tárolás és a futásidejű végrehajtás sebességének növelésében, de értékes adatok elvesztésével is járhat.

A túlmintavételből eredő információvesztés problémájának orvoslása érdekében a Minority osztályt felmintázzuk; ennek ellenére túlillesztési problémákba ütközünk.

További stratégiák a következők:

Klaszter alapú mintavételezés – Ebben a helyzetben a kisebbségi és többségi osztálypéldányok egyenként vannak alávetve a K-közép klaszterezési technikának. Ez az adatkészlet-fürtök megtalálása érdekében történik. Ezután minden fürt túlmintavételezése megtörténik, így minden osztály azonos méretű, és az osztályon belüli összes fürt azonos számú példányt tartalmaz.
SMOTE: Synthetic Minority Over-sampling Technique – A kisebbségi osztályból származó adatok egy szeletét használjuk példaként, amely után további mesterséges példányok készülnek, amelyek összehasonlíthatók azzal, és hozzáadják az eredeti adatkészlethez. Ez a módszer jól működik numerikus adatpontokkal.

40. Hogyan lehet különbséget tenni a boosting és a bagging között?

Az Ensemble Technique-nek vannak olyan változatai, mint a zsákolás és a fokozás.

Zsákolás-

A nagy szórású algoritmusok esetében a zsákolás a szórás csökkentésére szolgáló technika. Az egyik ilyen torzításra hajlamos osztályozócsalád a döntési facsalád.

A döntési fák által betanított adatok típusa jelentős hatással van a teljesítményükre. Emiatt még nagyon magas finomhangolás mellett is néha sokkal nehezebb bennük elérni az eredmények általánosítását.

Ha a döntési fák képzési adatai megváltoznak, az eredmények jelentősen változnak.

Ennek következtében zsákolást alkalmaznak, amelyben sok döntési fa jön létre, amelyek mindegyikét az eredeti adatok egy mintájával képezik ki, és a végeredmény a különböző modellek átlaga.

Erősítés:

A boosting az a technika, amikor egy n-gyenge osztályozó rendszerrel előrejelzéseket készítünk, amelyben minden gyenge osztályozó pótolja az erősebb osztályozóinak hiányosságait. Az adott adatkészleten rosszul teljesítő osztályozót „gyenge osztályozónak” nevezzük.

A feljavítás nyilvánvalóan inkább folyamat, mint algoritmus. A logisztikai regresszió és a sekély döntési fák gyakori példái a gyenge osztályozóknak.

Az Adaboost, a Gradient Boosting és az XGBoost a két legnépszerűbb boost algoritmus, azonban sok más is létezik.

41. Ismertesse az induktív és a deduktív tanulás közötti különbségeket!

Amikor a megfigyelt példák halmazából példán keresztül tanul, a modell induktív tanulást használ, hogy általános következtetésre jusson. Másrészt a deduktív tanulással a modell az eredményt használja, mielőtt kialakítaná a sajátját.

Az induktív tanulás a megfigyelésekből következtetések levonásának folyamata.

A deduktív tanulás a következtetéseken alapuló megfigyelések létrehozásának folyamata.

Következtetés

Gratula! Ez a gépi tanulással kapcsolatos 40 vagy több interjúkérdés, amelyekre most már tudja a választ. Adattudomány és mesterséges intelligencia a szakmák iránt továbbra is kereslet lesz a technológia fejlődésével.

Azok a pályázók, akik frissítik tudásukat ezekkel az élvonalbeli technológiákkal kapcsolatban, és fejlesztik készségeiket, sokféle foglalkoztatási lehetőséget találhatnak versenyképes fizetés mellett.

Most már folytathatja az interjúk megválaszolását, miután alaposan megértette, hogyan válaszoljon néhány, a gépi tanulással kapcsolatos interjúk széles körben feltett kérdésére.

Céljaitól függően tegye meg a következő lépést. Készüljön fel az interjúkra a Hashdork's meglátogatásával Interjú sorozat.

Több mint 40 gépi tanulással kapcsolatos interjúkérdés