Najdôležitejších 40+ otázok na pohovor v rámci strojového učenia (2024)

Obsah[Skryť][Šou]

1. Vysvetlite rozdiely medzi strojovým učením, umelou inteligenciou a hlbokým učením.
2. Opíšte rôzne typy strojového učenia.
3. Aký je kompromis medzi odchýlkou a rozptylom?
4. Algoritmy strojového učenia sa časom výrazne vyvinuli. Ako si vybrať správny algoritmus na použitie daného súboru údajov?
5. Ako sa líši kovariancia a korelácia?
6. Čo v strojovom učení znamená klastrovanie?
7. Aký je váš preferovaný algoritmus strojového učenia?
8. Lineárna regresia v strojovom učení: čo to je?
9. Popíšte rozdiely medzi zhlukovaním KNN a k-means.
10. Čo pre vás znamená „výberová zaujatosť“?
11. Čo je to vlastne Bayesova veta?
12. Čo sú v modeli strojového učenia „tréningová súprava“ a „skúšobná súprava“?
13. Čo je to hypotéza v strojovom učení?
14. Čo znamená preťaženie strojového učenia a ako tomu možno zabrániť?
15. Čo presne sú klasifikátory Naive Bayes?
16. Čo znamenajú nákladové funkcie a stratové funkcie?
17. Čo odlišuje generatívny model od diskriminačného modelu?
18. Opíšte rozdiely medzi chybami typu I a typu II.
19. Čo je to technika učenia Ensemble v strojovom učení?
20. Čo sú to vlastne parametrické modely? Uveďte príklad.
21. Opíšte kolaboratívne filtrovanie. Rovnako ako filtrovanie na základe obsahu?
22. Čo presne máte na mysli pod pojmom Časový rad?
23. Popíšte variácie medzi algoritmom zosilňovania gradientu a algoritmom Random Forest.
24. Prečo potrebujete maticu zmätku? Čo je to?
25. Čo presne je analýza hlavných komponentov?
26. Prečo je rotácia komponentov taká dôležitá pre PCA (analýzu hlavných komponentov)?
27. Ako sa regularizácia a normalizácia navzájom líšia?
28. Ako sa normalizácia a štandardizácia navzájom líšia?
29. Čo presne znamená „faktor variačnej inflácie“?
30. Ako si vyberiete klasifikátor na základe veľkosti tréningovej zostavy?
31. Ktorý algoritmus v strojovom učení sa označuje ako „lenivý žiak“ a prečo?
32. Čo je to ROC krivka a AUC?
33. Čo sú to hyperparametre? Čím sú jedinečné z parametrov modelu?
34. Čo znamená skóre F1, zapamätanie a presnosť?
35. Čo presne je krížová validácia?
36. Povedzme, že ste zistili, že váš model má významný rozptyl. Aký algoritmus je podľa vás najvhodnejší na zvládnutie tejto situácie?
37. Čo odlišuje Ridgeovu regresiu od Lasso regresie?
38. Čo je dôležitejšie: výkon modelu alebo presnosť modelu? Ktorý a prečo ho uprednostníte?
39. Ako by ste spravovali súbor údajov s nerovnosťami?
40. Ako môžete rozlíšiť medzi posilňovaním a vrecovaním?
41. Vysvetlite rozdiely medzi induktívnym a deduktívnym učením.
záver

Firmy využívajú špičkové technológie, ako je umelá inteligencia (AI) a strojové učenie, na zvýšenie dostupnosti informácií a služieb pre jednotlivcov.

Tieto technológie prijímajú rôzne odvetvia vrátane bankovníctva, financií, maloobchodu, výroby a zdravotníctva.

Jedna z najvyhľadávanejších organizačných úloh využívajúcich AI je pre dátových vedcov, inžinierov umelej inteligencie, inžinierov strojového učenia a dátových analytikov.

Tento príspevok vás prevedie rôznymi strojové učenie otázky na pohovor, od základných až po zložité, ktoré vám pomôžu pripraviť sa na akékoľvek otázky, ktoré by ste mohli dostať pri hľadaní svojej ideálnej práce.

1. Vysvetlite rozdiely medzi strojovým učením, umelou inteligenciou a hlbokým učením.

Umelá inteligencia využíva rôzne prístupy strojového učenia a hlbokého učenia, ktoré umožňujú počítačovým systémom vykonávať úlohy využívajúce ľudskú inteligenciu s logikou a pravidlami.

Strojové učenie využíva rôzne štatistiky a prístupy Deep Learning, ktoré umožňujú strojom učiť sa z ich predchádzajúceho výkonu a stať sa zručnejšími pri vykonávaní určitých úloh samostatne bez ľudského dohľadu.

Hlboké učenie je súbor algoritmov, ktoré umožňujú softvéru učiť sa sám od seba a vykonávať rôzne komerčné funkcie, ako je rozpoznávanie hlasu a obrazu.

Systémy, ktoré odhaľujú ich viacvrstvové neurálne siete k obrovskému množstvu údajov na učenie sú schopní urobiť hlboké učenie.

2. Opíšte rôzne typy strojového učenia.

Strojové učenie existuje vo všeobecnosti v troch rôznych typoch:

Učenie pod dohľadom: Model vytvára predpovede alebo úsudky pomocou označených alebo historických údajov v riadenom strojovom učení. Súbory údajov, ktoré boli označené alebo označené, aby sa zvýšil ich význam, sa označujú ako označené údaje.
Učenie bez dozoru: Nemáme označené údaje pre učenie bez dozoru. V prichádzajúcich údajoch môže model nájsť vzory, zvláštnosti a korelácie.
Posilňovacie učenie: Model môže učiť sa pomocou posilňovania učenie a odmeny, ktoré dostal za predchádzajúce správanie.

3. Aký je kompromis medzi odchýlkou a rozptylom?

Prepracovanie je výsledkom skreslenia, čo je miera, do akej model zodpovedá údajom. Zaujatosť je spôsobená nesprávnymi alebo príliš jednoduchými predpokladmi vo vašom algoritmus strojového učenia.

Odchýlka sa týka chýb spôsobených zložitosťou vo vašom algoritme ML, ktorý vytvára citlivosť na veľké stupne odchýlok v trénovacích údajoch a nadmernej montáži.

Rozptyl vyjadruje, do akej miery sa model líši v závislosti od vstupov.

Inými slovami, základné modely sú extrémne neobjektívne, ale stabilné (nízky rozptyl). Overfitting je problém pri zložitých modeloch, aj keď napriek tomu zachytávajú realitu modelu (nízke skreslenie).

Aby sa predišlo vysokej variácii a vysokej odchýlke, je potrebné zvoliť kompromis medzi odchýlkou a odchýlkou, aby sa čo najlepšie znížila chyba.

4. Algoritmy strojového učenia sa časom výrazne vyvinuli. Ako si vybrať správny algoritmus na použitie daného súboru údajov?

Technika strojového učenia, ktorá by sa mala použiť, závisí iba od druhu údajov v konkrétnom súbore údajov.

Ak sú údaje lineárne, použije sa lineárna regresia. Metóda vrecovania by fungovala lepšie, ak by údaje naznačovali nelinearitu. Môžeme použiť rozhodovacie stromy alebo SVM, ak sa údaje musia vyhodnocovať alebo interpretovať na komerčné účely.

Neurónové siete môžu byť užitočné na získanie presnej odpovede, ak súbor údajov obsahuje fotografie, videá a zvuk.

Voľba algoritmu pre konkrétnu okolnosť alebo zber údajov nemôže byť vykonaná len na jednom opatrení.

Aby sme vyvinuli najvhodnejšiu metódu, musíme najprv preskúmať údaje pomocou prieskumnej analýzy údajov (EDA) a pochopiť cieľ využitia súboru údajov.

5. Ako sa líši kovariancia a korelácia?

Kovariancia hodnotí, ako sú dve premenné navzájom prepojené a ako sa jedna môže zmeniť v reakcii na zmeny druhej.

Ak je výsledok pozitívny, znamená to, že medzi premennými existuje priama súvislosť a že pri raste alebo znižovaní základnej premennej by sa jednalo o rast alebo pokles, za predpokladu, že všetky ostatné podmienky zostanú konštantné.

Korelácia meria spojenie medzi dvoma náhodnými premennými a má iba tri odlišné hodnoty: 1, 0 a -1.

6. Čo v strojovom učení znamená klastrovanie?

Metódy učenia bez dozoru, ktoré zoskupujú dátové body, sa nazývajú zhlukovanie. Pomocou zhromažďovania údajových bodov možno použiť techniku zhlukovania.

Pomocou tejto stratégie môžete zoskupiť všetky údajové body podľa ich funkcií.

Vlastnosti a kvality údajových bodov, ktoré spadajú do rovnakej kategórie, sú podobné, zatiaľ čo vlastnosti a kvality údajových bodov, ktoré spadajú do samostatných skupín, sú odlišné.

Tento prístup možno použiť na analýzu štatistických údajov.

7. Aký je váš preferovaný algoritmus strojového učenia?

V tejto otázke máte možnosť preukázať svoje preferencie a jedinečný talent, ako aj komplexné znalosti mnohých techník strojového učenia.

Tu je niekoľko typických algoritmov strojového učenia, na ktoré treba myslieť:

Lineárna regresia
Logistická regresia
Naivný Bayes
Rozhodovacie stromy
K znamená
Náhodný lesný algoritmus
K-najbližší sused (KNN)

8. Lineárna regresia v strojovom učení: čo to je?

Algoritmus strojového učenia pod dohľadom je lineárna regresia.

Používa sa v prediktívnej analýze na určenie lineárneho spojenia medzi závislými a nezávislými premennými.

Rovnica lineárnej regresie je nasledovná:

Y = A + BX

kde:

Vstupná alebo nezávislá premenná sa nazýva X.
Závislá alebo výstupná premenná je Y.
Koeficient X je b a jeho priesečník je a.

9. Popíšte rozdiely medzi zhlukovaním KNN a k-means.

Primárny rozdiel je v tom, že KNN (klasifikačná metóda, učenie pod dohľadom) potrebuje označené body, zatiaľ čo k-means nie (algoritmus zoskupovania, učenie bez dozoru).

Označené údaje môžete klasifikovať do neoznačeného bodu pomocou K-Nearest Neighbors. Klastrovanie K-means používa priemernú vzdialenosť medzi bodmi, aby sa naučilo, ako zoskupovať neoznačené body.

10. Čo pre vás znamená „výberová zaujatosť“?

Skreslenie vo fáze vzorkovania experimentu je spôsobené štatistickou nepresnosťou.

Jedna skupina vzoriek sa v dôsledku nepresnosti vyberá častejšie ako ostatné skupiny v experimente.

Ak sa výberové skreslenie neuzná, môže to viesť k nesprávnemu záveru.

11. Čo je to vlastne Bayesova veta?

Keď sme si vedomí iných pravdepodobností, môžeme určiť pravdepodobnosť pomocou Bayesovej vety. Inými slovami, ponúka neskoršiu pravdepodobnosť výskytu na základe predchádzajúcich informácií.

Táto veta poskytuje spoľahlivú metódu na odhadovanie podmienených pravdepodobností.

Pri vývoji problémov prediktívneho modelovania klasifikácie a prispôsobenia modelu tréningu súbor údajov v strojovom učení, aplikuje sa Bayesova veta (tj Naive Bayes, Bayes Optimal Classifier).

12. Čo sú v modeli strojového učenia „tréningová súprava“ a „skúšobná súprava“?

Tréningová súprava:

Tréningová sada pozostáva z inštancií, ktoré sa posielajú do modelu na analýzu a učenie.
Toto sú označené údaje, ktoré sa použijú na trénovanie modelu.
Typicky sa 70 % celkových údajov používa ako tréningový súbor údajov.

Testovacia sada:

Testovacia sada sa používa na posúdenie presnosti generovania hypotéz modelu.
Testujeme bez označených údajov a potom používame označenia na potvrdenie výsledkov.
Zvyšných 30 % sa používa ako testovací súbor údajov.

13. Čo je to hypotéza v strojovom učení?

Strojové učenie umožňuje použitie existujúcich súborov údajov na lepšie pochopenie danej funkcie, ktorá spája vstup s výstupom. Toto je známe ako aproximácia funkcie.

V tomto prípade sa musí použiť aproximácia pre funkciu neznámeho cieľa, aby sa čo najlepšie preniesli všetky mysliteľné pozorovania založené na danej situácii.

V strojovom učení je hypotéza model, ktorý pomáha pri odhadovaní cieľovej funkcie a dokončovaní príslušných vstupno-výstupných mapovaní.

Výber a návrh algoritmov umožňuje definovať priestor možných hypotéz, ktoré môže model reprezentovať.

Pre jednu hypotézu sa používa malé písmeno h (h), ale veľké h (H) sa používa pre celý priestor hypotéz, ktorý sa hľadá. Stručne si prejdeme tieto zápisy:

Hypotéza (h) je konkrétny model, ktorý uľahčuje mapovanie vstupu na výstup, ktorý možno následne použiť na vyhodnotenie a predikciu.
Súbor hypotéz (H) je prehľadávateľný priestor hypotéz, ktorý možno použiť na mapovanie vstupov na výstupy. Rámovanie problému, model a konfigurácia modelu sú niekoľkými príkladmi všeobecných obmedzení.

14. Čo znamená preťaženie strojového učenia a ako tomu možno zabrániť?

Keď sa stroj pokúsi naučiť sa z nedostatočného súboru údajov, dôjde k preplneniu.

Výsledkom je, že nadmerné vybavenie nepriamo koreluje s objemom údajov. Prístup krížovej validácie umožňuje vyhnúť sa nadmernému prispôsobeniu pre malé súbory údajov. Pri tejto metóde sa súbor údajov rozdelí na dve časti.

Súbor údajov na testovanie a školenie bude pozostávať z týchto dvoch častí. Tréningová množina údajov sa používa na vytvorenie modelu, zatiaľ čo množina testovacích údajov sa používa na vyhodnotenie modelu pomocou rôznych vstupov.

Takto predídete prílišnej montáži.

15. Čo presne sú klasifikátory Naive Bayes?

Rôzne klasifikačné metódy tvoria klasifikátory Naive Bayes. Súbor algoritmov známych ako tieto klasifikátory pracuje na rovnakej základnej myšlienke.

Predpoklad naivných Bayesových klasifikátorov je, že prítomnosť alebo absencia jedného znaku nemá žiadny vplyv na prítomnosť alebo absenciu iného znaku.

Inými slovami, toto označujeme ako „naivné“, pretože predpokladá, že každý atribút množiny údajov je rovnako významný a nezávislý.

Klasifikácia sa vykonáva pomocou naivných Bayesových klasifikátorov. Ich použitie je jednoduché a prinášajú lepšie výsledky ako zložitejšie prediktory, ak je premisa nezávislosti pravdivá.

Používajú sa v textovej analýze, filtrovaní spamu a systémoch odporúčaní.

16. Čo znamenajú nákladové funkcie a stratové funkcie?

Slovné spojenie „funkcia straty“ sa vzťahuje na proces výpočtovej straty, keď sa berie do úvahy iba jeden údaj.

Naopak, na určenie celkového množstva chýb pre množstvo údajov využívame funkciu nákladov. Neexistuje žiadny významný rozdiel.

Inými slovami, zatiaľ čo nákladové funkcie agregujú rozdiel pre celý tréningový súbor údajov, stratové funkcie sú navrhnuté tak, aby zachytávali rozdiel medzi skutočnými a predpokladanými hodnotami pre jeden záznam.

17. Čo odlišuje generatívny model od diskriminačného modelu?

Diskriminačný model sa učí rozdiely medzi niekoľkými kategóriami údajov. Generatívny model využíva rôzne typy údajov.

Pri problémoch s klasifikáciou diskriminačné modely často prekonávajú iné modely.

18. Opíšte rozdiely medzi chybami typu I a typu II.

Falošne pozitívne výsledky spadajú do kategórie chýb typu I, zatiaľ čo falošne negatívne výsledky patria do kategórie chýb typu II (tvrdenie, že sa nič nestalo, hoci sa to v skutočnosti stalo).

19. Čo je to technika učenia Ensemble v strojovom učení?

Technika nazývaná súborové učenie kombinuje mnoho modelov strojového učenia, aby sa vytvorili účinnejšie modely.

Model sa môže meniť z rôznych dôvodov. Existuje niekoľko príčin:

Rôzne populácie
Rôzne hypotézy
Rôzne metódy modelovania

Pri používaní tréningových a testovacích údajov modelu sa stretneme s problémom. Zaujatosť, rozptyl a neredukovateľná chyba sú možné typy tejto chyby.

Túto rovnováhu medzi odchýlkou a odchýlkou v modeli teraz nazývame kompromis medzi odchýlkou a odchýlkou a mala by vždy existovať. Tento kompromis je dosiahnutý použitím súborového učenia.

Aj keď sú k dispozícii rôzne súborové prístupy, existujú dve bežné stratégie kombinovania mnohých modelov:

Natívny prístup nazývaný vrecovanie využíva tréningovú súpravu na výrobu ďalších tréningových súprav.
Posilňovanie, sofistikovanejšia technika: Podobne ako vrecovanie, aj posilňovanie sa používa na nájdenie ideálneho vzorca na váženie pre tréningovú súpravu.

20. Čo sú to vlastne parametrické modely? Uveďte príklad.

Parametrické modely majú obmedzené množstvo parametrov. Ak chcete predpovedať údaje, všetko, čo potrebujete vedieť, sú parametre modelu.

Nasledujú typické príklady: logistická regresia, lineárna regresia a lineárne SVM. Neparametrické modely sú flexibilné, pretože môžu obsahovať neobmedzený počet parametrov.

Na predikciu údajov sú potrebné parametre modelu a stav pozorovaných údajov. Tu je niekoľko typických príkladov: tematické modely, rozhodovacie stromy a k-najbližší susedia.

21. Opíšte kolaboratívne filtrovanie. Rovnako ako filtrovanie na základe obsahu?

Osvedčenou a overenou metódou na vytváranie prispôsobených návrhov obsahu je spoločné filtrovanie.

Forma systému odporúčaní nazývaná kolaboratívne filtrovanie predpovedá čerstvý materiál vyvážením preferencií používateľov so spoločnými záujmami.

Používateľské preferencie sú jedinou vecou, ktorú systémy odporúčaní založené na obsahu berú do úvahy. Na základe predchádzajúcich výberov používateľa sú zo súvisiaceho materiálu poskytnuté nové odporúčania.

22. Čo presne máte na mysli pod pojmom Časový rad?

Časový rad je zbierka čísel vo vzostupnom poradí. Počas vopred určeného časového obdobia monitoruje pohyb vybraných dátových bodov a pravidelne ich zachytáva.

Pre časové rady neexistuje žiadny minimálny alebo maximálny časový údaj.

Časové rady analytici často používajú na analýzu údajov v súlade s ich jedinečnými požiadavkami.

23. Popíšte variácie medzi algoritmom zosilňovania gradientu a algoritmom Random Forest.

Náhodný les:

Veľký počet rozhodovacích stromov je na konci zlúčený a sú známe ako náhodné lesy.
Zatiaľ čo zosilnenie gradientu vytvára každý strom nezávisle od ostatných, náhodný les vytvára každý strom jeden po druhom.
Viactriedny detekcia objektov dobre funguje s náhodnými lesmi.

Zosilnenie gradientu:

Zatiaľ čo náhodné lesy sa pripájajú k rozhodovacím stromom na konci procesu, Gradient Boosting Machines ich kombinuje od začiatku.
Ak sú parametre vhodne upravené, zosilnenie gradientu prekoná náhodné lesy, pokiaľ ide o výsledky, ale nie je to inteligentná voľba, ak súbor údajov obsahuje veľa odľahlých hodnôt, anomálií alebo šumu, pretože by to mohlo spôsobiť prehnané prispôsobenie modelu.
Ak existujú nevyvážené údaje, ako je to pri hodnotení rizika v reálnom čase, zvýšenie gradientu funguje dobre.

24. Prečo potrebujete maticu zmätku? Čo je to?

Tabuľka známa ako matica zmätku, niekedy známa ako matica chýb, sa široko používa na zobrazenie toho, ako dobre funguje klasifikačný model alebo klasifikátor na súbore testovacích údajov, pre ktoré sú známe skutočné hodnoty.

Umožňuje nám vidieť, ako funguje model alebo algoritmus. Uľahčuje nám to rozpoznať nedorozumenia medzi rôznymi kurzami.

Slúži ako spôsob, ako vyhodnotiť, ako dobre je model alebo algoritmus vykonaný.

Predpovede klasifikačného modelu sú zostavené do matice zmätku. Hodnoty počtu označení každej triedy sa použili na rozdelenie celkového počtu správnych a nesprávnych predpovedí.

Poskytuje podrobnosti o chybách spôsobených klasifikátorom, ako aj o rôznych druhoch chýb spôsobených klasifikátormi.

25. Čo presne je analýza hlavných komponentov?

Minimalizáciou počtu premenných, ktoré sú navzájom korelované, je cieľom minimalizovať rozmernosť zberu údajov. Ale je dôležité zachovať rozmanitosť čo najviac.

Premenné sa zmenia na úplne nový súbor premenných nazývaných hlavné komponenty.

Tieto PC sú ortogonálne, pretože sú to vlastné vektory kovariančnej matice.

26. Prečo je rotácia komponentov taká dôležitá pre PCA (analýzu hlavných komponentov)?

Rotácia je v PCA kľúčová, pretože optimalizuje oddelenie medzi odchýlkami získanými každou zložkou, čím sa zjednodušuje interpretácia komponentov.

Vyžadujeme rozšírené komponenty na vyjadrenie variácií komponentov, ak komponenty nie sú otočené.

27. Ako sa regularizácia a normalizácia navzájom líšia?

Normalizácia:

Údaje sa počas normalizácie menia. Údaje by ste mali normalizovať, ak majú výrazne odlišné stupnice, najmä od nízkych po vysoké. Upravte každý stĺpec tak, aby boli všetky základné štatistiky kompatibilné.

To môže byť užitočné, aby sa zabezpečilo, že nedôjde k strate presnosti. Detekcia signálu pri ignorovaní šumu je jedným z cieľov modelového tréningu.

Existuje možnosť nadmerného vybavenia, ak model dostane úplnú kontrolu, aby sa znížila chyba.

Regularizácia:

Pri regularizácii sa predikčná funkcia modifikuje. Toto podlieha určitej kontrole prostredníctvom regularizácie, ktorá uprednostňuje jednoduchšie funkcie prispôsobenia pred komplikovanými.

28. Ako sa normalizácia a štandardizácia navzájom líšia?

Dve najpoužívanejšie techniky škálovania funkcií sú normalizácia a štandardizácia.

Normalizácia:

Zmena mierky údajov tak, aby vyhovovali rozsahu [0,1], sa nazýva normalizácia.
Keď všetky parametre musia mať rovnakú kladnú škálu, normalizácia je užitočná, ale odľahlé hodnoty súboru údajov sa stratia.

Regularizácia:

Údaje sa v rámci procesu štandardizácie upravia tak, aby mali priemer 0 a štandardnú odchýlku 1 (rozptyl jednotiek)

29. Čo presne znamená „faktor variačnej inflácie“?

Pomer rozptylu modelu k rozptylu modelu iba s jednou nezávislou premennou je známy ako variačný inflačný faktor (VIF).

VIF odhaduje množstvo multikolinearity prítomnej v súbore niekoľkých regresných premenných.

Rozptyl modelu (VIF) Model s jednou nezávislou premennou odchýlkou

30. Ako si vyberiete klasifikátor na základe veľkosti tréningovej zostavy?

Model s vysokou odchýlkou a nízkou odchýlkou funguje lepšie pre krátku tréningovú súpravu, pretože je menej pravdepodobné, že dôjde k preťaženiu. Naivný Bayes je jedným z príkladov.

Aby bolo možné reprezentovať komplikovanejšie interakcie pre veľkú tréningovú množinu, uprednostňuje sa model s nízkou odchýlkou a vysokým rozptylom. Logistická regresia je dobrým príkladom.

31. Ktorý algoritmus v strojovom učení sa označuje ako „lenivý žiak“ a prečo?

KNN, pomalý študent, je algoritmus strojového učenia. Pretože K-NN dynamicky počíta vzdialenosť zakaždým, keď chce klasifikovať, namiesto toho, aby sa učil akékoľvek strojom naučené hodnoty alebo premenné z tréningových údajov, zapamätá si tréningový súbor údajov.

To robí K-NN lenivým študentom.

32. Čo je to ROC krivka a AUC?

Výkonnosť klasifikačného modelu na všetkých prahoch je graficky znázornená ROC krivkou. Má skutočne pozitívne a falošne pozitívne kritériá.

Jednoducho povedané, oblasť pod krivkou ROC je známa ako AUC (Area Under the ROC Curve). Meria sa dvojrozmerná plocha ROC krivky od (0,0) do AUC (1,1). Na hodnotenie binárnych klasifikačných modelov sa používa ako štatistika výkonnosti.

33. Čo sú to hyperparametre? Čím sú jedinečné z parametrov modelu?

Vnútorná premenná modelu je známa ako parameter modelu. Pomocou tréningových údajov sa hodnota parametra aproximuje.

Neznámy model, hyperparameter je premenná. Hodnotu nemožno určiť z údajov, preto sa často používajú na výpočet parametrov modelu.

34. Čo znamená skóre F1, zapamätanie a presnosť?

Miera zmätku je metrika používaná na meranie účinnosti klasifikačného modelu. Na lepšie vysvetlenie metriky zámeny možno použiť nasledujúce frázy:

TP: True Positives – Toto sú pozitívne hodnoty, ktoré boli správne očakávané. To naznačuje, že hodnoty projektovanej triedy a skutočnej triedy sú obe kladné.

TN: True Negatives – Toto sú nepriaznivé hodnoty, ktoré boli presne predpovedané. To naznačuje, že hodnota skutočnej triedy aj predpokladanej triedy sú záporné.

Tieto hodnoty – falošne pozitívne a falošne negatívne – sa vyskytujú, keď sa vaša skutočná trieda líši od predpokladanej triedy.

Teraz,

Pomer skutočnej pozitívnej miery (TP) ku všetkým pozorovaniam uskutočneným v skutočnej triede sa nazýva vybavovanie, známe aj ako citlivosť.

Odvolanie je TP/(TP+FN).

Presnosť je miera pozitívnej prediktívnej hodnoty, ktorá porovnáva počet pozitív, ktoré model skutočne predpovedá, s počtom správnych pozitív, ktoré presne predpovedá.

Presnosť je TP/(TP + FP)

Najjednoduchšie pochopiteľné meradlo výkonu je presnosť, čo je len podiel správne predpovedaných pozorovaní ku všetkým pozorovaniam.

Presnosť sa rovná (TP+TN)/(TP+FP+FN+TN).

Precision a Recall sú vážené a spriemerované, aby poskytli skóre F1. Výsledkom je, že toto skóre považuje za falošne pozitívne aj falošne negatívne.

F1 je často cennejšia ako presnosť, najmä ak máte nerovnomerné rozdelenie tried, aj keď intuitívne to nie je také jednoduché ako presnosť.

Najvyššia presnosť sa dosiahne, keď sú náklady na falošne pozitívne a falošne negatívne výsledky porovnateľné. Ak sa náklady spojené s falošne pozitívnymi a falošne negatívnymi výsledkami výrazne líšia, je lepšie zahrnúť presnosť aj spätné volanie.

35. Čo presne je krížová validácia?

Prístup štatistického prevzorkovania nazývaný krížová validácia v strojovom učení využíva niekoľko podmnožín dátových súborov na trénovanie a vyhodnotenie algoritmu strojového učenia v niekoľkých kolách.

Nová dávka údajov, ktorá sa nepoužila na trénovanie modelu, sa testuje pomocou krížovej validácie, aby sa zistilo, ako dobre to model predpovedá. Krížovým overením sa zabráni preplneniu údajov.

K-Fold Najčastejšie používaná metóda prevzorkovania rozdeľuje celý súbor údajov na K súborov rovnakej veľkosti. Hovorí sa tomu krížová validácia.

36. Povedzme, že ste zistili, že váš model má významný rozptyl. Aký algoritmus je podľa vás najvhodnejší na zvládnutie tejto situácie?

Riadenie vysokej variability

Pri problémoch s veľkými variáciami by sme mali použiť techniku vrecovania.

Opakované vzorkovanie náhodných údajov by použil algoritmus vrecovania na rozdelenie údajov do podskupín. Po rozdelení údajov môžeme na generovanie pravidiel použiť náhodné údaje a špecifický tréningový postup.

Potom by sa prieskum mohol použiť na kombinovanie predpovedí modelu.

37. Čo odlišuje Ridgeovu regresiu od Lasso regresie?

Dve široko používané regularizačné metódy sú Lasso (tiež nazývaná L1) a Ridgeová (niekedy nazývaná L2) regresia. Používajú sa na zabránenie preplneniu údajov.

S cieľom nájsť najlepšie riešenie a minimalizovať zložitosť sa tieto techniky používajú na potrestanie koeficientov. Penalizáciou súčtu absolútnych hodnôt koeficientov funguje laso regresia.

Penalizačná funkcia v Ridge alebo L2 regresii je odvodená zo súčtu druhých mocnín koeficientov.

38. Čo je dôležitejšie: výkon modelu alebo presnosť modelu? Ktorý a prečo ho uprednostníte?

Toto je klamlivá otázka, preto by sme mali najprv pochopiť, čo je výkon modelu. Ak je výkon definovaný ako rýchlosť, potom závisí od typu aplikácie; každá aplikácia zahŕňajúca situáciu v reálnom čase by vyžadovala vysokú rýchlosť ako kľúčový komponent.

Najlepšie výsledky vyhľadávania budú napríklad menej hodnotné, ak bude doručenie výsledkov dopytu trvať príliš dlho.

Ak sa výkonnosť použije ako odôvodnenie, prečo by presnosť a vybavovanie mali byť uprednostňované pred presnosťou, potom bude skóre F1 užitočnejšie ako presnosť pri demonštrovaní obchodného prípadu pre akýkoľvek súbor údajov, ktorý je nevyvážený.

39. Ako by ste spravovali súbor údajov s nerovnosťami?

Nevyvážený súbor údajov môže ťažiť z techník vzorkovania. Odber vzoriek sa môže vykonávať pod alebo nadmerným vzorkovaním.

Under Sampling nám umožňuje zmenšiť veľkosť väčšinovej triedy tak, aby zodpovedala menšinovej triede, čo pomáha pri zvyšovaní rýchlosti s ohľadom na ukladanie a spúšťanie, ale môže tiež viesť k strate cenných údajov.

Aby sme napravili problém straty informácií spôsobenej nadmerným vzorkovaním, prevzorkujeme triedu Minority; to však spôsobuje, že sa stretávame s problémami s nadmernou montážou.

Medzi ďalšie stratégie patria:

Vzorkovanie založené na klastroch - Inštancie menšinovej a väčšinovej triedy sú v tejto situácii individuálne podrobené technike zoskupovania K-means. Toto sa robí s cieľom nájsť klastre množín údajov. Potom sa každý klaster prevzorkuje, takže všetky triedy majú rovnakú veľkosť a všetky klastre v rámci triedy majú rovnaký počet inštancií.
SMOTE: Technika prevzorkovania syntetickej menšiny – ako príklad sa používa časť údajov z triedy menšiny, po ktorej sa vytvoria ďalšie umelé inštancie, ktoré sú s ňou porovnateľné, a pridajú sa k pôvodnému súboru údajov. Táto metóda funguje dobre s numerickými dátovými bodmi.

40. Ako môžete rozlíšiť medzi posilňovaním a vrecovaním?

Ensemble Techniques majú verzie známe ako bagging a boosting.

vrecovanie-

Pre algoritmy s veľkou variáciou je vrecovanie technikou používanou na zníženie rozptylu. Jednou takouto rodinou klasifikátorov, ktorá je náchylná na skreslenie, je rodina rozhodovacích stromov.

Typ údajov, na ktorých sú rozhodovacie stromy trénované, má významný vplyv na ich výkon. Z tohto dôvodu, dokonca aj pri veľmi vysokom doladení, je v nich niekedy oveľa ťažšie dosiahnuť zovšeobecnenie výsledkov.

Ak sa tréningové údaje rozhodovacích stromov zmenia, výsledky sa podstatne líšia.

V dôsledku toho sa používa vrecovanie, v ktorom sa vytvára veľa rozhodovacích stromov, z ktorých každý je trénovaný pomocou vzorky pôvodných údajov a konečným výsledkom je priemer všetkých týchto rôznych modelov.

Posilnenie:

Boosting je technika vytvárania predpovedí pomocou n-slabého klasifikačného systému, v ktorom každý slabý klasifikátor kompenzuje nedostatky svojich silnejších klasifikátorov. Klasifikátor, ktorý má zlú výkonnosť v danej množine údajov, označujeme ako „slabý klasifikátor“.

Zosilnenie je samozrejme skôr proces než algoritmus. Logistická regresia a plytké rozhodovacie stromy sú bežnými príkladmi slabých klasifikátorov.

Adaboost, Gradient Boosting a XGBoost sú dva najpopulárnejšie zosilňovacie algoritmy, existuje však oveľa viac.

41. Vysvetlite rozdiely medzi induktívnym a deduktívnym učením.

Pri učení na príklade zo súboru pozorovaných príkladov model používa induktívne učenie na dosiahnutie zovšeobecneného záveru. Na druhej strane, pri deduktívnom učení model používa výsledok pred vytvorením vlastného.

Induktívne učenie je proces vyvodzovania záverov z pozorovaní.

Deduktívne učenie je proces vytvárania pozorovaní na základe dedukcií.

záver

Gratulujem! Toto je 40 a viac otázok na pohovore pre strojové učenie, na ktoré teraz poznáte odpovede. Veda o údajoch a umelá inteligencia povolania budú aj naďalej žiadané, keďže technológie napredujú.

Kandidáti, ktorí si aktualizujú svoje znalosti o týchto špičkových technológiách a zlepšujú svoje zručnosti, môžu nájsť širokú škálu pracovných príležitostí s konkurenčným platom.

Teraz môžete pokračovať v odpovedaní na pohovory, keď už dobre rozumiete tomu, ako odpovedať na niektoré z často kladených otázok na pohovoroch so strojovým učením.

V závislosti od vašich cieľov urobte nasledujúci krok. Pripravte sa na rozhovory návštevou Hashdorku Séria rozhovorov.

Otázky na pohovor v oblasti strojového učenia

Viac ako 40 najčastejších otázok v rozhovore o strojovom učení