40+ nejlepších otázek k pohovoru o strojovém učení (2024)

Obsah[Skrýt][Ukázat]

1. Vysvětlete rozdíly mezi strojovým učením, umělou inteligencí a hlubokým učením.
2. Popište prosím různé typy strojového učení.
3. Jaký je kompromis mezi zkreslením a rozptylem?
4. Algoritmy strojového učení se v průběhu času významně vyvíjely. Jak lze vybrat správný algoritmus pro použití daného souboru dat?
5. Jak se liší kovariance a korelace?
6. Co ve strojovém učení znamená shlukování?
7. Jaký je váš preferovaný algoritmus strojového učení?
8. Lineární regrese ve strojovém učení: co to je?
9. Popište rozdíly mezi shlukováním KNN a k-means.
10. Co pro vás znamená „výběrová zaujatost“?
11. Co je to vlastně Bayesova věta?
12. Co jsou v modelu strojového učení „tréninková sada“ a „testovací sada“?
13. Co je to hypotéza ve strojovém učení?
14. Co znamená nadměrné vybavení strojového učení a jak mu lze předejít?
15. Co přesně jsou klasifikátory Naive Bayes?
16. Co znamenají nákladové funkce a ztrátové funkce?
17. Co odlišuje generativní model od modelu diskriminačního?
18. Popište rozdíly mezi chybami typu I a typu II.
19. Co je to technika učení Ensemble ve strojovém učení?
20. Co jsou vlastně parametrické modely? Uveďte příklad.
21. Popište kolaborativní filtrování. Stejně jako filtrování na základě obsahu?
22. Co přesně máte na mysli pod pojmem Časová řada?
23. Popište variace mezi algoritmy Gradient Boosting a Random Forest.
24. Proč potřebujete maturitní matici? Co je to?
25. Co přesně je základní analýza komponent?
26. Proč je rotace komponent tak zásadní pro PCA (analýzu hlavních komponent)?
27. Jak se regularizace a normalizace od sebe liší?
28. Jak se normalizace a standardizace od sebe liší?
29. Co přesně znamená „faktor variační inflace“?
30. Jak vybíráte klasifikátor na základě velikosti tréninkové sady?
31. Který algoritmus ve strojovém učení je označován jako „líný žák“ a proč?
32. Co je to ROC křivka a AUC?
33. Co jsou hyperparametry? Čím jsou jedinečné z parametrů modelu?
34. Co znamená skóre F1, zapamatování a přesnost?
35. Co přesně je křížová validace?
36. Řekněme, že jste zjistili, že váš model má významný rozptyl. Jaký algoritmus je podle vás nejvhodnější pro řešení této situace?
37. Co odlišuje Ridgeovu regresi od Laso regrese?
38. Co je důležitější: výkon modelu nebo přesnost modelu? Kterému a proč ho upřednostníte?
39. Jak byste spravovali soubor dat s nerovnostmi?
40. Jak můžete rozlišit mezi posilováním a pytlováním?
41. Vysvětlete rozdíly mezi induktivním a deduktivním učením.
Proč investovat do čističky vzduchu?

Firmy využívají nejmodernější technologie, jako je umělá inteligence (AI) a strojové učení, ke zvýšení dostupnosti informací a služeb pro jednotlivce.

Tyto technologie jsou přijímány různými průmyslovými odvětvími, včetně bankovnictví, financí, maloobchodu, výroby a zdravotnictví.

Jednou z nejžádanějších organizačních rolí využívajících umělou inteligenci jsou datoví vědci, inženýři umělé inteligence, strojové učení a datoví analytici.

Tento příspěvek vás provede různými strojové učení otázky na pohovor, od základních po složité, které vám pomohou připravit se na jakékoli otázky, které byste mohli dostat při hledání ideální práce.

1. Vysvětlete rozdíly mezi strojovým učením, umělou inteligencí a hlubokým učením.

Umělá inteligence využívá různé přístupy strojového učení a hlubokého učení, které umožňují počítačovým systémům provádět úkoly s využitím lidské inteligence s logikou a pravidly.

Strojové učení využívá různé statistiky a přístupy Deep Learning, které umožňují strojům učit se ze svého předchozího výkonu a být zběhlejší v provádění určitých úkolů samy bez lidského dohledu.

Deep Learning je sbírka algoritmů, která softwaru umožňuje učit se sám od sebe a provádět řadu komerčních funkcí, jako je rozpoznávání hlasu a obrazu.

Systémy, které odhalují svou mnohovrstevnatost neuronové sítě k obrovskému množství dat pro učení jsou schopni provádět hluboké učení.

2. Popište prosím různé typy strojového učení.

Strojové učení obecně existuje ve třech různých typech:

Učení pod dohledem: Model vytváří předpovědi nebo úsudky pomocí označených nebo historických dat v kontrolovaném strojovém učení. Soubory dat, které byly označeny nebo označeny za účelem zvýšení jejich významu, se označují jako označená data.
Učení bez dozoru: Nemáme označená data pro učení bez dozoru. V příchozích datech může model najít vzory, zvláštnosti a korelace.
Posílení učení: Model může učit se pomocí posilování učení a odměny, které získal za své předchozí chování.

3. Jaký je kompromis mezi zkreslením a rozptylem?

Overfitting je výsledkem zkreslení, což je míra, do jaké model odpovídá datům. Zkreslení je způsobeno nesprávnými nebo příliš jednoduchými předpoklady ve vašem algoritmus strojového učení.

Odchylka se týká chyb způsobených složitostí vašeho algoritmu ML, který vytváří citlivost na velké stupně odchylek v trénovacích datech a overfitting.

Rozptyl je, jak moc se model mění v závislosti na vstupech.

Jinými slovy, základní modely jsou extrémně vychýlené a přitom stabilní (nízký rozptyl). Overfitting je problém u složitých modelů, i když přesto zachycují realitu modelu (nízké vychýlení).

Aby se zabránilo jak velkým variacím, tak velkému vychýlení, je pro nejlepší snížení chyb nutný kompromis mezi vychýlením a rozptylem.

4. Algoritmy strojového učení se v průběhu času významně vyvíjely. Jak lze vybrat správný algoritmus pro použití daného souboru dat?

Technika strojového učení, která by měla být použita, závisí pouze na druhu dat v konkrétní datové sadě.

Když jsou data lineární, použije se lineární regrese. Metoda pytlování by fungovala lépe, pokud by údaje ukazovaly na nelinearitu. Můžeme použít rozhodovací stromy nebo SVM, pokud mají být data vyhodnocena nebo interpretována pro komerční účely.

Neuronové sítě mohou být užitečné k získání přesné odpovědi, pokud datová sada obsahuje fotografie, videa a zvuk.

Volba algoritmu pro konkrétní okolnost nebo sběr dat nemůže být provedena pouze na jednom opatření.

Abychom mohli vyvinout nejvhodnější metodu, musíme nejprve prozkoumat data pomocí průzkumné analýzy dat (EDA) a pochopit cíl využití datové sady.

5. Jak se liší kovariance a korelace?

Kovariance vyhodnocuje, jak jsou dvě proměnné vzájemně propojeny a jak se jedna může změnit v reakci na změny druhé.

Je-li výsledek kladný, znamená to, že mezi proměnnými existuje přímá vazba a že by se jedna z nich zvýšila nebo snížila se zvýšením nebo snížením základní proměnné, za předpokladu, že všechny ostatní podmínky zůstanou konstantní.

Korelace měří spojení mezi dvěma náhodnými proměnnými a má pouze tři odlišné hodnoty: 1, 0 a -1.

6. Co ve strojovém učení znamená shlukování?

Metody učení bez dozoru, které seskupují datové body dohromady, se nazývají shlukování. Se sbírkou datových bodů lze použít techniku shlukování.

Pomocí této strategie můžete seskupit všechny datové body podle jejich funkcí.

Vlastnosti a kvality datových bodů, které spadají do stejné kategorie, jsou podobné, zatímco vlastnosti a kvality datových bodů, které spadají do samostatných seskupení, se liší.

Tento přístup lze použít k analýze statistických dat.

7. Jaký je váš preferovaný algoritmus strojového učení?

V této otázce máte šanci prokázat své preference a jedinečný talent a také své komplexní znalosti mnoha technik strojového učení.

Zde je několik typických algoritmů strojového učení, o kterých je třeba přemýšlet:

Lineární regrese
Logistická regrese
Naivní Bayes
Rozhodovací stromy
K znamená
Náhodný lesní algoritmus
K-nejbližší soused (KNN)

8. Lineární regrese ve strojovém učení: co to je?

Algoritmus strojového učení pod dohledem je lineární regrese.

Používá se v prediktivní analýze k určení lineární souvislosti mezi závislými a nezávislými proměnnými.

Rovnice lineární regrese je následující:

Y = A + BX

kde:

Vstupní nebo nezávislá proměnná se nazývá X.
Závislá neboli výstupní proměnná je Y.
Koeficient X je b a jeho průsečík je a.

9. Popište rozdíly mezi shlukováním KNN a k-means.

Primární rozdíl je v tom, že KNN (klasifikační metoda, učení pod dohledem) potřebuje označené body, zatímco k-means ne (algoritmus shlukování, učení bez dozoru).

Označená data můžete klasifikovat do neoznačeného bodu pomocí K-Nearest Neighbors. Shlukování K-means používá průměrnou vzdálenost mezi body, aby se naučilo, jak seskupit neoznačené body.

10. Co pro vás znamená „výběrová zaujatost“?

Zkreslení ve fázi vzorkování experimentu je způsobeno statistickou nepřesností.

Jedna skupina vzorků je v experimentu vybrána častěji než ostatní skupiny v důsledku nepřesnosti.

Pokud není výběrové zkreslení uznáno, mohlo by to vést k nesprávnému závěru.

11. Co je to vlastně Bayesova věta?

Když jsme si vědomi jiných pravděpodobností, můžeme určit pravděpodobnost pomocí Bayesovy věty. Jinými slovy nabízí pozdější pravděpodobnost výskytu na základě předchozích informací.

Tato věta poskytuje dobrou metodu pro odhad podmíněných pravděpodobností.

Při vývoji klasifikačních problémů prediktivního modelování a přizpůsobení modelu tréninku datová sada ve strojovém učení, je aplikován Bayesův teorém (tj. Naive Bayes, Bayes Optimal Classifier).

12. Co jsou v modelu strojového učení „tréninková sada“ a „testovací sada“?

Tréninkový set:

Tréninková sada se skládá z instancí, které jsou odesílány do modelu pro analýzu a učení.
Toto jsou označená data, která budou použita k trénování modelu.
Obvykle se 70 % celkových dat používá jako trénovací datová sada.

Testovací sada:

Testovací sada se používá k posouzení přesnosti generování hypotéz modelu.
Testujeme bez označených údajů a poté používáme štítky k potvrzení výsledků.
Zbývajících 30 % se používá jako testovací datový soubor.

13. Co je to hypotéza ve strojovém učení?

Strojové učení umožňuje použití existujících datových sad k lepšímu pochopení dané funkce, která spojuje vstup s výstupem. Toto je známé jako aproximace funkce.

V tomto případě musí být použita aproximace pro neznámou cílovou funkci, aby se co nejlépe přenesla všechna myslitelná pozorování založená na dané situaci.

Ve strojovém učení je hypotéza model, který pomáhá při odhadu cílové funkce a dokončení příslušných mapování vstupů a výstupů.

Výběr a návrh algoritmů umožňuje definovat prostor možných hypotéz, které mohou být reprezentovány modelem.

Pro jednu hypotézu se používá malé h (h), ale velké h (H) se používá pro celý prostor hypotéz, který se hledá. Stručně si zopakujeme tyto zápisy:

Hypotéza (h) je konkrétní model, který usnadňuje mapování vstupu na výstup, který lze následně použít pro hodnocení a predikci.
Sada hypotéz (H) je prohledávatelný prostor hypotéz, který lze použít k mapování vstupů na výstupy. Rámování problému, model a konfigurace modelu je několik příkladů obecných omezení.

14. Co znamená nadměrné vybavení strojového učení a jak mu lze předejít?

Když se stroj pokusí naučit se z nedostatečné datové sady, dojde k přeplnění.

Výsledkem je, že přesazení nepřímo koreluje s objemem dat. Přístup křížové validace umožňuje vyhnout se nadměrnému přizpůsobení u malých souborů dat. V této metodě je datová sada rozdělena na dvě části.

Dataset pro testování a školení se bude skládat z těchto dvou částí. Tréninková datová sada se používá k vytvoření modelu, zatímco testovací datová sada se používá k vyhodnocení modelu pomocí různých vstupů.

Je to způsob, jak zabránit nadměrnému vybavení.

15. Co přesně jsou klasifikátory Naive Bayes?

Různé klasifikační metody tvoří klasifikátory Naive Bayes. Sada algoritmů známých jako tyto klasifikátory pracuje na stejné základní myšlence.

Předpoklad naivních Bayesových klasifikátorů je, že přítomnost nebo nepřítomnost jednoho prvku nemá žádný vliv na přítomnost nebo nepřítomnost jiného prvku.

Jinými slovy, to je to, co nazýváme „naivní“, protože to předpokládá, že každý atribut datové sady je stejně významný a nezávislý.

Klasifikace se provádí pomocí naivních Bayesových klasifikátorů. Jsou jednoduché na použití a poskytují lepší výsledky než složitější prediktory, pokud platí předpoklad nezávislosti.

Používají se v textové analýze, filtrování spamu a doporučovacích systémech.

16. Co znamenají nákladové funkce a ztrátové funkce?

Fráze „ztrátová funkce“ odkazuje na proces výpočtu ztráty, kdy se bere v úvahu pouze jeden kus dat.

Naproti tomu využíváme nákladovou funkci k určení celkového množství chyb u mnoha dat. Neexistuje žádný významný rozdíl.

Jinými slovy, zatímco nákladové funkce agregují rozdíl pro celý tréninkový soubor dat, ztrátové funkce jsou navrženy tak, aby zachytily rozdíl mezi skutečnými a předpokládanými hodnotami pro jeden záznam.

17. Co odlišuje generativní model od modelu diskriminačního?

Diskriminační model se učí rozdíly mezi několika kategoriemi dat. Generativní model využívá různé typy dat.

Pokud jde o klasifikační problémy, diskriminační modely často překonávají ostatní modely.

18. Popište rozdíly mezi chybami typu I a typu II.

Falešně pozitivní spadají do kategorie chyb typu I, zatímco falešně negativní spadají do chyb typu II (tvrdit, že se nic nestalo, i když se to skutečně stalo).

19. Co je to technika učení Ensemble ve strojovém učení?

Technika zvaná souborové učení kombinuje mnoho modelů strojového učení a vytváří tak výkonnější modely.

Model se může měnit z různých důvodů. Příčin je několik:

Různé populace
Různé hypotézy
Různé metody modelování

Při používání trénovacích a testovacích dat modelu narazíme na problém. Předpojatost, rozptyl a neredukovatelná chyba jsou možné typy této chyby.

Tuto rovnováhu mezi vychýlením a rozptylem v modelu nyní nazýváme kompromisem mezi odchylkou a odchylkou a měla by vždy existovat. Tohoto kompromisu je dosaženo pomocí souborového učení.

Ačkoli jsou k dispozici různé přístupy k souboru, existují dvě běžné strategie pro kombinování mnoha modelů:

Nativní přístup zvaný pytlování využívá tréninkovou sadu k výrobě dalších tréninkových sad.
Posilování, sofistikovanější technika: Podobně jako pytlování se posilování používá k nalezení ideálního vzorce pro zatěžování tréninkové sady.

20. Co jsou vlastně parametrické modely? Uveďte příklad.

Parametrické modely mají omezené množství parametrů. K předpovědi dat potřebujete znát pouze parametry modelu.

Následují typické příklady: logistická regrese, lineární regrese a lineární SVM. Neparametrické modely jsou flexibilní, protože mohou obsahovat neomezený počet parametrů.

Pro predikci dat jsou vyžadovány parametry modelu a stav pozorovaných dat. Zde je několik typických příkladů: tématické modely, rozhodovací stromy a k-nejbližší sousedé.

21. Popište kolaborativní filtrování. Stejně jako filtrování na základě obsahu?

Osvědčenou metodou pro vytváření přizpůsobených návrhů obsahu je kolaborativní filtrování.

Forma systému doporučení zvaná kolaborativní filtrování předpovídá čerstvý materiál tím, že vyvažuje preference uživatelů se společnými zájmy.

Uživatelské předvolby jsou jedinou věcí, kterou systémy doporučujících na základě obsahu berou v úvahu. Na základě předchozího výběru uživatele jsou poskytnuta nová doporučení ze souvisejících materiálů.

22. Co přesně máte na mysli pod pojmem Časová řada?

Časová řada je sbírka čísel ve vzestupném pořadí. Během předem stanoveného časového období monitoruje pohyb vybraných datových bodů a periodicky je zachycuje.

Pro časové řady neexistuje žádný minimální nebo maximální časový údaj.

Časové řady jsou často používány analytiky k analýze dat v souladu s jejich jedinečnými požadavky.

23. Popište variace mezi algoritmy Gradient Boosting a Random Forest.

Náhodný les:

Na konci je sloučeno velké množství rozhodovacích stromů a jsou známé jako náhodné lesy.
Zatímco zesílení gradientu vytváří každý strom nezávisle na ostatních, náhodný les staví každý strom jeden po druhém.
Vícetřídní detekce objektu funguje dobře s náhodnými lesy.

Zesílení přechodu:

Zatímco náhodné lesy se na konci procesu spojují s rozhodovacími stromy, stroje pro zesílení přechodu je kombinují od začátku.
Pokud jsou parametry vhodně upraveny, zesílení gradientu překonává náhodné lesy, pokud jde o výsledky, ale není to chytrá volba, pokud soubor dat obsahuje mnoho odlehlých hodnot, anomálií nebo šumu, protože by to mohlo způsobit, že se model přežene.
Pokud existují nevyvážená data, jako je tomu při hodnocení rizik v reálném čase, zesílení gradientu funguje dobře.

24. Proč potřebujete maturitní matici? Co je to?

Tabulka známá jako matoucí matice, někdy známá jako chybová matice, se široce používá k tomu, aby ukázala, jak dobře si klasifikační model nebo klasifikátor vede na sadě testovacích dat, u kterých jsou známé skutečné hodnoty.

Umožňuje nám vidět, jak model nebo algoritmus funguje. Usnadňuje nám to odhalit nedorozumění mezi různými kurzy.

Slouží jako způsob, jak vyhodnotit, jak dobře je model nebo algoritmus proveden.

Předpovědi klasifikačního modelu jsou sestaveny do matoucí matice. Hodnoty počtu každého štítku třídy byly použity k rozdělení celkového počtu správných a nesprávných předpovědí.

Poskytuje podrobnosti o chybách způsobených klasifikátorem a také o různých druzích chyb způsobených klasifikátory.

25. Co přesně je základní analýza komponent?

Minimalizací počtu proměnných, které spolu korelují, je cílem minimalizovat rozměrnost sběru dat. Je ale důležité co nejvíce zachovat rozmanitost.

Proměnné se změní na zcela novou sadu proměnných nazývanou hlavní komponenty.

Tyto PC jsou ortogonální, protože jsou vlastními vektory kovarianční matice.

26. Proč je rotace komponent tak zásadní pro PCA (analýzu hlavních komponent)?

Rotace je v PCA klíčová, protože optimalizuje oddělení mezi odchylkami získanými každou komponentou, což usnadňuje interpretaci komponent.

Požadujeme rozšířené komponenty pro vyjádření variace komponent, pokud komponenty nejsou otočeny.

27. Jak se regularizace a normalizace od sebe liší?

Normalizace:

Data se během normalizace mění. Měli byste normalizovat data, pokud mají měřítka, která se drasticky liší, zejména od nízké po vysokou. Upravte každý sloupec tak, aby byly všechny základní statistiky kompatibilní.

To může být užitečné, abyste zajistili, že nedojde ke ztrátě přesnosti. Detekce signálu a ignorování šumu je jedním z cílů modelového tréninku.

Pokud je modelu poskytnuta úplná kontrola, aby se snížila chyba, existuje možnost přemontování.

Regulace:

Při regularizaci je predikční funkce modifikována. To podléhá určité kontrole prostřednictvím regularizace, která upřednostňuje jednodušší funkce přizpůsobení před komplikovanými.

28. Jak se normalizace a standardizace od sebe liší?

Dvě nejpoužívanější techniky pro škálování prvků jsou normalizace a standardizace.

Normalizace:

Změna měřítka dat tak, aby vyhovovala rozsahu [0,1], se nazývá normalizace.
Když všechny parametry musí mít stejnou kladnou stupnici, normalizace je užitečná, ale odlehlé hodnoty souboru dat jsou ztraceny.

Regulace:

Data jsou v rámci procesu standardizace změněna tak, aby měla průměr 0 a směrodatnou odchylku 1 (rozptyl jednotek)

29. Co přesně znamená „faktor variační inflace“?

Poměr rozptylu modelu k rozptylu modelu pouze s jednou nezávislou proměnnou se nazývá variační inflační faktor (VIF).

VIF odhaduje množství multikolinearity přítomné v sadě několika regresních proměnných.

Variance modelu (VIF) Model s jednou nezávislou proměnnou variance

30. Jak vybíráte klasifikátor na základě velikosti tréninkové sady?

Model s vysokým vychýlením a nízkým rozptylem funguje lépe pro krátkou tréninkovou sadu, protože přetažení je méně pravděpodobné. Naivní Bayes je jedním příkladem.

Pro reprezentaci komplikovanějších interakcí pro velký tréninkový soubor je výhodnější model s nízkým zkreslením a vysokým rozptylem. Logistická regrese je dobrým příkladem.

31. Který algoritmus ve strojovém učení je označován jako „líný žák“ a proč?

KNN, pomalý student, je algoritmus strojového učení. Protože K-NN dynamicky vypočítává vzdálenost pokaždé, když chce klasifikovat, místo aby se učil jakékoli strojově naučené hodnoty nebo proměnné z tréninkových dat, zapamatuje si tréninkovou datovou sadu.

To dělá z K-NN líného studenta.

32. Co je to ROC křivka a AUC?

Výkonnost klasifikačního modelu na všech prahových hodnotách je graficky znázorněna křivkou ROC. Má kritéria skutečně pozitivní a falešně pozitivní.

Jednoduše řečeno, oblast pod křivkou ROC je známá jako AUC (Area Under the ROC Curve). Měří se dvourozměrná plocha ROC křivky od (0,0) do AUC (1,1). Pro hodnocení binárních klasifikačních modelů se používá jako výkonnostní statistika.

33. Co jsou hyperparametry? Čím jsou jedinečné z parametrů modelu?

Vnitřní proměnná modelu je známá jako parametr modelu. Pomocí trénovacích dat je hodnota parametru aproximována.

Neznámý model, hyperparametr je proměnná. Hodnotu nelze určit z dat, proto se často používají k výpočtu parametrů modelu.

34. Co znamená skóre F1, zapamatování a přesnost?

Metrika zmatku je metrika používaná k měření účinnosti klasifikačního modelu. K lepšímu vysvětlení metriky záměny lze použít následující fráze:

TP: True Positives – Toto jsou kladné hodnoty, které byly správně očekávány. To naznačuje, že hodnoty projektované třídy a skutečné třídy jsou obě kladné.

TN: True Negatives – Toto jsou nepříznivé hodnoty, které byly přesně předpovězeny. To naznačuje, že jak hodnota skutečné třídy, tak očekávané třídy jsou záporné.

Tyto hodnoty – falešně pozitivní a falešně negativní – nastanou, když se vaše skutečná třída liší od předpokládané třídy.

Teď,

Poměr skutečné pozitivní míry (TP) ke všem pozorováním provedeným ve skutečné třídě se nazývá vyvolání, také známé jako citlivost.

Vyvolání je TP/(TP+FN).

Přesnost je míra pozitivní prediktivní hodnoty, která porovnává počet pozitivních výsledků, které model skutečně předpovídá, s počtem správných pozitivních výsledků, které přesně předpovídá.

Přesnost je TP/(TP + FP)

Nejjednodušší metrikou výkonu, kterou lze pochopit, je přesnost, což je pouze poměr správně předpovězených pozorování ke všem pozorováním.

Přesnost je rovna (TP+TN)/(TP+FP+FN+TN).

Precision a Recall jsou váženy a zprůměrovány, aby poskytly skóre F1. Výsledkem je, že toto skóre považuje za falešně pozitivní i falešně negativní.

F1 je často cennější než přesnost, zvláště pokud máte nerovnoměrné rozdělení tříd, i když intuitivně to není tak jednoduché jako přesnost.

Nejlepší přesnosti je dosaženo, když jsou náklady na falešně pozitivní a falešně negativní výsledky srovnatelné. Pokud se náklady spojené s falešně pozitivními a falešně negativními výsledky výrazně liší, je vhodnější zahrnout obě funkce Precision a Recall.

35. Co přesně je křížová validace?

Přístup statistického převzorkování nazývaný křížová validace ve strojovém učení využívá několik podmnožin datových sad k trénování a vyhodnocování algoritmu strojového učení v řadě kol.

Nová dávka dat, která nebyla použita k trénování modelu, se testuje pomocí křížové validace, aby se zjistilo, jak dobře to model předpovídá. Křížovým ověřením se zabrání překrytí dat.

K-Fold Nejčastěji používaná metoda převzorkování rozděluje celý datový soubor do K sad o stejné velikosti. Říká se tomu křížová validace.

36. Řekněme, že jste zjistili, že váš model má významný rozptyl. Jaký algoritmus je podle vás nejvhodnější pro řešení této situace?

Řízení vysoké variability

Techniku pytlování bychom měli používat u problémů s velkými variacemi.

Opakované vzorkování náhodných dat by použil algoritmus pytlování k rozdělení dat do podskupin. Jakmile jsou data rozdělena, můžeme použít náhodná data a specifický tréninkový postup pro generování pravidel.

Poté by bylo možné použít dotazování ke kombinaci předpovědí modelu.

37. Co odlišuje Ridgeovu regresi od Laso regrese?

Dvě široce používané regularizační metody jsou Lasso (také nazývané L1) a Ridge (někdy nazývané L2) regrese. Používají se k zabránění přeplnění dat.

Za účelem nalezení nejlepšího řešení a minimalizace složitosti se tyto techniky používají k potrestání koeficientů. Penalizací součtu absolutních hodnot koeficientů funguje laso regrese.

Penalizační funkce v Ridge nebo L2 regresi je odvozena ze součtu čtverců koeficientů.

38. Co je důležitější: výkon modelu nebo přesnost modelu? Kterému a proč ho upřednostníte?

Toto je zavádějící otázka, proto by člověk měl nejprve pochopit, co je výkon modelu. Pokud je výkon definován jako rychlost, pak závisí na typu aplikace; jakákoli aplikace zahrnující situaci v reálném čase by jako klíčovou součást vyžadovala vysokou rychlost.

Nejlepší výsledky vyhledávání se například stanou méně hodnotnými, pokud jejich doručení trvá příliš dlouho.

Pokud je výkon použit jako zdůvodnění, proč by přesnost a vyvolání měly být upřednostňovány před přesností, pak bude skóre F1 užitečnější než přesnost při demonstraci obchodního případu pro jakýkoli soubor dat, který je nevyvážený.

39. Jak byste spravovali soubor dat s nerovnostmi?

Nevyvážený soubor dat může těžit z technik vzorkování. Vzorkování může být provedeno způsobem podvzorkování nebo převzorkování.

Under Sampling nám umožňuje zmenšit velikost většinové třídy tak, aby odpovídala menšinové třídě, což pomáhá zvýšit rychlost s ohledem na úložiště a běh za běhu, ale může také vést ke ztrátě cenných dat.

Abychom napravili problém ztráty informací způsobené převzorkováním, převzorkujeme třídu Minority; nicméně to způsobuje, že se dostáváme do problémů s nadměrnou montáží.

Mezi další strategie patří:

Cluster-Based Over Sampling – instance menšinové a většinové třídy jsou v této situaci individuálně podrobeny technice shlukování K-means. To se provádí za účelem nalezení shluků datových sad. Poté je každý cluster převzorkován tak, aby všechny třídy měly stejnou velikost a všechny clustery v rámci třídy měly stejný počet instancí.
SMOTE: Synthetic Minority Over-sampling Technique - Jako příklad je použit výsek dat z menšinové třídy, po kterém jsou vytvořeny další umělé instance, které jsou s ní srovnatelné, a přidány do původní datové sady. Tato metoda funguje dobře s numerickými datovými body.

40. Jak můžete rozlišit mezi posilováním a pytlováním?

Ensemble Techniques mají verze známé jako pytlování a posilování.

Pytlování-

U algoritmů s velkou variací je pytlování technika používaná ke snížení rozptylu. Jednou z takových rodin klasifikátorů, které jsou náchylné ke zkreslení, je rodina rozhodovacího stromu.

Typ dat, na kterých jsou rozhodovací stromy trénovány, má významný dopad na jejich výkon. Z tohoto důvodu, dokonce i při velmi vysokém doladění, je v nich někdy mnohem obtížnější získat zobecnění výsledků.

Pokud se trénovací data rozhodovacích stromů změní, výsledky se podstatně liší.

V důsledku toho se používá pytlování, ve kterém je vytvořeno mnoho rozhodovacích stromů, z nichž každý je trénován pomocí vzorku původních dat a konečným výsledkem je průměr všech těchto různých modelů.

Posílení:

Boostování je technika předpovědí pomocí systému n-slabých klasifikátorů, ve kterém každý slabý klasifikátor vyrovnává nedostatky svých silnějších klasifikátorů. Klasifikátor, který má na dané sadě dat špatný výkon, označujeme jako „slabý klasifikátor“.

Posilování je samozřejmě spíše proces než algoritmus. Logistická regrese a mělké rozhodovací stromy jsou běžné příklady slabých klasifikátorů.

Adaboost, Gradient Boosting a XGBoost jsou dva nejoblíbenější posilovací algoritmy, ale existuje mnoho dalších.

41. Vysvětlete rozdíly mezi induktivním a deduktivním učením.

Při učení příkladem ze souboru pozorovaných příkladů model používá induktivní učení k dosažení zobecněného závěru. Na druhou stranu u deduktivního učení model používá výsledek před vytvořením vlastního.

Induktivní učení je proces vyvozování závěrů z pozorování.

Deduktivní učení je proces vytváření pozorování na základě dedukcí.

Proč investovat do čističky vzduchu?

Gratuluji! Toto je 40 a více otázek pohovoru pro strojové učení, na které nyní znáte odpovědi. Data věda a umělá inteligence povolání bude i nadále poptávka s technologickým pokrokem.

Kandidáti, kteří aktualizují své znalosti o těchto špičkových technologiích a zdokonalují své dovednosti, mohou najít širokou škálu pracovních příležitostí s konkurenceschopným platem.

Nyní můžete pokračovat v odpovídání na pohovory, když dobře rozumíte tomu, jak odpovědět na některé z často kladených otázek pohovoru o strojovém učení.

V závislosti na vašich cílech proveďte následující krok. Připravte se na rozhovory návštěvou Hashdork's Série rozhovorů.

40+ nejčastějších otázek k pohovoru o strojovém učení