Spis treści[Ukryć][Pokazać]
- 1. Wyjaśnij różnice między uczeniem maszynowym, sztuczną inteligencją i głębokim uczeniem.
- 2. Proszę opisać różne rodzaje uczenia maszynowego.
- 3. Jaki jest kompromis między stronniczością a wariancją?
- 4. Algorytmy uczenia maszynowego znacznie ewoluowały w czasie. Jak wybrać odpowiedni algorytm do wykorzystania danego zestawu danych?
- 5. Czym różnią się kowariancja i korelacja?
- 6. Co oznacza klastrowanie w uczeniu maszynowym?
- 7. Jaki jest twój preferowany algorytm uczenia maszynowego?
- 8. Regresja liniowa w uczeniu maszynowym: co to jest?
- 9. Omów różnice pomiędzy grupowaniem KNN i k-średnich.
- 10. Co oznacza dla Ciebie „sektor selekcji”?
- 11. Czym dokładnie jest twierdzenie Bayesa?
- 12. Czym w modelu uczenia maszynowego są „zestaw szkoleniowy” i „zestaw testowy”?
- 13. Czym jest hipoteza w uczeniu maszynowym?
- 14. Co oznacza overfitting uczenia maszynowego i jak można temu zapobiec?
- 15. Czym dokładnie są klasyfikatory Naive Bayes?
- 16. Co oznaczają funkcje kosztów i funkcje strat?
- 17. Co odróżnia model generatywny od modelu dyskryminacyjnego?
- 18. Opisz różnice między błędami typu I i typu II.
- 19. Czym jest technika uczenia maszynowego w uczeniu maszynowym?
- 20. Czym dokładnie są modele parametryczne? Daj przykład.
- 21. Opisz filtrowanie oparte na współpracy. A także filtrowanie oparte na treści?
- 22. Co dokładnie masz na myśli, mówiąc o szeregach czasowych?
- 23. Opisz różnice pomiędzy algorytmem Gradient Boosting i Random Forest.
- 24. Dlaczego potrzebujesz matrycy pomyłek? Co to jest?
- 25. Czym dokładnie jest analiza głównych składników?
- 26. Dlaczego rotacja komponentów jest tak istotna dla PCA (analiza głównych komponentów)?
- 27. W jaki sposób regularyzacja i normalizacja różnią się od siebie?
- 28. Czym różnią się od siebie normalizacja i standaryzacja?
- 29. Co dokładnie oznacza „czynnik inflacji wariancji”?
- 30. W oparciu o wielkość zestawu treningowego, jak wybrać klasyfikator?
- 31. Jaki algorytm w uczeniu maszynowym określa się mianem „leniwego ucznia” i dlaczego?
- 32. Co to jest krzywa ROC i AUC?
- 33. Czym są hiperparametry? Co wyróżnia je spośród parametrów modelu?
- 34. Co oznaczają punkty F1, przypominanie i precyzja?
- 35. Czym dokładnie jest walidacja krzyżowa?
- 36. Załóżmy, że odkryłeś, że Twój model ma znaczną wariancję. Jaki algorytm, Twoim zdaniem, najlepiej poradzi sobie z tą sytuacją?
- 37. Co odróżnia regresję Ridge od regresji Lasso?
- 38. Co jest ważniejsze: wydajność modelu czy dokładność modelu? Który z nich i dlaczego go preferujesz?
- 39. Jak zarządzałbyś zbiorem danych z nierównościami?
- 40. Jak odróżnić wzmacnianie od workowania?
- 41. Wyjaśnij różnice między uczeniem indukcyjnym a dedukcyjnym.
- Wnioski
Firmy wykorzystują najnowocześniejsze technologie, takie jak sztuczna inteligencja (AI) i uczenie maszynowe, aby zwiększyć dostępność informacji i usług dla osób fizycznych.
Technologie te są stosowane przez różne branże, w tym bankowość, finanse, handel detaliczny, produkcję i opiekę zdrowotną.
Jedną z najbardziej poszukiwanych ról organizacyjnych wykorzystujących sztuczną inteligencję są naukowcy zajmujący się danymi, inżynierowie sztucznej inteligencji, inżynierowie uczenia maszynowego i analitycy danych.
Ten post poprowadzi Cię przez różne uczenie maszynowe pytania do rozmowy kwalifikacyjnej, od podstawowych do złożonych, aby pomóc Ci przygotować się na wszelkie pytania, które możesz zadać, szukając idealnej pracy.
1. Wyjaśnij różnice między uczeniem maszynowym, sztuczną inteligencją i głębokim uczeniem.
Sztuczna inteligencja wykorzystuje różne podejścia do uczenia maszynowego i uczenia głębokiego, które umożliwiają systemom komputerowym wykonywanie zadań z wykorzystaniem inteligencji ludzkiej z logiką i regułami.
Uczenie maszynowe wykorzystuje różne statystyki i podejścia do głębokiego uczenia, aby umożliwić maszynom uczenie się na podstawie ich wcześniejszej wydajności i lepsze wykonywanie pewnych zadań samodzielnie bez nadzoru człowieka.
Deep Learning to zbiór algorytmów, które pozwalają oprogramowaniu uczyć się od siebie i wykonywać różne funkcje komercyjne, takie jak rozpoznawanie głosu i obrazu.
Systemy, które eksponują ich wielowarstwowość sieci neuronowe ogromne ilości danych do nauki są w stanie wykonać głębokie uczenie.
2. Proszę opisać różne rodzaje uczenia maszynowego.
Uczenie maszynowe występuje zasadniczo w trzech różnych typach:
- Nadzorowane uczenie: model tworzy prognozy lub osądy przy użyciu oznaczonych lub historycznych danych w nadzorowanym uczeniu maszynowym. Zbiory danych, które zostały oznakowane lub oznakowane w celu zwiększenia ich znaczenia, są określane jako dane oznakowane.
- Nauka nienadzorowana: nie posiadamy oznaczonych danych do nauki nienadzorowanej. W przychodzących danych model może znaleźć wzorce, osobliwości i korelacje.
- Uczenie się ze wzmocnieniem: Model może uczyć się za pomocą wzmocnienia uczenia się i nagród, jakie otrzymało za swoje wcześniejsze zachowanie.
3. Jaki jest kompromis między stronniczością a wariancją?
Overfitting jest wynikiem błędu systematycznego, czyli stopnia dopasowania modelu do danych. Stronniczość jest spowodowana błędnymi lub zbyt prostymi założeniami w Twoim algorytm uczenia maszynowego.
Wariancja odnosi się do błędów spowodowanych złożonością algorytmu ML, co powoduje wrażliwość na duże stopnie wariancji danych uczących i nadmierne dopasowanie.
Wariancja to stopień zmienności modelu w zależności od danych wejściowych.
Innymi słowy, modele podstawowe są bardzo stronnicze, ale stabilne (niska wariancja). Nadmierne dopasowanie jest problemem w przypadku złożonych modeli, choć mimo to oddają one rzeczywistość modelu (niskie obciążenie).
Aby zapobiec zarówno dużej zmienności, jak i wysokiemu odchyleniu, konieczny jest kompromis między odchyleniem a wariancją, aby uzyskać najlepszą redukcję błędów.
4. Algorytmy uczenia maszynowego znacznie ewoluowały w czasie. Jak wybrać odpowiedni algorytm do wykorzystania danego zestawu danych?
Technika uczenia maszynowego, którą należy zastosować, zależy tylko od rodzaju danych w określonym zbiorze danych.
Gdy dane są liniowe, stosowana jest regresja liniowa. Metoda workowania działałaby lepiej, gdyby dane wskazywały na nieliniowość. Możemy wykorzystać drzewa decyzyjne lub SVM, jeśli dane muszą zostać ocenione lub zinterpretowane w celach komercyjnych.
Sieci neuronowe mogą być przydatne do uzyskania dokładnej odpowiedzi, jeśli zbiór danych zawiera zdjęcia, filmy i dźwięk.
Wyboru algorytmu na konkretną okoliczność lub gromadzenie danych nie można dokonać tylko na podstawie pojedynczego pomiaru.
Aby opracować metodę najlepszego dopasowania, musimy najpierw zbadać dane za pomocą eksploracyjnej analizy danych (EDA) i zrozumieć cel wykorzystania zbioru danych.
5. Czym różnią się kowariancja i korelacja?
Kowariancja ocenia, w jaki sposób dwie zmienne są ze sobą połączone i jak jedna może się zmienić w odpowiedzi na zmiany w drugiej.
Jeśli wynik jest dodatni, oznacza to, że istnieje bezpośredni związek między zmiennymi i że wartość zmiennej bazowej wzrośnie lub spadnie wraz ze wzrostem lub spadkiem, zakładając, że wszystkie inne warunki pozostają stałe.
Korelacja mierzy związek między dwiema zmiennymi losowymi i ma tylko trzy różne wartości: 1, 0 i -1.
6. Co oznacza klastrowanie w uczeniu maszynowym?
Metody uczenia nienadzorowanego, które grupują punkty danych, są nazywane grupowaniem. Dzięki zbiorowi punktów danych można zastosować technikę grupowania.
Za pomocą tej strategii można pogrupować wszystkie punkty danych zgodnie z ich funkcjami.
Cechy i cechy punktów danych należących do tej samej kategorii są podobne, podczas gdy punkty danych, które należą do oddzielnych grup, są różne.
Takie podejście można wykorzystać do analizy danych statystycznych.
7. Jaki jest twój preferowany algorytm uczenia maszynowego?
W tym pytaniu masz szansę zademonstrować swoje preferencje i unikalne talenty, a także wszechstronną wiedzę na temat wielu technik uczenia maszynowego.
Oto kilka typowych algorytmów uczenia maszynowego, o których warto pomyśleć:
- Regresja liniowa
- Regresja logistyczna
- Naiwny Bayes
- Drzewa decyzyjne
- K oznacza
- Algorytm losowego lasu
- K-najbliższy sąsiad (KNN)
8. Regresja liniowa w uczeniu maszynowym: co to jest?
Nadzorowanym algorytmem uczenia maszynowego jest regresja liniowa.
Jest stosowany w analizie predykcyjnej do określenia liniowego związku między zmiennymi zależnymi i niezależnymi.
Równanie regresji liniowej wygląda następująco:
Y = A + BX
gdzie:
- Zmienna wejściowa lub niezależna nazywa się X.
- Zmienna zależna lub wyjściowa to Y.
- Współczynnik X to b, a jego punkt przecięcia to a.
9. Omów różnice pomiędzy grupowaniem KNN i k-średnich.
Podstawowym rozróżnieniem jest to, że KNN (metoda klasyfikacji, uczenie nadzorowane) wymaga oznaczonych punktów, podczas gdy k-średnie nie (algorytm grupowania, uczenie nienadzorowane).
Dane oznaczone etykietą można zaklasyfikować do punktu nieoznaczonego przy użyciu funkcji K-Nearest Neighbors. Grupowanie K-średnich wykorzystuje średnią odległość między punktami, aby nauczyć się grupować punkty nieoznaczone.
10. Co oznacza dla Ciebie „sektor selekcji”?
Błąd systematyczny w fazie próbkowania eksperymentu wynika z niedokładności statystycznej.
Jedna grupa prób jest wybierana częściej niż pozostałe grupy w eksperymencie w wyniku niedokładności.
Jeśli błąd selekcji nie zostanie potwierdzony, może to skutkować nieprawidłowym wnioskiem.
11. Czym dokładnie jest twierdzenie Bayesa?
Kiedy jesteśmy świadomi innych prawdopodobieństw, możemy je określić za pomocą twierdzenia Bayesa. Innymi słowy, oferuje późniejsze prawdopodobieństwo wystąpienia zdarzenia na podstawie wcześniejszych informacji.
Twierdzenie to dostarcza solidnej metody szacowania prawdopodobieństw warunkowych.
Przy opracowywaniu problemów z modelowaniem predykcyjnym klasyfikacji i dopasowywaniem modelu do szkolenia zbiór danych w uczeniu maszynowym, stosowane jest twierdzenie Bayesa (tj. Naive Bayes, Bayes Optimal Classifier).
12. Czym w modelu uczenia maszynowego są „zestaw szkoleniowy” i „zestaw testowy”?
Zestaw treningowy:
- Zestaw szkoleniowy składa się z wystąpień, które są wysyłane do modelu w celu analizy i uczenia się.
- Są to dane oznaczone etykietą, które będą używane do trenowania modelu.
- Zazwyczaj 70% wszystkich danych jest używanych jako zestaw danych uczących.
Zestaw testowy:
- Zbiór testowy służy do oceny dokładności generowania hipotez modelu.
- Testujemy bez oznaczonych danych, a następnie używamy etykiet do potwierdzenia wyników.
- Pozostałe 30% jest wykorzystywane jako zestaw danych testowych.
13. Czym jest hipoteza w uczeniu maszynowym?
Uczenie maszynowe umożliwia korzystanie z istniejących zestawów danych w celu lepszego zrozumienia danej funkcji, która łączy dane wejściowe z danymi wyjściowymi. Jest to znane jako aproksymacja funkcji.
W tym przypadku, aproksymacja musi być zastosowana dla nieznanej funkcji celu, aby przenieść wszystkie możliwe obserwacje oparte na danej sytuacji w najlepszy możliwy sposób.
W uczeniu maszynowym hipoteza jest modelem, który pomaga w oszacowaniu funkcji docelowej i ukończeniu odpowiednich mapowań wejścia-wyjścia.
Dobór i zaprojektowanie algorytmów pozwala na zdefiniowanie przestrzeni możliwych hipotez, które mogą być reprezentowane przez model.
W przypadku pojedynczej hipotezy używana jest mała litera h (h), ale duża litera h (H) jest używana dla całej przeszukiwanej przestrzeni hipotez. Omówimy krótko te notacje:
- Hipoteza (h) to szczególny model, który ułatwia mapowanie danych wejściowych do wyników, które można następnie wykorzystać do oceny i przewidywania.
- Zbiór hipotez (H) to przeszukiwalna przestrzeń hipotez, którą można wykorzystać do mapowania danych wejściowych na wyniki. Ramy problemu, model i konfiguracja modelu to kilka przykładów ogólnych ograniczeń.
14. Co oznacza overfitting uczenia maszynowego i jak można temu zapobiec?
Gdy maszyna próbuje uczyć się na podstawie niewystarczającego zestawu danych, dochodzi do nadmiernego dopasowania.
W rezultacie overfitting jest odwrotnie skorelowany z ilością danych. Podejście oparte na walidacji krzyżowej pozwala uniknąć nadmiernego dopasowania w przypadku małych zestawów danych. W tej metodzie zbiór danych jest podzielony na dwie części.
Zbiór danych do testowania i szkolenia będzie się składał z tych dwóch części. Treningowy zestaw danych służy do tworzenia modelu, podczas gdy testowy zestaw danych służy do oceny modelu przy użyciu różnych danych wejściowych.
W ten sposób można zapobiec nadmiernemu dopasowaniu.
15. Czym dokładnie są klasyfikatory Naive Bayes?
Na klasyfikatory Bayesa naiwnego składają się różne metody klasyfikacji. Zbiór algorytmów znanych jako te klasyfikatory działają na tej samej podstawowej idei.
Założenie przyjęte przez naiwnych klasyfikatorów Bayesa jest takie, że obecność lub brak jednej cechy nie ma wpływu na obecność lub brak innej cechy.
Innymi słowy, określamy to jako „naiwne”, ponieważ zakłada, że każdy atrybut zbioru danych jest równie istotny i niezależny.
Klasyfikacja odbywa się za pomocą naiwnych klasyfikatorów Bayesa. Są proste w użyciu i dają lepsze wyniki niż bardziej złożone predyktory, gdy przesłanka niezależności jest prawdziwa.
W analizie tekstu, filtrowaniu spamu i systemach rekomendacji są wykorzystywane.
16. Co oznaczają funkcje kosztów i funkcje strat?
Sformułowanie „funkcja straty” odnosi się do procesu obliczania straty, gdy bierze się pod uwagę tylko jedną część danych.
Wręcz przeciwnie, wykorzystujemy funkcję kosztu, aby określić całkowitą liczbę błędów dla wielu danych. Nie istnieje żadne znaczące rozróżnienie.
Innymi słowy, podczas gdy funkcje kosztów agregują różnicę dla całego uczącego zestawu danych, funkcje straty są zaprojektowane tak, aby uchwycić różnicę między wartościami rzeczywistymi i przewidywanymi dla pojedynczego rekordu.
17. Co odróżnia model generatywny od modelu dyskryminacyjnego?
Model dyskryminacyjny uczy się różnic między kilkoma kategoriami danych. Model generatywny wykorzystuje różne typy danych.
W kwestii klasyfikacji modele dyskryminacyjne często przewyższają inne modele.
18. Opisz różnice między błędami typu I i typu II.
Fałszywe alarmy należą do kategorii błędów typu I, podczas gdy wyniki fałszywie negatywne należą do kategorii błędów typu II (twierdzenie, że nic się nie stało, kiedy faktycznie się wydarzyło).
19. Czym jest technika uczenia maszynowego w uczeniu maszynowym?
Technika zwana uczeniem zespołowym łączy wiele modeli uczenia maszynowego, aby stworzyć silniejsze modele.
Model może się zmieniać z różnych powodów. Kilka przyczyn to:
- Różne populacje
- Różne hipotezy
- Różne metody modelowania
Podczas korzystania z danych treningowych i testowych modelu napotkamy problem. Bias, wariancja i nieredukowalny błąd to możliwe typy tego błędu.
Teraz nazywamy tę równowagę między odchyleniem a wariancją w modelu kompromisem między odchyleniem a wariancją i powinna ona zawsze istnieć. Kompromis ten osiąga się poprzez wykorzystanie uczenia zespołowego.
Chociaż dostępne są różne podejścia zespołowe, istnieją dwie wspólne strategie łączenia wielu modeli:
- Natywne podejście zwane baggingiem wykorzystuje zestaw szkoleniowy do tworzenia dodatkowych zestawów szkoleniowych.
- Wzmacnianie, bardziej zaawansowana technika: Podobnie jak doładowywanie, wzmacnianie służy do znalezienia idealnej formuły obciążenia dla zestawu treningowego.
20. Czym dokładnie są modele parametryczne? Daj przykład.
W modelach parametrycznych istnieje ograniczona liczba parametrów. Aby prognozować dane, wystarczy znać parametry modelu.
Oto typowe przykłady: regresja logistyczna, regresja liniowa i liniowe SVM. Modele nieparametryczne są elastyczne, ponieważ mogą zawierać nieograniczoną liczbę parametrów.
Do predykcji danych wymagane są parametry modelu i stan obserwowanych danych. Oto kilka typowych przykładów: modele tematyczne, drzewa decyzyjne i najbliżsi sąsiedzi.
21. Opisz filtrowanie oparte na współpracy. A także filtrowanie oparte na treści?
Wypróbowaną i sprawdzoną metodą tworzenia dostosowanych sugestii dotyczących treści jest wspólne filtrowanie.
Forma systemu rekomendacji o nazwie collaborative filtering przepowiada nowy materiał, równoważąc preferencje użytkowników ze wspólnymi zainteresowaniami.
Preferencje użytkownika to jedyna rzecz, którą uwzględniają systemy rekomendacji oparte na treści. W świetle wcześniejszych wyborów użytkownika, nowe zalecenia są dostarczane z powiązanych materiałów.
22. Co dokładnie masz na myśli, mówiąc o szeregach czasowych?
Szeregi czasowe to zbiór liczb w porządku rosnącym. Przez określony czas monitoruje ruch wybranych punktów danych i okresowo przechwytuje punkty danych.
Nie ma minimalnego ani maksymalnego czasu dla szeregów czasowych.
Szeregi czasowe są często wykorzystywane przez analityków do analizy danych zgodnie z ich unikalnymi wymaganiami.
23. Opisz różnice pomiędzy algorytmem Gradient Boosting i Random Forest.
Losowy las:
- Duża liczba drzew decyzyjnych jest na końcu łączona razem i jest znana jako lasy losowe.
- Podczas gdy zwiększanie gradientu wytwarza każde drzewo niezależnie od innych, losowy las buduje każde drzewo pojedynczo.
- Wieloklasowy wykrywanie obiektów dobrze sprawdza się w losowych lasach.
Wzmocnienie gradientowe:
- Podczas gdy losowe lasy dołączają do drzew decyzyjnych pod koniec procesu, Gradientowe maszyny wzmacniające łączą je od samego początku.
- Jeśli parametry są odpowiednio dopasowane, zwiększanie gradientu przewyższa losowe lasy pod względem wyników, ale nie jest to mądry wybór, jeśli zestaw danych zawiera wiele wartości odstających, anomalii lub szumu, ponieważ może to spowodować przeciążenie modelu.
- W przypadku niezrównoważonych danych, jak to ma miejsce w ocenie ryzyka w czasie rzeczywistym, zwiększanie gradientu działa dobrze.
24. Dlaczego potrzebujesz matrycy pomyłek? Co to jest?
Tabela znana jako macierz pomyłek, czasami nazywana macierzą błędów, jest powszechnie używana do pokazania, jak dobrze model klasyfikacji lub klasyfikator radzi sobie z zestawem danych testowych, dla których znane są wartości rzeczywiste.
Pozwala nam zobaczyć, jak działa model lub algorytm. Ułatwia nam to wyłapywanie nieporozumień między różnymi kursami.
Służy jako sposób oceny, jak dobrze wykonany jest model lub algorytm.
Prognozy modelu klasyfikacji są kompilowane w macierz pomyłek. Wartości licznika każdej etykiety klasy zostały użyte do rozbicia całkowitej liczby poprawnych i błędnych prognoz.
Zawiera szczegółowe informacje na temat błędów popełnianych przez klasyfikator, a także różnego rodzaju błędów powodowanych przez klasyfikatory.
25. Czym dokładnie jest analiza głównych składników?
Minimalizując liczbę zmiennych, które są ze sobą skorelowane, celem jest zminimalizowanie wymiarowości zbierania danych. Ale ważne jest, aby zachować jak największą różnorodność.
Zmienne są zamieniane w zupełnie nowy zestaw zmiennych zwanych głównymi składnikami.
Te komputery PC są ortogonalne, ponieważ są wektorami własnymi macierzy kowariancji.
26. Dlaczego rotacja komponentów jest tak istotna dla PCA (analiza głównych komponentów)?
Rotacja ma kluczowe znaczenie w PCA, ponieważ optymalizuje rozdział między wariancjami uzyskanymi przez każdy składnik, ułatwiając interpretację składników.
Wymagamy rozszerzonych komponentów, aby wyrazić zmienność komponentów, jeśli komponenty nie są obrócone.
27. W jaki sposób regularyzacja i normalizacja różnią się od siebie?
Normalizacja:
Dane są zmieniane podczas normalizacji. Powinieneś znormalizować dane, jeśli mają drastycznie różne skale, zwłaszcza od niskiej do wysokiej. Dostosuj każdą kolumnę, aby wszystkie podstawowe statystyki były zgodne.
Może to być przydatne, aby zapewnić brak utraty precyzji. Wykrywanie sygnału przy ignorowaniu szumu jest jednym z celów uczenia modeli.
Istnieje ryzyko nadmiernego dopasowania, jeśli model otrzyma pełną kontrolę w celu zmniejszenia błędu.
Uregulowanie:
W regularyzacji funkcja przewidywania jest modyfikowana. Podlega to pewnej kontroli poprzez regularyzację, która faworyzuje prostsze funkcje dopasowywania nad skomplikowanymi.
28. Czym różnią się od siebie normalizacja i standaryzacja?
Dwie najczęściej używane techniki skalowania cech to normalizacja i standaryzacja.
Normalizacja:
- Przeskalowanie danych w celu dopasowania do zakresu [0,1] jest znane jako normalizacja.
- Gdy wszystkie parametry muszą mieć tę samą dodatnią skalę, normalizacja jest pomocna, ale wartości odstające zestawu danych są tracone.
Uregulowanie:
- Dane są przeskalowywane tak, aby miały średnią równą 0 i odchylenie standardowe 1 w ramach procesu standaryzacji (odchylenie jednostkowe)
29. Co dokładnie oznacza „czynnik inflacji wariancji”?
Stosunek wariancji modelu do wariancji modelu z tylko jedną zmienną niezależną jest znany jako czynnik inflacji zmienności (VIF).
VIF szacuje wielkość współliniowości występującej w zestawie kilku zmiennych regresji.
Wariancja modelu (VIF) Model z jedną wariancją niezależną
30. W oparciu o wielkość zestawu treningowego, jak wybrać klasyfikator?
Model o wysokim odchyleniu i niskiej wariancji działa lepiej w przypadku krótkiego zestawu szkoleniowego, ponieważ nadmierne dopasowanie jest mniej prawdopodobne. Naiwny Bayes to jedna instancja.
W celu przedstawienia bardziej skomplikowanych interakcji dla dużego zbioru uczącego preferowany jest model z małą stronniczością i dużą wariancją. Dobrym przykładem jest regresja logistyczna.
31. Jaki algorytm w uczeniu maszynowym określa się mianem „leniwego ucznia” i dlaczego?
Powolny uczeń, KNN to algorytm uczenia maszynowego. Ponieważ K-NN dynamicznie oblicza odległość za każdym razem, gdy chce dokonać klasyfikacji, zamiast uczyć się wartości lub zmiennych uczących się maszynowo z danych uczących, zapamiętuje zestaw danych uczących.
To sprawia, że K-NN jest leniwym uczniem.
32. Co to jest krzywa ROC i AUC?
Wydajność modelu klasyfikacyjnego na wszystkich progach jest reprezentowana graficznie przez krzywą ROC. Ma prawdziwie pozytywne i fałszywie pozytywne kryteria.
Mówiąc najprościej, obszar pod krzywą ROC jest znany jako AUC (obszar pod krzywą ROC). Mierzony jest dwuwymiarowy obszar krzywej ROC od (0,0) do AUC (1,1). Do oceny modeli klasyfikacji binarnej jest ona wykorzystywana jako statystyka wydajności.
33. Czym są hiperparametry? Co wyróżnia je spośród parametrów modelu?
Zmienna wewnętrzna modelu nazywana jest parametrem modelu. Wykorzystując dane uczące, wartość parametru jest przybliżana.
Nieznany modelowi hiperparametr jest zmienną. Wartości nie można określić na podstawie danych, dlatego są one często wykorzystywane do obliczania parametrów modelu.
34. Co oznaczają punkty F1, przypominanie i precyzja?
Miara zamieszania jest miarą wykorzystywaną do pomiaru skuteczności modelu klasyfikacji. W celu lepszego wyjaśnienia wskaźnika zamieszania można użyć następujących zwrotów:
TP: True Positives – Są to pozytywne wartości, które zostały właściwie przewidziane. Sugeruje to, że zarówno wartości przewidywanej, jak i rzeczywistej klasy są dodatnie.
TN: True Negatives — są to wartości niekorzystne, które zostały dokładnie prognozowane. Sugeruje to, że zarówno wartość aktualnej, jak i oczekiwanej klasy są ujemne.
Te wartości — fałszywie dodatnie i fałszywie ujemne — pojawiają się, gdy rzeczywista klasa różni się od przewidywanej.
Teraz,
Stosunek prawdziwie dodatniego wskaźnika (TP) do wszystkich obserwacji dokonanych w danej klasie nazywa się przypomnieniem, znanym również jako czułość.
Wycofanie to TP/(TP+FN).
Precyzja jest miarą dodatniej wartości predykcyjnej, która porównuje liczbę pozytywów, które model rzeczywiście przewiduje, z liczbą poprawnych pozytywów, które dokładnie przewiduje.
Precyzja to TP/(TP + FP)
Najłatwiejszą do zrozumienia metryką wydajności jest dokładność, która jest po prostu proporcją prawidłowo przewidywanych obserwacji do wszystkich obserwacji.
Dokładność jest równa (TP+TN)/(TP+FP+FN+TN).
Precyzja i Recall są ważone i uśredniane w celu uzyskania wyniku F1. W rezultacie ten wynik uwzględnia zarówno wyniki fałszywie dodatnie, jak i fałszywie ujemne.
F1 jest często bardziej wartościowe niż dokładność, szczególnie jeśli masz nierówny rozkład klas, nawet jeśli intuicyjnie nie jest to tak proste do zrozumienia jak dokładność.
Najlepszą dokładność osiąga się, gdy koszt wyników fałszywie dodatnich i fałszywie ujemnych jest porównywalny. Zaleca się uwzględnienie zarówno precyzji, jak i wycofania, jeśli koszty związane z fałszywie dodatnimi i fałszywie ujemnymi wynikami znacznie się różnią.
35. Czym dokładnie jest walidacja krzyżowa?
Statystyczne podejście do ponownego próbkowania zwane walidacją krzyżową w uczeniu maszynowym wykorzystuje kilka podzbiorów danych do trenowania i oceny algorytmu uczenia maszynowego w kilku rundach.
Nowa partia danych, która nie była używana do trenowania modelu, jest testowana przy użyciu walidacji krzyżowej, aby sprawdzić, jak dobrze model to przewiduje. Nadmiarowi danych zapobiega walidacja krzyżowa.
K-Fold Najczęściej stosowana metoda ponownego próbkowania dzieli cały zestaw danych na K zestawów o równych rozmiarach. Nazywa się to sprawdzaniem krzyżowym.
36. Załóżmy, że odkryłeś, że Twój model ma znaczną wariancję. Jaki algorytm, Twoim zdaniem, najlepiej poradzi sobie z tą sytuacją?
Zarządzanie dużą zmiennością
Powinniśmy stosować technikę workowania w przypadku problemów z dużymi różnicami.
Wielokrotne próbkowanie losowych danych byłoby wykorzystywane przez algorytm workowania do podziału danych na podgrupy. Po podzieleniu danych możemy wykorzystać dane losowe i określoną procedurę treningową do wygenerowania reguł.
Następnie sondowanie może posłużyć do połączenia przewidywań modelu.
37. Co odróżnia regresję Ridge od regresji Lasso?
Dwie szeroko stosowane metody regularyzacji to regresja Lasso (zwana również L1) i Ridge (czasami nazywana L2). Służą do zapobiegania nadmiernemu dopasowaniu danych.
Aby znaleźć najlepsze rozwiązanie i zminimalizować złożoność, stosuje się te techniki, aby ukarać współczynniki. Poprzez karanie sumy bezwzględnych wartości współczynników działa regresja Lasso.
Funkcja kary w regresji Ridge'a lub L2 jest wyprowadzana z sumy kwadratów współczynników.
38. Co jest ważniejsze: wydajność modelu czy dokładność modelu? Który z nich i dlaczego go preferujesz?
To zwodnicze pytanie, dlatego należy najpierw zrozumieć, czym jest Model Performance. Jeśli wydajność definiuje się jako szybkość, to zależy od typu aplikacji; każda aplikacja związana z sytuacją w czasie rzeczywistym wymagałaby dużej szybkości jako kluczowego elementu.
Na przykład najlepsze wyniki wyszukiwania staną się mniej wartościowe, jeśli wyniki zapytania potrwają zbyt długo.
Jeśli wydajność jest wykorzystywana jako uzasadnienie, dlaczego precyzja i przypomnienie powinny być ważniejsze niż dokładność, wówczas wynik F1 będzie bardziej przydatny niż dokładność w wykazaniu uzasadnienia biznesowego dla dowolnego zestawu danych, który jest niezrównoważony.
39. Jak zarządzałbyś zbiorem danych z nierównościami?
Niezrównoważony zestaw danych może skorzystać na technikach próbkowania. Próbkowanie można przeprowadzić w sposób niedostateczny lub nadpróbkowany.
Funkcja Under Sampling pozwala nam zmniejszyć rozmiar klasy większości, aby dopasować ją do klasy mniejszości, co pomaga w zwiększeniu szybkości przechowywania i wykonywania w czasie wykonywania, ale może również spowodować utratę cennych danych.
Aby zaradzić problemowi utraty informacji spowodowanej nadpróbkowaniem, przeprowadzamy upsamplowanie klasy Minority; niemniej jednak powoduje to, że napotykamy na problemy z nadmiernym dopasowaniem.
Dodatkowe strategie obejmują:
- Próbkowanie oparte na klastrach — instancje klas mniejszościowych i większościowych są w tej sytuacji indywidualnie poddawane technice grupowania K-średnich. Odbywa się to w celu znalezienia klastrów zestawu danych. Następnie każdy klaster jest nadpróbkowany, dzięki czemu wszystkie klasy mają ten sam rozmiar, a wszystkie klastry w klasie mają równą liczbę wystąpień.
- SMOTE: Synthetic Minority Oversampling Technique — jako przykład używany jest wycinek danych z klasy mniejszości, po czym tworzone są dodatkowe sztuczne instancje, które są z nim porównywalne, i dodawane do oryginalnego zbioru danych. Ta metoda działa dobrze z liczbowymi punktami danych.
40. Jak odróżnić wzmacnianie od workowania?
Techniki zespołowe mają wersje znane jako bagging i boosting.
Parcianka-
W przypadku algorytmów o dużej zmienności, workowanie jest techniką stosowaną do obniżania wariancji. Jedną z takich podatnych na stronniczość rodzin klasyfikatorów jest rodzina drzew decyzyjnych.
Rodzaj danych, na których trenowane są drzewa decyzyjne, ma istotny wpływ na ich wydajność. Z tego powodu, nawet przy bardzo wysokim dostrojeniu, uogólnienie wyników jest czasem znacznie trudniejsze do uzyskania w nich.
Jeśli dane uczące drzew decyzyjnych ulegną zmianie, wyniki znacznie się różnią.
W konsekwencji stosuje się bagging, w którym tworzonych jest wiele drzew decyzyjnych, z których każde jest szkolone na próbce oryginalnych danych, a końcowym wynikiem jest średnia wszystkich tych różnych modeli.
Wzmocnienie:
Wzmacnianie to technika przewidywania za pomocą n-słabego systemu klasyfikatorów, w której każdy słaby klasyfikator rekompensuje braki silniejszych klasyfikatorów. Klasyfikator, który źle działa na danym zbiorze danych, nazywamy „słabym klasyfikatorem”.
Wzmacnianie jest oczywiście procesem, a nie algorytmem. Regresja logistyczna i płytkie drzewa decyzyjne to typowe przykłady słabych klasyfikatorów.
Adaboost, Gradient Boosting i XGBoost to dwa najpopularniejsze algorytmy wzmacniające, jednak jest ich znacznie więcej.
41. Wyjaśnij różnice między uczeniem indukcyjnym a dedukcyjnym.
Ucząc się na przykładzie z zestawu zaobserwowanych przykładów, model wykorzystuje uczenie indukcyjne, aby dojść do uogólnionego wniosku. Z drugiej strony, przy uczeniu dedukcyjnym, model wykorzystuje wynik przed utworzeniem własnego.
Uczenie indukcyjne to proces wyciągania wniosków z obserwacji.
Uczenie dedukcyjne to proces tworzenia obserwacji na podstawie wnioskowań.
Wnioski
Gratulacje! Oto 40 i więcej najczęstszych pytań podczas rozmowy kwalifikacyjnej na temat uczenia maszynowego, na które znasz już odpowiedzi. Nauka o danych i sztuczna inteligencja Zawody będą nadal poszukiwane wraz z postępem technologicznym.
Kandydaci, którzy zaktualizują swoją wiedzę na temat tych najnowocześniejszych technologii i poprawią swoje umiejętności, mogą znaleźć szeroką gamę możliwości zatrudnienia z konkurencyjnym wynagrodzeniem.
Możesz kontynuować udzielanie odpowiedzi na rozmowy kwalifikacyjne teraz, gdy dobrze rozumiesz, jak odpowiadać na niektóre z często zadawanych pytań do wywiadów dotyczących uczenia maszynowego.
W zależności od swoich celów, wykonaj następujący krok. Przygotuj się do wywiadów, odwiedzając Hashdork Seria wywiadów.
Dodaj komentarz