Turinys[Slėpti][Rodyti]
- 1. Paaiškinkite mašininio mokymosi, dirbtinio intelekto ir giluminio mokymosi skirtumus.
- 2. Aprašykite skirtingus mašininio mokymosi tipus.
- 3. Koks yra šališkumo ir dispersijos kompromisas?
- 4. Mašininio mokymosi algoritmai laikui bėgant labai išsivystė. Kaip pasirinkti tinkamą algoritmą naudoti tam tikruose duomenų rinkiniuose?
- 5. Kuo skiriasi kovariacija ir koreliacija?
- 6. Ką reiškia grupavimas mašininiame mokyme?
- 7. Koks yra jūsų pageidaujamas mašininio mokymosi algoritmas?
- 8. Tiesinė regresija mašininiame mokyme: kas tai?
- 9. Apibūdinkite KNN ir k-means klasterizacijos skirtumus.
- 10. Ką jums reiškia „atrankos šališkumas“?
- 11. Kas tiksliai yra Bayes'o teorema?
- 12. Kas yra „mokymo rinkinys“ ir „testų rinkinys“ mašininio mokymosi modelyje?
- 13. Kas yra mašininio mokymosi hipotezė?
- 14. Ką reiškia mašininio mokymosi perteklius ir kaip to išvengti?
- 15. Kas tiksliai yra Naive Bayes klasifikatoriai?
- 16. Ką reiškia sąnaudų ir nuostolių funkcijos?
- 17. Kuo generatyvinis modelis skiriasi nuo diskriminacinio?
- 18. Apibūdinkite I ir II tipo klaidų skirtumus.
- 19. Kas yra mokymosi mašininiu būdu technika?
- 20. Kas tiksliai yra parametriniai modeliai? Pateikite pavyzdį.
- 21. Apibūdinkite bendradarbiavimo filtravimą. Taip pat turiniu pagrįstas filtravimas?
- 22. Ką tiksliai reiškia laiko eilutė?
- 23. Apibūdinkite gradiento didinimo ir atsitiktinio miško algoritmų skirtumus.
- 24. Kam reikalinga painiavos matrica? Kas tai?
- 25. Kas tiksliai yra pagrindinė komponentų analizė?
- 26. Kodėl komponentų rotacija yra tokia svarbi PCA (pagrindinio komponento analizei)?
- 27. Kaip reguliavimas ir normalizavimas skiriasi vienas nuo kito?
- 28. Kuo skiriasi normalizavimas ir standartizavimas?
- 29. Ką tiksliai reiškia „dispersinės infliacijos koeficientas“?
- 30. Kaip pasirenkate klasifikatorių, atsižvelgdami į treniruočių rinkinio dydį?
- 31. Koks mašininio mokymosi algoritmas vadinamas „tingiu besimokančiuoju“ ir kodėl?
- 32. Kas yra ROC kreivė ir AUC?
- 33. Kas yra hiperparametrai? Kuo jie išskirtiniai iš modelio parametrų?
- 34. Ką reiškia F1 balas, atšaukimas ir tikslumas?
- 35. Kas tiksliai yra kryžminis patvirtinimas?
- 36. Tarkime, kad pastebėjote, kad jūsų modelis turi didelę dispersiją. Koks algoritmas, jūsų nuomone, labiausiai tinka šiai situacijai?
- 37. Kuo Ridžo regresija skiriasi nuo Laso regresijos?
- 38. Kas svarbiau: modelio veikimas ar modelio tikslumas? Kuriam ir kodėl teiksite pirmenybę?
- 39. Kaip valdytumėte duomenų rinkinį su nelygybėmis?
- 40. Kaip atskirti pastiprinimą nuo maišymo?
- 41. Paaiškinkite indukcinio ir dedukcinio mokymosi skirtumus.
- Išvada
Įmonės naudoja pažangiausias technologijas, pvz., dirbtinį intelektą (AI) ir mašininį mokymąsi, kad padidintų informacijos ir paslaugų prieinamumą asmenims.
Šias technologijas naudoja įvairios pramonės šakos, įskaitant bankininkystę, finansus, mažmeninę prekybą, gamybą ir sveikatos priežiūrą.
Vienas iš geidžiamiausių organizacinių vaidmenų, naudojant AI, yra duomenų mokslininkams, dirbtinio intelekto inžinieriams, mašinų mokymosi inžinieriams ir duomenų analitikams.
Šis įrašas supažindins jus su įvairiais mašininis mokymasis interviu klausimai, nuo pagrindinių iki sudėtingų, kad padėtų jums pasiruošti bet kokiems klausimams, kurių galite užduoti ieškant idealaus darbo.
1. Paaiškinkite mašininio mokymosi, dirbtinio intelekto ir giluminio mokymosi skirtumus.
Dirbtinis intelektas naudoja įvairius mašininio mokymosi ir giluminio mokymosi metodus, kurie leidžia kompiuterinėms sistemoms atlikti užduotis, naudojant į žmogų panašų intelektą su logika ir taisyklėmis.
Mašinų mokymasis naudoja įvairius statistikos ir giluminio mokymosi metodus, kad mašinos galėtų mokytis iš savo ankstesnio veikimo ir geriau atlikti tam tikras užduotis savarankiškai be žmogaus priežiūros.
Deep Learning yra algoritmų rinkinys, leidžiantis programinei įrangai mokytis iš savęs ir atlikti įvairias komercines funkcijas, pvz., balso ir vaizdo atpažinimą.
Sistemos, kurios atskleidžia jų daugiasluoksniškumą neuroniniai tinklai didžiulis mokymosi duomenų kiekis gali atlikti gilų mokymąsi.
2. Aprašykite skirtingus mašininio mokymosi tipus.
Iš esmės yra trijų skirtingų tipų mašinų mokymasis:
- Prižiūrimas mokymasis: modelis sukuria prognozes arba sprendimus, naudodamas pažymėtus arba istorinius prižiūrimo mašininio mokymosi duomenis. Duomenų rinkiniai, kurie buvo pažymėti arba pažymėti, siekiant padidinti jų reikšmę, vadinami pažymėtais duomenimis.
- Mokymasis be priežiūros: neturime pažymėtų duomenų apie neprižiūrimą mokymąsi. Gaunamuose duomenyse modelis gali rasti šablonų, keistenybių ir koreliacijų.
- Sustiprinimo mokymasis: modelis gali mokykitės naudodami pastiprinimą mokymasis ir atlygis, gautas už ankstesnį elgesį.
3. Koks yra šališkumo ir dispersijos kompromisas?
Per didelis pritaikymas yra šališkumo, ty modelio pritaikymo duomenims laipsnio, rezultatas. Šališkumą sukelia neteisingos arba per paprastos jūsų prielaidos mašininio mokymosi algoritmas.
Nuokrypis reiškia klaidas, atsirandančias dėl sudėtingumo jūsų ML algoritme, dėl kurio atsiranda jautrumas dideliems mokymo duomenų skirtumams ir perdėtam pritaikymui.
Variantas yra tai, kiek modelis skiriasi priklausomai nuo įvesties.
Kitaip tariant, pagrindiniai modeliai yra labai šališki, tačiau stabilūs (maža dispersija). Per didelis pritaikymas yra sudėtingų modelių problema, nors jie vis dėlto fiksuoja modelio tikrovę (mažas poslinkis).
Siekiant užkirsti kelią dideliems poslinkiams ir dideliems poslinkiams, norint geriausiai sumažinti klaidas, būtinas kompromisas tarp paklaidos ir dispersijos.
4. Mašininio mokymosi algoritmai laikui bėgant labai išsivystė. Kaip pasirinkti tinkamą algoritmą naudoti tam tikruose duomenų rinkiniuose?
Mašininio mokymosi technika, kurią reikėtų naudoti, priklauso tik nuo duomenų rūšies konkrečiame duomenų rinkinyje.
Kai duomenys yra tiesiniai, naudojama tiesinė regresija. Pakavimo į maišus metodas veiktų geriau, jei duomenys parodytų netiesiškumą. Galime naudoti sprendimų medžius arba SVM, jei duomenis reikia įvertinti ar interpretuoti komerciniais tikslais.
Neuroniniai tinklai gali būti naudingi norint gauti tikslų atsakymą, jei duomenų rinkinyje yra nuotraukų, vaizdo įrašų ir garso.
Algoritmo pasirinkimas konkrečioms aplinkybėms arba duomenų rinkimui negali būti atliekamas tik pagal vieną matą.
Siekdami sukurti tinkamiausią metodą, pirmiausia turime ištirti duomenis naudodami tiriamąją duomenų analizę (EDA) ir suprasti duomenų rinkinio panaudojimo tikslą.
5. Kuo skiriasi kovariacija ir koreliacija?
Kovariacija įvertina, kaip du kintamieji yra susieti vienas su kitu ir kaip vienas gali keistis reaguojant į kito pokyčius.
Jei rezultatas yra teigiamas, tai rodo, kad yra tiesioginis ryšys tarp kintamųjų ir kad padidėtų arba sumažėtų bazinis kintamasis, darant prielaidą, kad visos kitos sąlygos išliks pastovios.
Koreliacija matuoja ryšį tarp dviejų atsitiktinių dydžių ir turi tik tris skirtingas reikšmes: 1, 0 ir -1.
6. Ką reiškia grupavimas mašininiame mokyme?
Neprižiūrimi mokymosi metodai, kurie sugrupuoja duomenų taškus, vadinami grupavimu. Surinkus duomenų taškus, galima taikyti grupavimo techniką.
Naudodami šią strategiją galite sugrupuoti visus duomenų taškus pagal jų funkcijas.
Duomenų taškų, patenkančių į tą pačią kategoriją, savybės ir savybės yra panašios, o duomenų taškų, patenkančių į atskiras grupes, savybės ir savybės skiriasi.
Šis metodas gali būti naudojamas statistiniams duomenims analizuoti.
7. Koks yra jūsų pageidaujamas mašininio mokymosi algoritmas?
Turite galimybę parodyti savo pageidavimus ir unikalius talentus šiuo klausimu, taip pat išsamias žinias apie daugybę mašininio mokymosi metodų.
Štai keletas tipiškų mašininio mokymosi algoritmų, apie kuriuos reikia pagalvoti:
- Tiesinė regresija
- Logistinė regresija
- Naivus Bayesas
- Sprendimų medžiai
- K reiškia
- Atsitiktinis miško algoritmas
- K-artimiausias kaimynas (KNN)
8. Tiesinė regresija mašininiame mokyme: kas tai?
Prižiūrimas mašininio mokymosi algoritmas yra tiesinė regresija.
Jis naudojamas nuspėjamojoje analizėje, siekiant nustatyti tiesinį ryšį tarp priklausomų ir nepriklausomų kintamųjų.
Tiesinės regresijos lygtis yra tokia:
Y = A + BX
jeigu:
- Įvestis arba nepriklausomas kintamasis vadinamas X.
- Priklausomas arba išvesties kintamasis yra Y.
- X koeficientas yra b, o jo kirtis yra a.
9. Apibūdinkite KNN ir k-means klasterizacijos skirtumus.
Pagrindinis skirtumas yra tas, kad KNN (klasifikavimo metodas, prižiūrimas mokymasis) reikia pažymėti taškų, o k-means - ne (grupavimo algoritmas, neprižiūrimas mokymasis).
Galite suskirstyti pažymėtus duomenis į nepažymėtą tašką naudodami K-Artimiausius kaimynus. K-means klasterizavimas naudoja vidutinį atstumą tarp taškų, kad išmoktų grupuoti nepažymėtus taškus.
10. Ką jums reiškia „atrankos šališkumas“?
Eksperimento atrankos fazės paklaida atsirado dėl statistinio netikslumo.
Dėl netikslumo viena mėginių grupė pasirenkama dažniau nei kitos eksperimento grupės.
Jei atrankos šališkumas nepripažįstamas, gali būti padaryta neteisinga išvada.
11. Kas tiksliai yra Bayes'o teorema?
Kai žinome apie kitas tikimybes, tikimybę galime nustatyti naudodami Bayeso teoremą. Kitaip tariant, ji siūlo užpakalinę įvykio tikimybę, pagrįstą ankstesne informacija.
Ši teorema suteikia patikimą sąlyginių tikimybių įvertinimo metodą.
Kuriant klasifikavimo nuspėjamojo modeliavimo problemas ir pritaikant modelį mokymui mašininio mokymosi duomenų rinkinys, taikoma Bayes'o teorema (ty Naive Bayes, Bayes Optimalus klasifikatorius).
12. Kas yra „mokymo rinkinys“ ir „testų rinkinys“ mašininio mokymosi modelyje?
Treniruočių rinkinys:
- Mokymo rinkinį sudaro egzemplioriai, kurie siunčiami modeliui analizuoti ir mokytis.
- Tai yra pažymėti duomenys, kurie bus naudojami modeliui mokyti.
- Paprastai 70 % visų duomenų naudojama kaip mokymo duomenų rinkinys.
Bandymo rinkinys:
- Bandymų rinkinys naudojamas modelio hipotezės generavimo tikslumui įvertinti.
- Testuojame be paženklintų duomenų, o tada rezultatams patvirtinti naudojame etiketes.
- Likę 30% naudojami kaip bandymo duomenų rinkinys.
13. Kas yra mašininio mokymosi hipotezė?
Mašininis mokymasis leidžia naudoti esamus duomenų rinkinius, kad būtų galima geriau suprasti tam tikrą funkciją, susiejančią įvestį su išvestimi. Tai žinoma kaip funkcijos aproksimacija.
Šiuo atveju reikia taikyti aproksimaciją, kad nežinoma tikslinė funkcija būtų geriausiu įmanomu būdu perduodama visus įmanomus stebėjimus, pagrįstus pateikta situacija.
Mašininio mokymosi atveju hipotezė yra modelis, padedantis įvertinti tikslinę funkciją ir užbaigti atitinkamus įvesties ir išvesties atvaizdavimus.
Algoritmų parinkimas ir projektavimas leidžia apibrėžti galimų hipotezių, kurias galima pavaizduoti modeliu, erdvę.
Vienai hipotezei naudojama mažoji h (h), bet didžioji h (H) naudojama visai hipotezės erdvei, kurios ieškoma. Trumpai apžvelgsime šiuos užrašus:
- Hipotezė (h) yra tam tikras modelis, palengvinantis įvesties ir išvesties susiejimą, kuris vėliau gali būti naudojamas vertinimui ir prognozavimui.
- Hipotezių rinkinys (H) yra ieškoma hipotezių erdvė, kuri gali būti naudojama įvestims susieti su išvestimis. Problemos kadravimas, modelis ir modelio konfigūracija yra keli bendrų apribojimų pavyzdžiai.
14. Ką reiškia mašininio mokymosi perteklius ir kaip to išvengti?
Kai mašina bando mokytis iš nepakankamo duomenų rinkinio, įvyksta perdėtas pritaikymas.
Dėl to perteklius yra atvirkščiai koreliuojamas su duomenų kiekiu. Kryžminio patvirtinimo metodas leidžia išvengti per didelio mažų duomenų rinkinių pritaikymo. Šiuo metodu duomenų rinkinys yra padalintas į dvi dalis.
Bandymų ir mokymo duomenų rinkinys susideda iš šių dviejų dalių. Mokymo duomenų rinkinys naudojamas modeliui sukurti, o testavimo duomenų rinkinys naudojamas modeliui įvertinti naudojant skirtingus įvestis.
Taip apsisaugosite nuo persirengimo.
15. Kas tiksliai yra Naive Bayes klasifikatoriai?
Įvairūs klasifikavimo metodai sudaro Naive Bayes klasifikatorius. Algoritmų rinkinys, žinomas kaip šie klasifikatoriai, veikia pagal tą pačią pagrindinę idėją.
Naivių Bayes klasifikatorių daroma prielaida, kad vienos savybės buvimas ar nebuvimas neturi įtakos kitos savybės buvimui ar nebuvimui.
Kitaip tariant, tai vadiname „naivu“, nes daroma prielaida, kad kiekvienas duomenų rinkinio atributas yra vienodai reikšmingas ir nepriklausomas.
Klasifikavimas atliekamas naudojant naivius Bayes klasifikatorius. Juos paprasta naudoti ir gauti geresnių rezultatų nei sudėtingesni prognozės, kai nepriklausomumo prielaida yra teisinga.
Jie naudojami atliekant teksto analizę, šiukšlių filtravimą ir rekomendacijų sistemas.
16. Ką reiškia sąnaudų ir nuostolių funkcijos?
Frazė „praradimo funkcija“ reiškia skaičiavimo praradimo procesą, kai atsižvelgiama tik į vieną duomenų dalį.
Priešingai, mes naudojame išlaidų funkciją norėdami nustatyti bendrą daugelio duomenų klaidų skaičių. Nėra reikšmingo skirtumo.
Kitaip tariant, nors sąnaudų funkcijos apibendrina viso mokymo duomenų rinkinio skirtumą, nuostolių funkcijos skirtos užfiksuoti skirtumą tarp faktinių ir numatomų vieno įrašo verčių.
17. Kuo generatyvinis modelis skiriasi nuo diskriminacinio?
Diskriminacinis modelis išmoksta kelių duomenų kategorijų skirtumus. Generacinis modelis renkasi skirtingus duomenų tipus.
Kalbant apie klasifikavimo problemas, diskriminaciniai modeliai dažnai pranoksta kitus modelius.
18. Apibūdinkite I ir II tipo klaidų skirtumus.
Klaidingi teigiami duomenys patenka į I tipo klaidų kategoriją, o klaidingi neigiami priskiriami II tipo klaidoms (teigiama, kad nieko neįvyko, kai iš tikrųjų įvyko).
19. Kas yra mokymosi mašininiu būdu technika?
Metodas, vadinamas ansambliu, sujungia daugybę mašininio mokymosi modelių, kad sukurtų efektyvesnius modelius.
Modelis gali būti įvairus dėl įvairių priežasčių. Yra keletas priežasčių:
- Įvairios populiacijos
- Įvairios hipotezės
- Įvairūs modeliavimo būdai
Naudodami modelio mokymo ir testavimo duomenis susidursime su problema. Galimi šios klaidos tipai yra poslinkis, dispersija ir nesumažinama klaida.
Dabar šį modelio šališkumo ir dispersijos balansą vadiname šališkumo ir dispersijos kompromisu, ir jis visada turėtų egzistuoti. Šis kompromisas pasiekiamas naudojant ansamblinį mokymąsi.
Nors yra įvairių ansamblio metodų, yra dvi bendros daugelio modelių derinimo strategijos:
- Taikant vietinį metodą, vadinamą maišymu, naudojamas treniruočių rinkinys papildomiems treniruočių rinkiniams gaminti.
- Stiprinimas, sudėtingesnė technika: Panašiai kaip ir krovimas į maišus, kėlimas naudojamas ieškant idealios treniruočių komplekto svorio formulės.
20. Kas tiksliai yra parametriniai modeliai? Pateikite pavyzdį.
Parametriniuose modeliuose yra ribotas parametrų kiekis. Norint prognozuoti duomenis, tereikia žinoti modelio parametrus.
Toliau pateikiami tipiški pavyzdžiai: logistinė regresija, tiesinė regresija ir linijiniai SVM. Neparametriniai modeliai yra lankstūs, nes juose gali būti neribotas parametrų skaičius.
Duomenų prognozavimui reikalingi modelio parametrai ir stebimų duomenų būsena. Štai keletas tipiškų pavyzdžių: temų modeliai, sprendimų medžiai ir k-artimiausi kaimynai.
21. Apibūdinkite bendradarbiavimo filtravimą. Taip pat turiniu pagrįstas filtravimas?
Išbandytas būdas sukurti pritaikytus turinio pasiūlymus yra bendradarbiaujantis filtravimas.
Rekomendacijų sistemos forma, vadinama bendradarbiavimo filtravimu, išpranašauja naują medžiagą, suderindama vartotojų pageidavimus ir bendrus interesus.
Vartotojo nuostatos yra vienintelis dalykas, į kurį atsižvelgia turiniu pagrįstos rekomendacijų sistemos. Atsižvelgiant į ankstesnius vartotojo pasirinkimus, iš susijusios medžiagos pateikiamos naujos rekomendacijos.
22. Ką tiksliai reiškia laiko eilutė?
Laiko eilutė yra skaičių rinkinys didėjančia tvarka. Per iš anksto nustatytą laikotarpį jis stebi pasirinktų duomenų taškų judėjimą ir periodiškai fiksuoja duomenų taškus.
Nėra minimalaus ar maksimalaus laiko įvesties laiko eilutėms.
Analitikai dažnai naudoja laiko eilutes duomenims analizuoti pagal savo unikalius reikalavimus.
23. Apibūdinkite gradiento didinimo ir atsitiktinio miško algoritmų skirtumus.
Atsitiktinis miškas:
- Daugelis sprendimų medžių yra sujungiami pabaigoje ir yra žinomi kaip atsitiktiniai miškai.
- Nors gradiento didinimas sukuria kiekvieną medį nepriklausomai nuo kitų, atsitiktinis miškas stato kiekvieną medį po vieną.
- Daugiaklasė objekto aptikimas gerai dirba su atsitiktiniais miškais.
Gradiento didinimas:
- Nors atsitiktiniai miškai proceso pabaigoje prisijungia prie sprendimų medžių, gradiento didinimo mašinos juos sujungia nuo pat pradžių.
- Jei parametrai yra tinkamai pakoreguoti, gradiento didinimas rezultatų atžvilgiu pranoksta atsitiktinius miškus, tačiau tai nėra protingas pasirinkimas, jei duomenų rinkinyje yra daug nuokrypių, anomalijų ar triukšmo, nes dėl to modelis gali tapti per daug pritaikytas.
- Kai yra nesubalansuotų duomenų, kaip yra atliekant rizikos vertinimą realiuoju laiku, gradiento didinimas veikia gerai.
24. Kam reikalinga painiavos matrica? Kas tai?
Lentelė, žinoma kaip painiavos matrica, kartais vadinama klaidų matrica, yra plačiai naudojama norint parodyti, kaip gerai klasifikavimo modelis arba klasifikatorius veikia su bandymo duomenų rinkiniu, kurio tikrosios vertės yra žinomos.
Tai leidžia mums pamatyti, kaip veikia modelis ar algoritmas. Tai leidžia mums lengvai pastebėti nesusipratimus tarp įvairių kursų.
Jis naudojamas kaip būdas įvertinti, kaip gerai veikia modelis ar algoritmas.
Klasifikavimo modelio prognozės sudaromos į painiavos matricą. Kiekvienos klasės etiketės skaičiaus reikšmės buvo naudojamos norint suskirstyti bendrą teisingų ir neteisingų prognozių skaičių.
Jame pateikiama išsami informacija apie klasifikatoriaus padarytus gedimus, taip pat apie įvairias klasifikatorių sukeliamas klaidas.
25. Kas tiksliai yra pagrindinė komponentų analizė?
Sumažinus kintamųjų, kurie yra tarpusavyje susiję, skaičių, tikslas yra sumažinti duomenų rinkimo matmenis. Tačiau svarbu išlaikyti kuo didesnę įvairovę.
Kintamieji pakeičiami į visiškai naują kintamųjų rinkinį, vadinamą pagrindiniais komponentais.
Šie kompiuteriai yra stačiakampiai, nes jie yra kovariacijos matricos savieji vektoriai.
26. Kodėl komponentų rotacija yra tokia svarbi PCA (pagrindinio komponento analizei)?
Sukimas yra labai svarbus PCA, nes jis optimizuoja kiekvieno komponento gautų dispersijų atskyrimą, todėl komponentų aiškinimas yra paprastesnis.
Mums reikia išplėstinių komponentų, kad išreikštume komponentų kitimą, jei komponentai nėra pasukti.
27. Kaip reguliavimas ir normalizavimas skiriasi vienas nuo kito?
Normalizavimas:
Normalizavimo metu duomenys keičiami. Turėtumėte normalizuoti duomenis, jei jų skalės labai skiriasi, ypač nuo mažos iki didelės. Sureguliuokite kiekvieną stulpelį taip, kad pagrindinė statistika būtų suderinama.
Tai gali būti naudinga siekiant užtikrinti, kad neprarastų tikslumas. Signalo aptikimas ignoruojant triukšmą yra vienas iš modelio mokymo tikslų.
Jei modeliui suteikiama visiška kontrolė, kad būtų sumažinta klaida, yra galimybė permontuoti.
Reguliavimas:
Normalizuojant prognozavimo funkcija modifikuojama. Tai šiek tiek kontroliuojama sureguliuojant, o tai teikia pirmenybę paprastesnėms montavimo funkcijoms, o ne sudėtingoms.
28. Kuo skiriasi normalizavimas ir standartizavimas?
Du plačiausiai naudojami funkcijų mastelio keitimo būdai yra normalizavimas ir standartizavimas.
Normalizavimas:
- Duomenų skalės keitimas, kad atitiktų [0,1] diapazoną, vadinamas normalizavimu.
- Kai visi parametrai turi turėti vienodą teigiamą skalę, normalizavimas yra naudingas, tačiau duomenų rinkinio nuokrypiai prarandami.
Reguliavimas:
- Duomenų skalė keičiama taip, kad jų vidurkis būtų 0, o standartinis nuokrypis – 1, kaip standartizacijos proceso dalis (vieneto dispersija)
29. Ką tiksliai reiškia „dispersinės infliacijos koeficientas“?
Modelio dispersijos ir modelio, turinčio tik vieną nepriklausomą kintamąjį, dispersijos santykis yra žinomas kaip variacijos infliacijos koeficientas (VIF).
VIF įvertina daugiakolineariškumo dydį kelių regresijos kintamųjų rinkinyje.
Modelio dispersija (VIF) Modelis su vienu nepriklausomu kintamuoju
30. Kaip pasirenkate klasifikatorių, atsižvelgdami į treniruočių rinkinio dydį?
Didelio poslinkio ir mažos dispersijos modelis geriau tinka trumpam treniruočių rinkiniui, nes per daug mažiau tikėtina. Naive Bayes yra vienas pavyzdys.
Norint pavaizduoti sudėtingesnes didelės treniruočių rinkinio sąveikas, pirmenybė teikiama modeliui su mažu poslinkiu ir didele dispersija. Logistinė regresija yra geras pavyzdys.
31. Koks mašininio mokymosi algoritmas vadinamas „tingiu besimokančiuoju“ ir kodėl?
Vangiai besimokantis KNN yra mašininio mokymosi algoritmas. Kadangi K-NN dinamiškai apskaičiuoja atstumą kiekvieną kartą, kai nori klasifikuoti, užuot mokęsis mašininiu būdu išmoktų verčių ar kintamųjų iš treniruočių duomenų, jis įsimena treniruočių duomenų rinkinį.
Dėl to K-NN yra tingus mokinys.
32. Kas yra ROC kreivė ir AUC?
Klasifikavimo modelio veikimas prie visų slenksčių grafiškai pavaizduotas ROC kreive. Jis turi tikro teigiamo ir klaidingai teigiamo rodiklio kriterijus.
Paprasčiau tariant, plotas po ROC kreive yra žinomas kaip AUC (Area Under the ROC Curve). Išmatuojamas ROC kreivės dvimatis plotas nuo (0,0) iki AUC (1,1). Vertinant dvejetainius klasifikavimo modelius, jis naudojamas kaip našumo statistika.
33. Kas yra hiperparametrai? Kuo jie išskirtiniai iš modelio parametrų?
Vidinis modelio kintamasis yra žinomas kaip modelio parametras. Naudojant treniruočių duomenis, apytikslė parametro reikšmė.
Modeliui nežinomas hiperparametras yra kintamasis. Vertės negalima nustatyti pagal duomenis, todėl jie dažnai naudojami modelio parametrams apskaičiuoti.
34. Ką reiškia F1 balas, atšaukimas ir tikslumas?
Sumišimo priemonė yra metrika, naudojama klasifikavimo modelio efektyvumui įvertinti. Norint geriau paaiškinti painiavos metriką, galima naudoti šias frazes:
TP: tikri teigiami dalykai – tai teigiamos vertės, kurios buvo tinkamai numatytos. Tai rodo, kad numatomos klasės ir tikrosios klasės vertės yra teigiamos.
TN: Tikri neigiami – tai neigiamos vertės, kurios buvo tiksliai prognozuotos. Tai rodo, kad tiek tikrosios klasės, tiek numatomos klasės vertė yra neigiama.
Šios vertės – klaidingai teigiami ir klaidingai neigiami – atsiranda, kai jūsų tikroji klasė skiriasi nuo numatomos klasės.
Dabar
Tikrojo teigiamo rodiklio (TP) ir visų stebėjimų, atliktų faktinėje klasėje, santykis vadinamas prisiminimu, taip pat žinomas kaip jautrumas.
Atšaukimas yra TP/(TP+FN).
Tikslumas yra teigiamos nuspėjamosios vertės matas, kuris palygina modelio tikrai nuspėjamų teigiamų dalykų skaičių su teisingų teigiamų dalykų, kuriuos jis tiksliai numato, skaičiumi.
Tikslumas yra TP/(TP + FP)
Lengviausia suprasti našumo metriką yra tikslumas, kuris yra tik tinkamai numatytų stebėjimų santykis su visais stebėjimais.
Tikslumas lygus (TP+TN)/(TP+FP+FN+TN).
Tikslumas ir atšaukimas yra pasverti ir apskaičiuojami vidurkiu, kad būtų gautas F1 balas. Todėl į šį balą atsižvelgiama ir į klaidingus teigiamus, ir į klaidingus neigiamus rezultatus.
F1 dažnai yra vertingesnis už tikslumą, ypač jei turite nevienodą klasių pasiskirstymą, net jei intuityviai tai nėra taip paprasta suprasti kaip tikslumą.
Geriausias tikslumas pasiekiamas, kai klaidingai teigiamų ir klaidingai neigiamų rezultatų kaina yra palyginama. Pageidautina įtraukti tikslumą ir atšaukimą, jei su klaidingais teigiamais ir klaidingais neigiamais susijusios išlaidos labai skiriasi.
35. Kas tiksliai yra kryžminis patvirtinimas?
Taikant statistinio pakartotinio atrankos metodą, vadinamą kryžminiu mašininio mokymosi patvirtinimu, naudojami keli duomenų rinkinių poaibiai, skirti mokyti ir įvertinti mašininio mokymosi algoritmą keliais etapais.
Nauja duomenų, kurie nebuvo naudojami modeliui mokyti, paketas išbandomas naudojant kryžminį patvirtinimą, kad būtų galima pamatyti, kaip gerai modelis jį numato. Duomenų perteklius užkertamas kelias kryžminis patvirtinimas.
K-Fold Dažniausiai naudojamas pakartotinio atrankos metodas padalija visą duomenų rinkinį į K vienodo dydžio rinkinius. Tai vadinama kryžminiu patvirtinimu.
36. Tarkime, kad pastebėjote, kad jūsų modelis turi didelę dispersiją. Koks algoritmas, jūsų nuomone, labiausiai tinka šiai situacijai?
Didelio kintamumo valdymas
Turėtume naudoti pakavimo į maišus techniką didelėms svyravimų problemoms spręsti.
Pakartotinis atsitiktinių duomenų atrinkimas būtų naudojamas maišymo algoritmu, kad padalitų duomenis į pogrupius. Kai duomenys bus padalinti, taisyklėms generuoti galime panaudoti atsitiktinius duomenis ir konkrečią mokymo procedūrą.
Po to apklausa galėtų būti naudojama modelio prognozėms sujungti.
37. Kuo Ridžo regresija skiriasi nuo Laso regresijos?
Du plačiai naudojami reguliarumo metodai yra Lasso (dar vadinami L1) ir Ridge (kartais vadinami L2) regresija. Jie naudojami siekiant užkirsti kelią duomenų pertekliui.
Siekiant rasti geriausią sprendimą ir sumažinti sudėtingumą, šie metodai naudojami koeficientams nubausti. Baudžiant absoliučiąsias koeficientų vertes, veikia Lasso regresija.
Baudos funkcija Ridge arba L2 regresijoje yra išvedama iš koeficientų kvadratų sumos.
38. Kas svarbiau: modelio veikimas ar modelio tikslumas? Kuriam ir kodėl teiksite pirmenybę?
Tai apgaulingas klausimas, todėl pirmiausia reikėtų suprasti, kas yra Model Performance. Jei našumas apibrėžiamas kaip greitis, tai priklauso nuo taikymo tipo; bet kuriai programai, susijusiai su situacija realiuoju laiku, reikalingas didelis greitis kaip esminis komponentas.
Pavyzdžiui, geriausi paieškos rezultatai taps mažiau vertingi, jei užklausos rezultatai bus gauti per ilgai.
Jei našumas naudojamas kaip pagrindimas, kodėl tikslumui ir atšaukimui turėtų būti teikiama pirmenybė, o ne tikslumas, tada F1 balas bus naudingesnis nei tikslumas demonstruojant bet kokio nesubalansuoto duomenų rinkinio verslo atvejį.
39. Kaip valdytumėte duomenų rinkinį su nelygybėmis?
Nesubalansuotam duomenų rinkiniui gali būti naudingi atrankos metodai. Atranka gali būti atliekama per mažą arba per didelę atranką.
Naudodami atranką galime sumažinti daugumos klasės dydį, kad ji atitiktų mažumos klasę, o tai padeda padidinti saugojimo ir vykdymo laiką, tačiau taip pat gali prarasti vertingus duomenis.
Siekdami išspręsti informacijos praradimo problemą, kurią sukelia per didelė atranka, padidiname mažumos klasės atranką; nepaisant to, dėl to susiduriame su permontavimo problemomis.
Papildomos strategijos apima:
- Cluster-Based Over Sampling – mažumos ir daugumos klasių egzemplioriai šioje situacijoje individualiai taikomi K-means klasterizacijos metodu. Tai daroma norint rasti duomenų rinkinių grupes. Tada kiekvienas klasteris perimamas, kad visos klasės būtų vienodo dydžio, o visos klasės klasteriai turėtų vienodą egzempliorių skaičių.
- SMOTE: Sintetinės mažumos perviršinio atrankos metodas – kaip pavyzdys naudojama mažumos klasės duomenų dalis, po kurios sukuriami papildomi dirbtiniai su ja palyginami egzemplioriai ir pridedami prie pradinio duomenų rinkinio. Šis metodas gerai veikia su skaitmeniniais duomenų taškais.
40. Kaip atskirti pastiprinimą nuo maišymo?
Ensemble Techniques turi versijas, žinomas kaip maišymas ir padidinimas.
Pakavimas į maišus-
Didelės variacijos algoritmams maišymas yra metodas, naudojamas dispersijai sumažinti. Viena iš tokių klasifikatorių šeimų, kuri yra linkusi į šališkumą, yra sprendimų medžio šeima.
Duomenų tipas, kuriuo remiantis mokomi sprendimų medžiai, turi didelės įtakos jų veikimui. Dėl šios priežasties, net ir labai tiksliai sureguliavus, rezultatų apibendrinimas juose kartais yra daug sunkiau.
Jei sprendimų medžių mokymo duomenys pakeičiami, rezultatai labai skiriasi.
Dėl to naudojamas maišymas, kai sukuriama daug sprendimų medžių, kurių kiekvienas apmokomas naudojant pradinių duomenų pavyzdį, o galutinis rezultatas yra visų šių skirtingų modelių vidurkis.
Stiprinimas:
Padidinimas yra prognozių sudarymo naudojant n-silpnų klasifikatorių sistemą, kurioje kiekvienas silpnas klasifikatorius kompensuoja savo stipresnių klasifikatorių trūkumus. Klasifikatorių, kuris blogai veikia tam tikrame duomenų rinkinyje, vadiname „silpnu klasifikatoriumi“.
Akivaizdu, kad skatinimas yra procesas, o ne algoritmas. Logistinė regresija ir sekli sprendimų medžiai yra dažni silpnų klasifikatorių pavyzdžiai.
„Adaboost“, „Gradient Boosting“ ir „XGBoost“ yra du populiariausi didinimo algoritmai, tačiau yra daug daugiau.
41. Paaiškinkite indukcinio ir dedukcinio mokymosi skirtumus.
Kai mokomasi pagal pavyzdį iš stebimų pavyzdžių rinkinio, modelis naudoja indukcinį mokymąsi, kad padarytų apibendrintą išvadą. Kita vertus, naudojant dedukcinį mokymąsi, modelis naudoja rezultatą prieš sudarydamas savo.
Indukcinis mokymasis – tai išvadų iš stebėjimų darymo procesas.
Dedukcinis mokymasis – tai stebėjimų, pagrįstų išvadomis, kūrimo procesas.
Išvada
Sveikinimai! Tai yra 40 ir daugiau interviu klausimų apie mašininį mokymąsi, į kuriuos dabar žinote atsakymus. Duomenų mokslas ir dirbtinis intelektas profesijos ir toliau bus paklausios technologijoms tobulėjant.
Kandidatai, kurie atnaujina savo žinias apie šias pažangiausias technologijas ir tobulina savo įgūdžius, gali rasti įvairių įsidarbinimo galimybių už konkurencingą atlyginimą.
Galite tęsti atsakymą į interviu dabar, kai puikiai suprantate, kaip atsakyti į kai kuriuos plačiai užduodamus mašininio mokymosi interviu klausimus.
Atsižvelgdami į savo tikslus, atlikite toliau nurodytus veiksmus. Pasiruoškite interviu apsilankę Hashdork's Interviu serija.
Palikti atsakymą