Sisällysluettelo[Piilottaa][Näytä]
- 1. Selitä erot koneoppimisen, tekoälyn ja syväoppimisen välillä.
- 2. Kuvaile erilaisia koneoppimisen tyyppejä.
- 3. Mikä on harhan ja varianssin välinen kompromissi?
- 4. Koneoppimisalgoritmit ovat kehittyneet merkittävästi ajan myötä. Kuinka valita oikea algoritmi käytettäväksi tietylle tietojoukolle?
- 5. Miten kovarianssi ja korrelaatio eroavat toisistaan?
- 6. Mitä klusterointi tarkoittaa koneoppimisessa?
- 7. Mikä on ensisijainen koneoppimisalgoritmi?
- 8. Lineaarinen regressio koneoppimisessa: mitä se on?
- 9. Kuvaile eroja KNN:n ja k-keskiarvoklusteroinnin välillä.
- 10. Mitä "valintaharha" tarkoittaa sinulle?
- 11. Mikä tarkalleen on Bayesin lause?
- 12. Mitä ovat "koulutussarja" ja "testisarja" koneoppimismallissa?
- 13. Mikä on hypoteesi koneoppimisessa?
- 14. Mitä koneoppimisen ylisovitus tarkoittaa ja miten se voidaan estää?
- 15. Mitä Naive Bayes -luokittelijat tarkalleen ottaen ovat?
- 16. Mitä kustannusfunktiot ja tappiofunktiot tarkoittavat?
- 17. Mikä erottaa generatiivisen mallin diskriminatiivisesta mallista?
- 18. Kuvaile tyypin I ja tyypin II virheiden välisiä eroja.
- 19. Mikä on Ensemble-oppimistekniikka koneoppimisessa?
- 20. Mitä parametriset mallit tarkalleen ottaen ovat? Anna esimerkki.
- 21. Kuvaile yhteistyösuodatusta. Sekä sisältöpohjainen suodatus?
- 22. Mitä tarkalleen ottaen tarkoitat aikasarjalla?
- 23. Kuvaile Gradient Boosting- ja Random Forest -algoritmien vaihtelut.
- 24. Miksi tarvitset hämmennysmatriisin? Mikä se on?
- 25. Mitä periaatteellinen komponenttianalyysi tarkalleen ottaen on?
- 26. Miksi komponenttien kierto on niin tärkeää PCA:lle (pääkomponenttianalyysi)?
- 27. Miten regularisointi ja normalisointi eroavat toisistaan?
- 28. Miten normalisointi ja standardointi eroavat toisistaan?
- 29. Mitä "varianssiinflaatiotekijä" tarkalleen ottaen tarkoittaa?
- 30. Miten valitset luokituksen harjoitussarjan koon perusteella?
- 31. Mitä koneoppimisalgoritmia kutsutaan "laiskaksi oppijaksi" ja miksi?
- 32. Mitä ovat ROC-käyrä ja AUC?
- 33. Mitä ovat hyperparametrit? Mikä tekee niistä ainutlaatuisia malliparametreista?
- 34. Mitä F1-pisteet, muistaminen ja tarkkuus tarkoittaa?
- 35. Mitä ristiinvalidointi tarkalleen ottaen on?
- 36. Oletetaan, että huomasit, että mallissasi on merkittävä varianssi. Mikä algoritmi mielestäsi soveltuu parhaiten käsittelemään tätä tilannetta?
- 37. Mikä erottaa Ridge-regression Lasso-regressiosta?
- 38. Kumpi on tärkeämpää: mallin suorituskyky vai mallin tarkkuus? Kumpaa ja miksi suosit sitä?
- 39. Kuinka hallitsisit tietojoukkoa, jossa on epäyhtälöitä?
- 40. Kuinka voit erottaa tehostuksen ja pussituksen?
- 41. Selitä erot induktiivisen ja deduktiivisen oppimisen välillä.
- Yhteenveto
Yritykset hyödyntävät huipputeknologiaa, kuten tekoälyä (AI) ja koneoppimista lisätäkseen tiedon ja palveluiden saatavuutta yksilöille.
Näitä tekniikoita omaksuvat useat teollisuudenalat, mukaan lukien pankkiala, rahoitus, vähittäiskauppa, valmistus ja terveydenhuolto.
Yksi halutuimmista tekoälyä hyödyntävistä organisaatiorooleista on datatieteilijöille, tekoälyinsinööreille, koneoppimisen insinööreille ja data-analyytikoille.
Tämä postaus opastaa sinut monenlaisten asioiden läpi koneoppiminen haastattelukysymykset, peruskysymyksistä monimutkaisiin, auttaa sinua valmistautumaan kaikkiin kysymyksiin, joita saatat kysyä etsiessäsi ihanteellinen työpaikkasi.
1. Selitä erot koneoppimisen, tekoälyn ja syväoppimisen välillä.
Tekoäly hyödyntää erilaisia koneoppimisen ja syväoppimisen lähestymistapoja, joiden avulla tietokonejärjestelmät voivat suorittaa tehtäviä käyttämällä ihmisen kaltaista älykkyyttä logiikalla ja säännöillä.
Koneoppiminen käyttää erilaisia tilastoja ja Deep Learning -lähestymistapoja, jotta koneet voivat oppia aikaisemmasta suorituksestaan ja kehittyä taitavammiksi suorittamaan tiettyjä tehtäviä itsenäisesti ilman ihmisen valvontaa.
Deep Learning on kokoelma algoritmeja, joiden avulla ohjelmisto voi oppia itsestään ja suorittaa erilaisia kaupallisia toimintoja, kuten äänen ja kuvan tunnistusta.
Järjestelmät, jotka paljastavat monikerroksisuuden hermoverkkoihin valtaviin tietomääriin oppimista varten pystyvät tekemään syvällistä oppimista.
2. Kuvaile erilaisia koneoppimisen tyyppejä.
Koneoppimista on yleisesti kolmea eri tyyppiä:
- Valvottu oppiminen: Malli luo ennusteita tai arvioita käyttämällä tunnistettuja tai historiallisia tietoja valvotussa koneoppimisessa. Tietojoukkoja, jotka on merkitty tai merkitty niiden merkityksen lisäämiseksi, kutsutaan merkittyinä tiedoksi.
- Ohjaamaton oppiminen: Meillä ei ole merkittyjä tietoja ohjaamattomasta oppimisesta. Saapuvasta tiedosta malli voi löytää kuvioita, omituisuuksia ja korrelaatioita.
- Vahvistusoppiminen: Malli voi oppia käyttämällä vahvistusta oppimista ja palkkioita, joita se sai aikaisemmasta käyttäytymisestään.
3. Mikä on harhan ja varianssin välinen kompromissi?
Ylisovitus johtuu harhasta, joka on aste, jolla malli sopii dataan. Harha johtuu virheellisistä tai liian yksinkertaisista olettamuksistasi koneoppimisalgoritmi.
Varianssi viittaa ML-algoritmin monimutkaisuuden aiheuttamiin virheisiin, jotka aiheuttavat herkkyyttä harjoitusdatan suurille varianssille ja ylisovittamiselle.
Varianssi on kuinka paljon malli vaihtelee syötteiden mukaan.
Toisin sanoen perusmallit ovat erittäin puolueellisia, mutta kuitenkin vakaita (pieni varianssi). Ylisovitus on ongelma monimutkaisissa malleissa, vaikka ne kuitenkin kuvaavat mallin todellisuutta (alhainen bias).
Sekä suuren vaihtelun että suuren poikkeaman estämiseksi on tehtävä kompromissi harhan ja varianssin välillä parhaan virheen vähentämisen kannalta.
4. Koneoppimisalgoritmit ovat kehittyneet merkittävästi ajan myötä. Kuinka valita oikea algoritmi käytettäväksi tietylle tietojoukolle?
Koneoppimistekniikka, jota tulisi käyttää, riippuu vain tietyn tietojoukon datan tyypistä.
Kun data on lineaarista, käytetään lineaarista regressiota. Pussimenetelmä toimisi paremmin, jos tiedot osoittaisivat epälineaarisuutta. Voimme hyödyntää päätöspuita tai SVM:ää, jos dataa on arvioitava tai tulkittava kaupallisiin tarkoituksiin.
Hermoverkot voivat olla hyödyllisiä tarkan vastauksen saamiseksi, jos tietojoukko sisältää valokuvia, videoita ja ääntä.
Algoritmin valintaa tietylle tilanteelle tai tiedonkeruulle ei voida tehdä vain yhdellä mittauksella.
Parhaan sopivan menetelmän kehittämiseksi meidän on ensin tarkasteltava dataa exploratory data-analyysillä (EDA) ja ymmärrettävä aineiston hyödyntämisen tavoite.
5. Miten kovarianssi ja korrelaatio eroavat toisistaan?
Kovarianssi arvioi, kuinka kaksi muuttujaa liittyvät toisiinsa ja miten toinen muuttuja voi muuttua vasteena toisen muutoksille.
Jos tulos on positiivinen, se osoittaa, että muuttujien välillä on suora yhteys ja että muutos nousisi tai pienenisi perusmuuttujan kasvaessa tai pienentyessä olettaen, että kaikki muut ehdot pysyvät vakioina.
Korrelaatio mittaa kahden satunnaismuuttujan välistä yhteyttä, ja sillä on vain kolme erillistä arvoa: 1, 0 ja -1.
6. Mitä klusterointi tarkoittaa koneoppimisessa?
Valvomattomia oppimismenetelmiä, jotka ryhmittelevät datapisteitä yhteen, kutsutaan klusteroinniksi. Tietopisteiden kokoelmalla voidaan soveltaa klusterointitekniikkaa.
Voit ryhmitellä kaikki datapisteet niiden toimintojen mukaan käyttämällä tätä strategiaa.
Samaan luokkaan kuuluvien tietopisteiden ominaisuudet ja ominaisuudet ovat samanlaisia, kun taas erillisiin ryhmittymiin kuuluvien tietopisteiden ominaisuudet ja ominaisuudet ovat erilaisia.
Tätä lähestymistapaa voidaan käyttää tilastotietojen analysointiin.
7. Mikä on ensisijainen koneoppimisalgoritmi?
Sinulla on mahdollisuus osoittaa mieltymyksesi ja ainutlaatuiset kykysi tässä kysymyksessä sekä kattava tietosi lukuisista koneoppimistekniikoista.
Tässä on muutamia tyypillisiä koneoppimisalgoritmeja, joita kannattaa miettiä:
- Lineaarinen regressio
- Logistinen regressio
- Naiivi Bayes
- Päättävät puut
- K tarkoittaa
- Satunnainen metsäalgoritmi
- K-lähin naapuri (KNN)
8. Lineaarinen regressio koneoppimisessa: mitä se on?
Valvottu koneoppimisalgoritmi on lineaarinen regressio.
Sitä käytetään ennustavassa analyysissä määrittämään riippuvien ja riippumattomien muuttujien välinen lineaarinen yhteys.
Lineaarisen regression yhtälö on seuraava:
Y = A + BX
jossa:
- Syöte tai riippumaton muuttuja on nimeltään X.
- Riippuva tai lähtömuuttuja on Y.
- X:n kerroin on b ja sen leikkauspiste on a.
9. Kuvaile eroja KNN:n ja k-keskiarvoklusteroinnin välillä.
Ensisijainen ero on, että KNN (luokitusmenetelmä, ohjattu oppiminen) tarvitsee merkittyjä pisteitä, kun taas k-means ei (klusterointialgoritmi, valvomaton oppiminen).
Voit luokitella merkittyjä tietoja merkitsemättömäksi pisteeksi K-Lähimpien naapurien avulla. K-keskiarvoklusterointi käyttää pisteiden keskimääräistä etäisyyttä oppiakseen ryhmittelemään merkitsemättömät pisteet.
10. Mitä "valintaharha" tarkoittaa sinulle?
Kokeen näytteenottovaiheen harha johtuu tilastollisesta epätarkkuudesta.
Yksi näyteryhmä valitaan useammin kuin muut kokeen ryhmät epätarkkuuden vuoksi.
Jos valintaharhaa ei kuitata, se voi johtaa väärään johtopäätökseen.
11. Mikä tarkalleen on Bayesin lause?
Kun olemme tietoisia muista todennäköisyyksistä, voimme määrittää todennäköisyyden Bayesin lauseen avulla. Se tarjoaa jälkikäteen tapahtuvan todennäköisyyden perustuen aikaisempaan tietoon, toisin sanoen.
Tämä lause tarjoaa hyvän menetelmän ehdollisten todennäköisyyksien estimoimiseksi.
Luokituksen ennustavan mallintamisen ongelmia kehitettäessä ja mallin sovittamista koulutukseen tietojoukko koneoppimisessa, Bayesin lausetta sovelletaan (eli Naive Bayes, Bayes Optimal Classifier).
12. Mitä ovat "koulutussarja" ja "testisarja" koneoppimismallissa?
Treenisarja:
- Koulutussarja koostuu tapauksista, jotka lähetetään malliin analysoitavaksi ja opeteltavaksi.
- Nämä ovat merkittyjä tietoja, joita käytetään mallin kouluttamiseen.
- Tyypillisesti 70 % kokonaistiedoista käytetään harjoitustietojoukona.
Testisarja:
- Testisarjaa käytetään mallin hypoteesin luomisen tarkkuuden arvioimiseen.
- Testaamme ilman merkittyjä tietoja ja käytämme sitten tarroja tulosten vahvistamiseen.
- Loput 30 % käytetään testiaineistona.
13. Mikä on hypoteesi koneoppimisessa?
Koneoppiminen mahdollistaa olemassa olevien tietojoukkojen käytön ymmärtämään paremmin tiettyä toimintoa, joka linkittää syötteen tulosteen. Tätä kutsutaan funktion approksimaatioksi.
Tässä tapauksessa on käytettävä approksimaatiota, jotta tuntematon kohdefunktio siirtää kaikki mahdolliset havainnot tiettyyn tilanteeseen perustuen parhaalla mahdollisella tavalla.
Koneoppimisessa hypoteesi on malli, joka auttaa estimoimaan kohdefunktiota ja suorittamaan asianmukaiset tulo-lähtö-mappaukset.
Algoritmien valinta ja suunnittelu mahdollistavat mallilla esitettävien mahdollisten hypoteesien tilan määrittelyn.
Yhdelle hypoteesille käytetään pieniä kirjaimia h (h), mutta isoa h (H) käytetään koko hypoteesiavaruudessa, jota etsitään. Tarkastellaan lyhyesti näitä merkintöjä:
- Hypoteesi (h) on erityinen malli, joka helpottaa syötteen yhdistämistä ulostuloon, jota voidaan myöhemmin käyttää arvioinnissa ja ennustamisessa.
- Hypoteesijoukko (H) on haettavissa oleva hypoteesiavaruus, jota voidaan käyttää syötteiden yhdistämiseen lähtöihin. Ongelman kehystys, malli ja mallin kokoonpano ovat muutamia esimerkkejä yleisistä rajoituksista.
14. Mitä koneoppimisen ylisovitus tarkoittaa ja miten se voidaan estää?
Kun kone yrittää oppia riittämättömästä tietojoukosta, tapahtuu ylisovitusta.
Tämän seurauksena ylisovitus korreloi käänteisesti tietomäärän kanssa. Ristiinvalidointimenetelmä mahdollistaa pienten tietojoukkojen ylisovituksen välttämisen. Tässä menetelmässä tietojoukko jaetaan kahteen osaan.
Testauksen ja koulutuksen tietojoukko koostuu näistä kahdesta osasta. Harjoitusaineistoa käytetään mallin luomiseen, kun taas testausaineistoa käytetään mallin arvioimiseen eri syötteitä käyttäen.
Näin vältytään liiallistumiselta.
15. Mitä Naive Bayes -luokittelijat tarkalleen ottaen ovat?
Naive Bayesin luokittelijat muodostavat erilaisia luokitusmenetelmiä. Joukko algoritmeja, jotka tunnetaan nimellä nämä luokittelijat, toimivat kaikki saman perusidean pohjalta.
Naiivien Bayes-luokittajien oletus on, että yhden piirteen läsnäolo tai puuttuminen ei vaikuta toisen ominaisuuden olemassaoloon tai puuttumiseen.
Toisin sanoen tämä on se, mitä me kutsumme "naiiviksi", koska se tekee oletuksen, että jokainen tietojoukon attribuutti on yhtä merkittävä ja riippumaton.
Luokittelu tehdään naiiveilla Bayes-luokittelijoilla. Niitä on helppo käyttää ja ne tuottavat parempia tuloksia kuin monimutkaisemmat ennustajat, kun riippumattomuusoletus on totta.
Niitä käytetään tekstianalyysissä, roskapostin suodatuksessa ja suositusjärjestelmissä.
16. Mitä kustannusfunktiot ja tappiofunktiot tarkoittavat?
Ilmaus "häviöfunktio" viittaa prosessiin, jossa lasketaan häviö, kun vain yksi tieto otetaan huomioon.
Sitä vastoin käytämme kustannusfunktiota useiden tietojen virheiden kokonaismäärän määrittämiseen. Merkittävää eroa ei ole.
Toisin sanoen, kun kustannusfunktiot yhdistävät eron koko harjoitustietojoukolle, menetysfunktiot on suunniteltu sieppaamaan ero yhden tietueen todellisten ja ennustettujen arvojen välillä.
17. Mikä erottaa generatiivisen mallin diskriminatiivisesta mallista?
Diskriminatiivinen malli oppii erot useiden tietokategorioiden välillä. Generatiivinen malli poimii eri tietotyyppejä.
Luokitteluongelmissa syrjivät mallit ovat usein muita malleja parempia.
18. Kuvaile tyypin I ja tyypin II virheiden välisiä eroja.
Väärät positiiviset kuuluvat tyypin I virheiden luokkaan, kun taas väärät negatiiviset kuuluvat tyypin II virheiden luokkaan (väitetään, että mitään ei ole tapahtunut, vaikka todellisuudessa on).
19. Mikä on Ensemble-oppimistekniikka koneoppimisessa?
Ensemble learning -tekniikka yhdistää monia koneoppimismalleja tehokkaampien mallien tuottamiseksi.
Mallia voi vaihdella useista syistä. Useita syitä ovat:
- Erilaisia populaatioita
- Erilaisia hypoteeseja
- Erilaisia mallinnusmenetelmiä
Kohtaamme ongelman käyttäessämme mallin koulutus- ja testaustietoja. Bias, varianssi ja redusoitumaton virhe ovat mahdollisia tämän virheen tyyppejä.
Nyt kutsumme tätä tasapainoa harhan ja varianssin välillä mallissa bias-varianssin kompromissiksi, ja sen pitäisi aina olla olemassa. Tämä kompromissi saavutetaan käyttämällä ryhmäoppimista.
Vaikka saatavilla on useita kokonaisratkaisuja, useiden mallien yhdistämiseen on kaksi yleistä strategiaa:
- Natiivi lähestymistapa, jota kutsutaan pussitukseksi, käyttää harjoitussarjaa lisäharjoitussarjojen tuottamiseen.
- Tehostaminen, kehittyneempi tekniikka: Kuten pussitusta, tehostusta käytetään etsimään ihanteellinen painotuskaava harjoitussarjalle.
20. Mitä parametriset mallit tarkalleen ottaen ovat? Anna esimerkki.
Parametrimalleissa on rajoitettu määrä parametreja. Tietojen ennustamiseksi sinun tarvitsee vain tietää mallin parametrit.
Seuraavat ovat tyypillisiä esimerkkejä: logistinen regressio, lineaarinen regressio ja lineaariset SVM:t. Ei-parametriset mallit ovat joustavia, koska ne voivat sisältää rajattoman määrän parametreja.
Mallin parametrit ja havaitun datan tila vaaditaan tietojen ennustamiseen. Tässä on joitain tyypillisiä esimerkkejä: aihemallit, päätöspuut ja k-lähimmät naapurit.
21. Kuvaile yhteistyösuodatusta. Sekä sisältöpohjainen suodatus?
Yhteiskäyttöinen suodatus on hyväksi havaittu tapa luoda räätälöityjä sisältöehdotuksia.
Yhteistyösuodatukseksi kutsuttu suositusjärjestelmä ennustaa uutta materiaalia tasapainottamalla käyttäjien mieltymykset ja yhteiset kiinnostuksen kohteet.
Käyttäjäasetukset ovat ainoa asia, jonka sisältöpohjaiset suosittelujärjestelmät huomioivat. Käyttäjän aikaisempien valintojen valossa aiheeseen liittyvästä materiaalista annetaan uusia suosituksia.
22. Mitä tarkalleen ottaen tarkoitat aikasarjalla?
Aikasarja on kokoelma numeroita nousevassa järjestyksessä. Ennalta määrätyn ajanjakson aikana se tarkkailee valittujen datapisteiden liikettä ja kaappaa ajoittain datapisteet.
Aikasarjoille ei ole asetettu minimi- tai enimmäisaikasyöttöä.
Analyytikot käyttävät usein aikasarjoja analysoidakseen tietoja yksilöllisten vaatimustensa mukaisesti.
23. Kuvaile Gradient Boosting- ja Random Forest -algoritmien vaihtelut.
Satunnainen metsä:
- Suuri määrä päätöspuita yhdistetään lopussa ja tunnetaan satunnaisina metsinä.
- Vaikka gradienttitehostus tuottaa jokaisen puun muista riippumatta, satunnainen metsä rakentaa jokaisen puun yksi kerrallaan.
- Moniluokkainen esineiden havaitseminen toimii hyvin satunnaisten metsien kanssa.
Gradientin tehostaminen:
- Satunnaiset metsät liittyvät päätöspuihin prosessin lopussa, kun taas Gradient Boosting Machines yhdistävät ne alusta alkaen.
- Jos parametrit on säädetty oikein, gradienttitehostus ylittää tulosten suhteen satunnaiset metsät, mutta se ei ole järkevä valinta, jos tietojoukossa on paljon poikkeavuuksia, poikkeavuuksia tai kohinaa, koska se voi aiheuttaa mallin ylikunnon.
- Kun tietoja on epätasapainossa, kuten reaaliaikaisessa riskinarvioinnissa, gradientin tehostaminen toimii hyvin.
24. Miksi tarvitset hämmennysmatriisin? Mikä se on?
Sekaannusmatriisina tunnettua taulukkoa, joka tunnetaan joskus myös virhematriisina, käytetään laajalti osoittamaan, kuinka hyvin luokitusmalli tai luokitin toimii testidatajoukossa, jonka todelliset arvot tunnetaan.
Sen avulla voimme nähdä kuinka malli tai algoritmi toimii. Sen avulla voimme helposti havaita väärinkäsityksiä eri kursseilla.
Se toimii tapana arvioida, kuinka hyvin malli tai algoritmi suoritetaan.
Luokittelumallin ennusteet kootaan sekavuusmatriisiin. Kunkin luokan etiketin laskenta-arvoja käytettiin oikeiden ja väärien ennusteiden kokonaismäärän jakamiseen.
Siinä kerrotaan luokittelijan aiheuttamista vioista sekä luokittimien aiheuttamista erilaisista virheistä.
25. Mitä periaatteellinen komponenttianalyysi tarkalleen ottaen on?
Minimoimalla keskenään korreloivien muuttujien lukumäärä on tavoitteena minimoida tiedonkeruun ulottuvuus. Mutta on tärkeää säilyttää monimuotoisuus mahdollisimman paljon.
Muuttujat muutetaan täysin uudeksi muuttujajoukoksi, joita kutsutaan pääkomponenteiksi.
Nämä PC:t ovat ortogonaalisia, koska ne ovat kovarianssimatriisin ominaisvektoreita.
26. Miksi komponenttien kierto on niin tärkeää PCA:lle (pääkomponenttianalyysi)?
Rotaatio on PCA:ssa ratkaisevan tärkeä, koska se optimoi kunkin komponentin saamien varianssien välisen eron, mikä tekee komponenttien tulkinnasta yksinkertaisempaa.
Vaadimme laajennettuja komponentteja komponenttien vaihtelun ilmaisemiseksi, jos komponentteja ei pyöritetä.
27. Miten regularisointi ja normalisointi eroavat toisistaan?
normalisointi:
Tietoja muutetaan normalisoinnin aikana. Sinun tulee normalisoida tiedot, jos niiden asteikot eroavat huomattavasti, erityisesti matalasta korkeaan. Säädä jokaista saraketta niin, että kaikki perustilastot ovat yhteensopivia.
Tämä voi olla hyödyllistä varmistaaksesi, että tarkkuus ei heikkene. Signaalin havaitseminen kohinaa huomioimatta on yksi mallikoulutuksen tavoitteista.
Yliasennus on mahdollista, jos mallille annetaan täydellinen hallinta virheiden vähentämiseksi.
Laillistaminen:
Regularisoinnissa ennustefunktiota muutetaan. Tätä ohjataan jossain määrin regulaation avulla, mikä suosii yksinkertaisempia sovitustoimintoja monimutkaisempien sijaan.
28. Miten normalisointi ja standardointi eroavat toisistaan?
Kaksi yleisimmin käytettyä ominaisuuden skaalaustekniikkaa ovat normalisointi ja standardointi.
normalisointi:
- Datan uudelleenskaalaamista [0,1]-alueelle sopivaksi kutsutaan normalisoinniksi.
- Kun kaikilla parametreilla on oltava sama positiivinen asteikko, normalisointi on hyödyllistä, mutta tietojoukon poikkeamat menetetään.
Laillistaminen:
- Tiedot skaalataan uudelleen siten, että niiden keskiarvo on 0 ja keskihajonta 1 osana standardointiprosessia (yksikkövarianssi)
29. Mitä "varianssiinflaatiotekijä" tarkalleen ottaen tarkoittaa?
Mallin varianssin suhdetta mallin varianssiin, jossa on vain yksi riippumaton muuttuja, kutsutaan variaatioinflaatiotekijäksi (VIF).
VIF arvioi useiden regressiomuuttujien joukossa esiintyvän multikollineaarisuuden määrän.
Mallin varianssi (VIF) Malli yhdellä riippumattomalla muuttujalla
30. Miten valitset luokituksen harjoitussarjan koon perusteella?
Suuri harha ja pieni varianssi -malli toimii paremmin lyhyessä harjoitussarjassa, koska ylisovitus on vähemmän todennäköistä. Naive Bayes on yksi esimerkki.
Monimutkaisempien vuorovaikutusten esittämiseksi suurelle harjoitusjoukolle malli, jossa on pieni bias ja suuri varianssi, on parempi. Logistinen regressio on hyvä esimerkki.
31. Mitä koneoppimisalgoritmia kutsutaan "laiskaksi oppijaksi" ja miksi?
Hidas oppija, KNN on koneoppimisalgoritmi. Koska K-NN laskee dynaamisesti etäisyyden joka kerta, kun se haluaa luokitella sen sijaan, että oppisi mitään koneoppittuja arvoja tai muuttujia harjoitustiedoista, se muistaa harjoitustietojoukon.
Tämä tekee K-NN:stä laiskan oppijan.
32. Mitä ovat ROC-käyrä ja AUC?
Luokitusmallin suorituskyky kaikilla kynnysarvoilla esitetään graafisesti ROC-käyrällä. Sillä on todellisen positiivisen prosentin ja väärän positiivisuuden kriteerit.
Yksinkertaisesti sanottuna ROC-käyrän alla oleva alue tunnetaan nimellä AUC (Area Under the ROC Curve). ROC-käyrän kaksiulotteinen alue (0,0) - AUC mitataan (1,1). Binääristen luokitusmallien arvioinnissa sitä käytetään suorituskykytilastoina.
33. Mitä ovat hyperparametrit? Mikä tekee niistä ainutlaatuisia malliparametreista?
Mallin sisäinen muuttuja tunnetaan malliparametrina. Harjoitusdataa hyödyntäen parametrin arvo on likimääräinen.
Mallille tuntematon hyperparametri on muuttuja. Arvoa ei voida määrittää tiedoista, joten niitä käytetään usein malliparametrien laskemiseen.
34. Mitä F1-pisteet, muistaminen ja tarkkuus tarkoittaa?
Hämmennysmittari on mittari, jota käytetään luokitusmallin tehokkuuden mittaamiseen. Seuraavia lauseita voidaan käyttää selittämään paremmin hämmennysmittaria:
TP: True Positives – Nämä ovat positiivisia arvoja, jotka ennakoitiin oikein. Se viittaa siihen, että ennustetun luokan ja todellisen luokan arvot ovat molemmat positiivisia.
TN: True Negatives – Nämä ovat haitallisia arvoja, jotka ennustettiin tarkasti. Se viittaa siihen, että sekä todellisen luokan että odotetun luokan arvo ovat negatiivisia.
Nämä arvot – vääriä positiivisia ja vääriä negatiivisia – syntyvät, kun todellinen luokkasi eroaa odotetusta luokasta.
Nyt,
Todellisen positiivisen määrän (TP) suhdetta kaikkiin varsinaisessa luokassa tehtyihin havaintoihin kutsutaan muistutukseksi, joka tunnetaan myös herkkyydeksi.
Palautus on TP/(TP+FN).
Tarkkuus on positiivisen ennustusarvon mitta, joka vertaa mallin todella ennustamien positiivisten lukumäärää siihen, kuinka monta oikeaa positiivista se ennustaa tarkasti.
Tarkkuus on TP/(TP + FP)
Helpoin ymmärtää suorituskykymittari on tarkkuus, joka on vain oikein ennustettujen havaintojen osuus kaikista havainnoista.
Tarkkuus on yhtä suuri kuin (TP+TN)/(TP+FP+FN+TN).
Precision ja Recall painotetaan ja lasketaan keskiarvo F1-pisteen saamiseksi. Tämän seurauksena tämä pistemäärä ottaa huomioon sekä väärät positiiviset että väärät negatiiviset.
F1 on usein arvokkaampi kuin tarkkuus, varsinkin jos luokkajakauma on epätasainen, vaikka se ei olekaan intuitiivisesti niin yksinkertaista ymmärtää kuin tarkkuus.
Paras tarkkuus saavutetaan, kun väärien positiivisten ja väärien negatiivisten hinta on vertailukelpoinen. On suositeltavaa sisällyttää sekä Precision että Recall, jos vääriin positiivisiin ja vääriin negatiivisiin liittyvät kustannukset eroavat merkittävästi.
35. Mitä ristiinvalidointi tarkalleen ottaen on?
Tilastollinen uudelleennäytteenottomenetelmä, jota kutsutaan ristiinvalidaatioksi koneoppimisessa, käyttää useita tietojoukon osajoukkoja koneoppimisalgoritmin kouluttamiseen ja arviointiin useiden kierrosten aikana.
Uusi tietoerä, jota ei käytetty mallin kouluttamiseen, testataan ristiinvalidoinnin avulla, jotta nähdään, kuinka hyvin malli ennustaa sen. Tietojen ylisovittaminen estetään ristiinvalidoinnin avulla.
K-Fold Yleisimmin käytetty uudelleennäytteenottomenetelmä jakaa koko tietojoukon K:ksi samankokoiseksi joukoksi. Sitä kutsutaan ristiinvalidaatioksi.
36. Oletetaan, että huomasit, että mallissasi on merkittävä varianssi. Mikä algoritmi mielestäsi soveltuu parhaiten käsittelemään tätä tilannetta?
Suuren vaihtelun hallinta
Meidän tulisi käyttää pussitekniikkaa ongelmiin, joissa on suuria vaihteluita.
Säkitysalgoritmi käyttäisi satunnaisten tietojen toistuvaa näytteenottoa tietojen jakamiseen alaryhmiin. Kun tiedot on jaettu, voimme käyttää satunnaista dataa ja erityistä harjoitusmenettelyä sääntöjen luomiseen.
Sen jälkeen mallin ennusteita voitaisiin yhdistää kyselyn avulla.
37. Mikä erottaa Ridge-regression Lasso-regressiosta?
Kaksi yleisesti käytettyä regularisointimenetelmää ovat Lasso (kutsutaan myös L1) ja Ridge (joskus kutsutaan L2) regressio. Niitä käytetään estämään tietojen ylisovitus.
Parhaan ratkaisun löytämiseksi ja monimutkaisuuden minimoimiseksi näitä tekniikoita käytetään kertoimien rankaisemiseen. Rangaistamalla kertoimien absoluuttisten arvojen summaa, Lasso-regressio toimii.
Ridge- tai L2-regression rangaistusfunktio johdetaan kertoimien neliöiden summasta.
38. Kumpi on tärkeämpää: mallin suorituskyky vai mallin tarkkuus? Kumpaa ja miksi suosit sitä?
Tämä on harhaanjohtava kysymys, joten ensin pitäisi ymmärtää, mitä Model Performance on. Jos suorituskyky määritellään nopeudeksi, se riippuu sovelluksen tyypistä; mikä tahansa sovellus, johon liittyy reaaliaikainen tilanne, vaatisi suuren nopeuden ratkaisevana komponenttina.
Esimerkiksi parhaista hakutuloksista tulee vähemmän arvokkaita, jos kyselyn tulosten saapuminen kestää liian kauan.
Jos suorituskykyä käytetään perusteluna sille, miksi tarkkuus ja muistaminen on asetettava etusijalle tarkkuuden edelle, F1-pisteet ovat hyödyllisempiä kuin tarkkuus havainnollistamaan liiketoimintaa, kun tietojoukko on epätasapainoinen.
39. Kuinka hallitsisit tietojoukkoa, jossa on epäyhtälöitä?
Epätasapainoinen tietojoukko voi hyötyä näytteenottotekniikoista. Näytteenotto voidaan tehdä joko ali- tai ylinäytteenotolla.
Under Sampling mahdollistaa enemmistöluokan koon pienentämisen vastaamaan vähemmistöluokkaa, mikä auttaa lisäämään tallennusnopeutta ja ajonaikaista suoritusta, mutta voi myös johtaa arvokkaan tiedon menettämiseen.
Korjataksemme ylinäytteenotosta aiheutuvan tiedon menetyksen ongelman, otannamme ylös Minority-luokan; tästä huolimatta joudumme ylisovitusongelmiin.
Muita strategioita ovat:
- Cluster-Based Over Sampling - Vähemmistö- ja enemmistöluokan ilmentymät alistetaan yksittäin K-means-klusterointitekniikalle tässä tilanteessa. Tämä tehdään tietojoukkoklustereiden etsimiseksi. Sitten jokainen klusteri ylinäytteistetään niin, että kaikilla luokilla on sama koko ja kaikilla luokan klustereilla on yhtä monta esiintymää.
- SMOTE: Synthetic Minority Over-sampling Technique - Esimerkkinä käytetään siivua vähemmistöluokan tiedoista, jonka jälkeen tuotetaan ja lisätään alkuperäiseen tietojoukkoon muita siihen verrattavia keinotekoisia ilmentymiä. Tämä menetelmä toimii hyvin numeeristen datapisteiden kanssa.
40. Kuinka voit erottaa tehostuksen ja pussituksen?
Ensemble Techniquesillä on versiot, jotka tunnetaan nimellä puskiminen ja tehostaminen.
pussitus-
Algoritmeille, joilla on suuri vaihtelu, pussittaminen on tekniikka, jota käytetään varianssin pienentämiseen. Yksi tällainen luokitteluperhe, joka on altis harhaan, on päätöspuuperhe.
Tietotyypeillä, joihin päätöspuita koulutetaan, on merkittävä vaikutus niiden suorituskykyyn. Tästä johtuen, jopa erittäin suurella hienosäädöllä, tulosten yleistäminen on joskus paljon vaikeampaa saavuttaa niissä.
Jos päätöspuiden harjoitustietoja muutetaan, tulokset vaihtelevat huomattavasti.
Tämän seurauksena käytetään pussitusta, jossa luodaan useita päätöspuita, joista jokainen on opetettu käyttämällä otosta alkuperäisestä tiedosta, ja lopputuloksena on kaikkien näiden eri mallien keskiarvo.
Tehostaminen:
Tehostaminen on tekniikka ennusteiden tekemiseksi n-heikon luokittelujärjestelmän avulla, jossa jokainen heikko luokitin kompensoi vahvempien luokittimiensa puutteet. Kutsumme luokittelijaa, joka toimii huonosti tietyssä tietojoukossa, "heikkona luokittelijana".
Tehostaminen on ilmeisesti pikemminkin prosessi kuin algoritmi. Logistinen regressio ja matalat päätöspuut ovat yleisiä esimerkkejä heikkoista luokittelijoista.
Adaboost, Gradient Boosting ja XGBoost ovat kaksi suosituinta tehostusalgoritmia, mutta niitä on monia muitakin.
41. Selitä erot induktiivisen ja deduktiivisen oppimisen välillä.
Kun malli oppii esimerkin avulla havaittujen esimerkkien joukosta, malli käyttää induktiivista oppimista yleisen johtopäätöksen tekemiseen. Toisaalta deduktiivisessa oppimisessa malli käyttää tulosta ennen kuin muodostaa oman.
Induktiivinen oppiminen on prosessi, jossa havainnoista tehdään johtopäätöksiä.
Deduktiivinen oppiminen on prosessi, jossa luodaan havaintoja päätelmien perusteella.
Yhteenveto
Onnittelut! Nämä ovat 40 parasta koneoppimisen haastattelukysymystä, joihin tiedät nyt vastaukset. Datatiede ja tekoäly ammatit ovat edelleen kysyttyjä tekniikan kehittyessä.
Hakijat, jotka päivittävät tietämystään näistä huipputeknologioista ja parantavat osaamistaan, voivat löytää laajan valikoiman työmahdollisuuksia kilpailukykyisellä palkalla.
Voit jatkaa haastatteluihin vastaamista nyt, kun sinulla on vankka käsitys siitä, kuinka vastata joihinkin laajalti kysyttyihin koneoppimishaastattelukysymyksiin.
Tee seuraava vaihe tavoitteistasi riippuen. Valmistaudu haastatteluihin käymällä Hashdork'sissa Haastattelusarja.
Jätä vastaus