INHOUDSOPGAWE[Versteek][Wys]
- 1. Verduidelik die verskille tussen masjienleer, kunsmatige intelligensie en diep leer.
- 2. Beskryf asseblief die verskillende tipes masjienleer.
- 3. Wat is die afwyking van vooroordeel teenoor afwyking?
- 4. Masjienleeralgoritmes het mettertyd aansienlik ontwikkel. Hoe kies 'n mens die regte algoritme om gegewe 'n datastel te gebruik?
- 5. Hoe verskil kovariansie en korrelasie?
- 6. Wat beteken groepering in masjienleer?
- 7. Wat is jou voorkeurmasjienleeralgoritme?
- 8. Lineêre regressie in masjienleer: wat is dit?
- 9. Beskryf die verskille tussen KNN en k-beteken groepering.
- 10. Wat beteken "seleksie-vooroordeel" vir jou?
- 11. Wat presies is Bayes se Stelling?
- 12. In 'n Masjienleermodel, wat is 'opleidingstel' en 'toetsstel'?
- 13. Wat is 'n hipotese in masjienleer?
- 14. Wat beteken masjienleer ooraanpassing, en hoe kan dit voorkom word?
- 15. Wat presies is Naïewe Bayes-klassifiseerders?
- 16. Wat beteken Kostefunksies en Verliesfunksies?
- 17. Wat onderskei 'n generatiewe model van 'n diskriminerende model?
- 18. Beskryf die variasies tussen Tipe I en Tipe II foute.
- 19. Wat is die Ensemble-leertegniek in masjienleer?
- 20. Wat presies is parametriese modelle? Gee 'n voorbeeld.
- 21. Beskryf samewerkende filtering. Sowel as inhoud-gebaseerde filtering?
- 22. Wat presies bedoel jy met die Tydreeks?
- 23. Beskryf die variasies tussen die Gradient Boosting en Random Forest algoritmes.
- 24. Hoekom het jy 'n verwarringsmatriks nodig? Wat is dit?
- 25. Wat presies is 'n beginselkomponent-analise?
- 26. Waarom is komponentrotasie so belangrik vir PCA (hoofkomponentanalise)?
- 27. Hoe verskil regularisering en normalisering van mekaar?
- 28. Hoe verskil normalisering en standaardisering van mekaar?
- 29. Wat presies beteken "variansie-inflasiefaktor"?
- 30. Op grond van die grootte van die opleidingstel, hoe kies jy 'n klassifiseerder?
- 31. Na watter algoritme in masjienleer word verwys as die "lui leerder" en hoekom?
- 32. Wat is die ROC Curve en AUC?
- 33. Wat is hiperparameters? Wat maak hulle uniek van die modelparameters?
- 34. Wat beteken F1-telling, herroeping en akkuraatheid?
- 35. Wat presies is kruisvalidering?
- 36. Kom ons sê jy het ontdek dat jou model 'n beduidende afwyking het. Watter algoritme is volgens jou die geskikste om hierdie situasie te hanteer?
- 37. Wat onderskei Ridge-regressie van Lasso-regressie?
- 38. Wat is die belangrikste: modelprestasie of modelakkuraatheid? Watter een en hoekom sal jy dit bevoordeel?
- 39. Hoe sal jy 'n datastel met ongelykhede bestuur?
- 40. Hoe kan jy onderskei tussen versterking en sakke?
- 41. Verduidelik die verskille tussen induktiewe en deduktiewe leer.
- Gevolgtrekking
Besighede gebruik die nuutste tegnologie, soos kunsmatige intelligensie (KI) en masjienleer, om die toeganklikheid van inligting en dienste aan individue te verhoog.
Hierdie tegnologieë word aangeneem deur 'n verskeidenheid nywerhede, insluitend bankwese, finansies, kleinhandel, vervaardiging en gesondheidsorg.
Een van die mees gesogte organisatoriese rolle wat KI gebruik, is vir datawetenskaplikes, kunsmatige intelligensie-ingenieurs, masjienleer-ingenieurs en data-ontleders.
Hierdie pos sal jou deur 'n verskeidenheid van machine learning onderhoudvrae, van basies tot kompleks, om jou te help om gereed te maak vir enige vrae wat jy gevra kan word wanneer jy jou ideale werk soek.
1. Verduidelik die verskille tussen masjienleer, kunsmatige intelligensie en diep leer.
Kunsmatige intelligensie gebruik 'n verskeidenheid masjienleer- en diepleerbenaderings wat rekenaarstelsels toelaat om take uit te voer deur menslike intelligensie met logika en reëls te gebruik.
Masjienleer gebruik 'n verskeidenheid statistieke en diepleerbenaderings om masjiene in staat te stel om uit hul vorige prestasie te leer en meer bedrewe te word om sekere take op hul eie te doen sonder menslike toesig.
Deep Learning is 'n versameling algoritmes wat die sagteware toelaat om van homself te leer en 'n verskeidenheid kommersiële funksies uit te voer, soos stem- en prentherkenning.
Stelsels wat hul meerlaagse blootstel neurale netwerke tot groot hoeveelhede data vir leer in staat is om diep leer te doen.
2. Beskryf asseblief die verskillende tipes masjienleer.
Masjienleer bestaan breedweg in drie verskillende tipes:
- Leer onder toesig: 'n Model skep voorspellings of oordele deur gebruik te maak van benoemde of historiese data in masjienleer onder toesig. Datastelle wat gemerk of geëtiketteer is om hul betekenis te verhoog, word na verwys as gemerkte data.
- Leer sonder toesig: Ons het nie gemerkte data vir leer sonder toesig nie. In die inkomende data kan 'n model patrone, eienaardighede en korrelasies vind.
- Versterkingsleer: Die model kan leer deur versterking te gebruik leer en die belonings wat dit gekry het vir sy vorige gedrag.
3. Wat is die afwyking van vooroordeel teenoor afwyking?
Oorpassing is 'n gevolg van vooroordeel, wat die mate is waarin 'n model by die data pas. Vooroordeel word veroorsaak deur verkeerde of te eenvoudige aannames in jou masjienleer-algoritme.
Variansie verwys na foute wat veroorsaak word deur kompleksiteit in jou ML-algoritme, wat sensitiwiteit vir groot grade van variansie in opleidingsdata en ooraanpassing veroorsaak.
Variansie is hoeveel 'n model wissel afhangende van insette.
Met ander woorde, basiese modelle is uiters bevooroordeeld dog stabiel (lae variansie). Oorpassing is 'n probleem met komplekse modelle, hoewel dit nietemin die model se realiteit vasvang (lae vooroordeel).
Om beide hoë variasie en hoë vooroordeel te voorkom, is 'n afweging tussen vooroordeel en variansie nodig vir die beste foutvermindering.
4. Masjienleeralgoritmes het mettertyd aansienlik ontwikkel. Hoe kies 'n mens die regte algoritme om gegewe 'n datastel te gebruik?
Die masjienleertegniek wat gebruik moet word hang slegs af van die soort data in 'n spesifieke datastel.
Wanneer data lineêr is, word lineêre regressie gebruik. Die sakpakmetode sal beter presteer as data nie-lineariteit aandui. Ons kan besluitbome of SVM gebruik indien die data vir kommersiële doeleindes geëvalueer of geïnterpreteer moet word.
Neurale netwerke kan nuttig wees om 'n akkurate antwoord te kry as die datastel foto's, video's en oudio insluit.
Die keuse van algoritme vir 'n spesifieke omstandigheid of versameling van data kan nie net op 'n enkele maatstaf gemaak word nie.
Vir die doel om die beste geskikte metode te ontwikkel, moet ons eers die data ondersoek deur gebruik te maak van verkennende data-analise (EDA) en die doelwit van die gebruik van die datastel begryp.
5. Hoe verskil kovariansie en korrelasie?
Kovariansie evalueer hoe twee veranderlikes met mekaar verbind is en hoe een kan verander in reaksie op veranderinge in die ander.
As die resultaat positief is, dui dit aan dat daar 'n direkte verband tussen die veranderlikes is en dat 'n mens sal styg of daal met 'n toename of afname in die basisveranderlike, met die veronderstelling dat alle ander toestande konstant bly.
Korrelasie meet die skakel tussen twee ewekansige veranderlikes en het slegs drie afsonderlike waardes: 1, 0 en -1.
6. Wat beteken groepering in masjienleer?
Leermetodes sonder toesig wat datapunte saam groepeer, word groepering genoem. Met 'n versameling datapunte kan die groeperingstegniek toegepas word.
U kan al die datapunte volgens hul funksies groepeer deur hierdie strategie te gebruik.
Die kenmerke en kwaliteite van die datapunte wat in dieselfde kategorie val is soortgelyk, terwyl dié van die datapunte wat in afsonderlike groeperings val verskil.
Hierdie benadering kan gebruik word om statistiese data te ontleed.
7. Wat is jou voorkeurmasjienleeralgoritme?
Jy het die kans om jou voorkeure en unieke talente in hierdie vraag te demonstreer, asook jou omvattende kennis van talle masjienleertegnieke.
Hier is 'n paar tipiese masjienleeralgoritmes om oor na te dink:
- Lineêre regressie
- Logistieke regressie
- Naïewe Bayes
- Besluitbome
- K beteken
- Willekeurige woud-algoritme
- K-naaste buurman (KNN)
8. Lineêre regressie in masjienleer: wat is dit?
'n Masjienleeralgoritme wat onder toesig is, is lineêre regressie.
Dit word in voorspellende analise aangewend om die lineêre verband tussen die afhanklike en onafhanklike veranderlikes te bepaal.
Lineêre regressie se vergelyking is soos volg:
Y = A + BX
waar:
- Die inset of onafhanklike veranderlike word X genoem.
- Die afhanklike of uitsetveranderlike is Y.
- X se koëffisiënt is b, en sy snysnit is a.
9. Beskryf die verskille tussen KNN en k-beteken groepering.
Die primêre onderskeid is dat KNN ('n klassifikasiemetode, leer onder toesig) benoemde punte benodig, terwyl k-beteken dit nie doen nie (groeperingsalgoritme, leer sonder toesig).
Jy kan gemerkte data in 'n ongemerkte punt klassifiseer deur K-Naaste bure te gebruik. K-beteken groepering gebruik die gemiddelde afstand tussen punte om te leer hoe om ongemerkte punte te groepeer.
10. Wat beteken "seleksie-vooroordeel" vir jou?
Die vooroordeel in 'n eksperiment se steekproeffase is as gevolg van statistiese onakkuraatheid.
Een steekproefgroep word meer gereeld as die ander groepe in die eksperiment gekies as gevolg van die onakkuraatheid.
As die seleksievooroordeel nie erken word nie, kan dit lei tot 'n verkeerde gevolgtrekking.
11. Wat presies is Bayes se Stelling?
Wanneer ons bewus is van ander waarskynlikhede, kan ons 'n waarskynlikheid bepaal deur Bayes se Stelling te gebruik. Dit bied die posterior waarskynlikheid van 'n gebeurtenis gebaseer op vorige inligting, met ander woorde.
'n Goeie metode vir die skatting van voorwaardelike waarskynlikhede word deur hierdie stelling verskaf.
Wanneer klassifikasie voorspellingsmodelleringsprobleme ontwikkel en 'n model by 'n opleiding pas datastel in masjienleer, Bayes se stelling word toegepas (dws Naïef Bayes, Bayes Optimal Classifier).
12. In 'n Masjienleermodel, wat is 'opleidingstel' en 'toetsstel'?
Opleiding stel:
- Die opleidingstel bestaan uit gevalle wat na die model gestuur word vir ontleding en leer.
- Dit is die benoemde data wat gebruik sal word om die model op te lei.
- Tipies word 70% van die totale data as die opleidingdatastel gebruik.
Toetsstel:
- Die toetsstel word gebruik om die model se hipotese generering akkuraatheid te assesseer.
- Ons toets sonder gemerkte data en gebruik dan etikette om die resultate te bevestig.
- Die oorblywende 30% word as 'n toetsdatastel gebruik.
13. Wat is 'n hipotese in masjienleer?
Masjienleer maak die gebruik van bestaande datastelle moontlik om 'n gegewe funksie wat insette aan uitset koppel, beter te verstaan. Dit staan bekend as funksiebenadering.
In hierdie geval moet benadering aangewend word vir die onbekende teikenfunksie om alle denkbare waarnemings gebaseer op die gegewe situasie op die beste manier moontlik oor te dra.
In masjienleer is 'n hipotese 'n model wat help met die skatting van die teikenfunksie en die voltooiing van die toepaslike inset-tot-uitset-afbeeldings.
Die keuse en ontwerp van algoritmes maak voorsiening vir die definisie van die ruimte van moontlike hipoteses wat deur 'n model voorgestel kan word.
Vir 'n enkele hipotese word kleinletter h (h) gebruik, maar hoofletter h (H) word gebruik vir die hele hipoteseruimte wat gesoek word. Ons sal hierdie notasies kortliks hersien:
- 'n Hipotese (h) is 'n spesifieke model wat die kartering van insette na uitset fasiliteer, wat vervolgens vir evaluering en voorspelling gebruik kan word.
- 'n Hipoteseversameling (H) is 'n soekbare ruimte van hipoteses wat gebruik kan word om insette na uitsette te karteer. Kwessieraamwerk, model en modelkonfigurasie is 'n paar voorbeelde van generiese beperkings.
14. Wat beteken masjienleer ooraanpassing, en hoe kan dit voorkom word?
Wanneer 'n masjien probeer om uit 'n onvoldoende datastel te leer, vind oorpassing plaas.
As gevolg hiervan is oorpassing omgekeerd gekorreleer met datavolume. Die kruisvalideringsbenadering laat toe dat oorpassing vir klein datastelle vermy word. 'n Datastel word in hierdie metode in twee dele verdeel.
Die datastel vir toetsing en opleiding sal uit hierdie twee dele bestaan. Die opleidingdatastel word gebruik om 'n model te skep, terwyl die toetsdatastel gebruik word om die model te evalueer deur verskillende insette te gebruik.
Dit is hoe om oorpas te voorkom.
15. Wat presies is Naïewe Bayes-klassifiseerders?
Verskeie klassifikasiemetodes maak die Naive Bayes-klassifiseerders uit. 'n Stel algoritmes bekend as hierdie klassifiseerders werk almal op dieselfde fundamentele idee.
Die aanname wat deur naïewe Bayes-klassifiseerders gemaak word, is dat een kenmerk se teenwoordigheid of afwesigheid geen invloed het op die teenwoordigheid of afwesigheid van 'n ander kenmerk nie.
Met ander woorde, dit is waarna ons verwys as "naïef" aangesien dit die aanname maak dat elke datastelkenmerk ewe betekenisvol en onafhanklik is.
Klassifikasie word gedoen met behulp van naïewe Bayes-klassifiseerders. Hulle is eenvoudig om te gebruik en lewer beter resultate as meer komplekse voorspellers wanneer die onafhanklikheidsuitgangspunt waar is.
In teksanalise, strooiposfiltrering en aanbevelingstelsels word hulle gebruik.
16. Wat beteken Kostefunksies en Verliesfunksies?
Die frase "verliesfunksie" verwys na die proses van rekenaarverlies wanneer net een stuk data in ag geneem word.
Daarteenoor gebruik ons die kostefunksie om die totale aantal foute vir talle data te bepaal. Geen noemenswaardige onderskeid bestaan nie.
Met ander woorde, terwyl kostefunksies die verskil vir die hele opleidingsdatastel saamvoeg, is verliesfunksies ontwerp om die verskil tussen die werklike en voorspelde waardes vir 'n enkele rekord vas te lê.
17. Wat onderskei 'n generatiewe model van 'n diskriminerende model?
'n Diskriminerende model leer die verskille tussen verskeie datakategorieë. 'n Generatiewe model tel verskillende datatipes op.
Wat klassifikasieprobleme betref, presteer diskriminerende modelle dikwels beter as ander modelle.
18. Beskryf die variasies tussen Tipe I en Tipe II foute.
Vals positiewes val onder die kategorie van Tipe I foute, terwyl vals negatiewe onder Tipe II foute val (wat beweer dat niks gebeur het terwyl dit werklik gebeur het nie).
19. Wat is die Ensemble-leertegniek in masjienleer?
'n Tegniek genaamd ensemble learning meng baie masjienleermodelle om kragtiger modelle te produseer.
'n Model kan om 'n verskeidenheid redes gevarieer word. Verskeie oorsake is:
- Verskeie Bevolkings
- Verskeie hipoteses
- Verskeie modelleringsmetodes
Ons sal 'n probleem teëkom terwyl ons die model se opleiding- en toetsdata gebruik. Vooroordeel, variansie en onherleibare fout is moontlike tipes van hierdie fout.
Nou noem ons hierdie balans tussen vooroordeel en variansie in die model 'n vooroordeel-variansie-afruiling, en dit moet altyd bestaan. Hierdie afweging word bewerkstellig deur die gebruik van ensembleleer.
Alhoewel daar verskeie ensemblebenaderings beskikbaar is, is daar twee algemene strategieë om baie modelle te kombineer:
- 'n Inheemse benadering genaamd bagging gebruik die opleidingstel om bykomende opleidingsstelle te produseer.
- Versterking, 'n meer gesofistikeerde tegniek: Net soos sakpak, word versterking gebruik om die ideale gewigsformule vir 'n oefenstel te vind.
20. Wat presies is parametriese modelle? Gee 'n voorbeeld.
Daar is 'n beperkte aantal parameters in parametriese modelle. Om data te voorspel, is al wat jy moet weet die model se parameters.
Die volgende is tipiese voorbeelde: logistiese regressie, lineêre regressie en lineêre SVM's. Nie-parametriese modelle is buigsaam aangesien hulle 'n onbeperkte aantal parameters kan bevat.
Die model se parameters en die status van die waargenome data word vereis vir datavoorspellings. Hier is 'n paar tipiese voorbeelde: onderwerp modelle, besluit bome, en k-naaste bure.
21. Beskryf samewerkende filtering. Sowel as inhoud-gebaseerde filtering?
'n Beproefde metode om pasgemaakte inhoudvoorstelle te skep, is samewerkende filtering.
'n Vorm van aanbevelingstelsel genaamd samewerkende filtering voorspel vars materiaal deur gebruikervoorkeure met gedeelde belangstellings te balanseer.
Gebruikersvoorkeure is die enigste ding wat inhoudgebaseerde aanbevelingstelsels oorweeg. In die lig van die gebruiker se vorige keuses, word nuwe aanbevelings uit verwante materiaal verskaf.
22. Wat presies bedoel jy met die Tydreeks?
'n Tydreeks is 'n versameling getalle in stygende volgorde. Oor 'n voorafbepaalde tydperk monitor dit die beweging van die geselekteerde datapunte en vang die datapunte periodiek vas.
Daar is geen minimum of maksimum tydinvoer vir tydreekse nie.
Tydreekse word gereeld deur ontleders gebruik om data in ooreenstemming met hul unieke vereistes te ontleed.
23. Beskryf die variasies tussen die Gradient Boosting en Random Forest algoritmes.
Random Forest:
- 'n Groot aantal besluitbome word aan die einde saamgevoeg en staan bekend as willekeurige woude.
- Terwyl gradiëntversterking elke boom onafhanklik van die ander produseer, bou ewekansige woud elke boom een op 'n slag.
- Multiklas objekopsporing werk goed met willekeurige woude.
Gradiëntversterking:
- Terwyl Willekeurige woude aansluit by besluitnemingsbome aan die einde van die proses, kombineer Gradient Boosting Machines hulle van die begin af.
- As parameters toepaslik aangepas word, presteer gradiëntversterking beter as willekeurige woude in terme van resultate, maar dit is nie 'n slim keuse as die datastel baie uitskieters, afwykings of geraas het nie, aangesien dit kan veroorsaak dat die model oorfiks raak.
- Wanneer daar ongebalanseerde data is, soos daar in intydse risikobepaling is, presteer gradiëntversterking goed.
24. Hoekom het jy 'n verwarringsmatriks nodig? Wat is dit?
'n Tabel bekend as die verwarringsmatriks, soms bekend as die foutmatriks, word wyd gebruik om te wys hoe goed 'n klassifikasiemodel, of klassifiseerder, presteer op 'n stel toetsdata waarvoor die werklike waardes bekend is.
Dit stel ons in staat om te sien hoe 'n model of algoritme presteer. Dit maak dit vir ons maklik om misverstande tussen verskeie kursusse raak te sien.
Dit dien as 'n manier om te evalueer hoe goed 'n model of algoritme uitgevoer word.
'n Klassifikasiemodel se voorspellings word in 'n verwarringsmatriks saamgestel. Elke klasetiket se telwaardes is gebruik om die totale aantal korrekte en verkeerde voorspellings af te breek.
Dit verskaf besonderhede oor die foute wat deur die klassifiseerder gemaak word, sowel as die verskillende soorte foute wat deur klassifiseerders veroorsaak word.
25. Wat presies is 'n beginselkomponent-analise?
Deur die aantal veranderlikes wat met mekaar gekorreleer is te minimaliseer, is die doel om die dimensionaliteit van die data-insameling te minimaliseer. Maar dit is belangrik om die diversiteit soveel as moontlik te behou.
Die veranderlikes word verander in 'n heeltemal nuwe stel veranderlikes wat hoofkomponente genoem word.
Hierdie PC's is ortogonaal aangesien hulle 'n kovariansiematriks se eievektore is.
26. Waarom is komponentrotasie so belangrik vir PCA (hoofkomponentanalise)?
Rotasie is van kardinale belang in PCA omdat dit die skeiding tussen die afwykings wat deur elke komponent verkry word, optimaliseer, wat komponentinterpretasie eenvoudiger maak.
Ons benodig uitgebreide komponente om komponentvariasie uit te druk as die komponente nie geroteer word nie.
27. Hoe verskil regularisering en normalisering van mekaar?
normalisering:
Data word tydens normalisering verander. Jy moet die data normaliseer as dit skale het wat drasties verskil, veral van laag na hoog. Pas elke kolom aan sodat die fundamentele statistieke almal versoenbaar is.
Om te verseker dat daar geen verlies aan presisie is nie, kan dit nuttig wees. Om die sein op te spoor terwyl die geraas geïgnoreer word, is een van die doelwitte van modelopleiding.
Daar is 'n kans op oorpassing as die model volle beheer kry om foute te verminder.
Regulering:
In regularisering word die voorspellingsfunksie gewysig. Dit is onderhewig aan 'n mate van beheer deur regularisering, wat eenvoudiger pasfunksies bo ingewikkelde bevoordeel.
28. Hoe verskil normalisering en standaardisering van mekaar?
Die twee mees gebruikte tegnieke vir kenmerkskaal is normalisering en standaardisering.
normalisering:
- Om die data te herskaal om by 'n [0,1]-reeks te pas, staan bekend as normalisering.
- Wanneer alle parameters dieselfde positiewe skaal moet hê, is normalisering nuttig, maar die datastel se uitskieters gaan verlore.
Regulering:
- Data word herskaal om 'n gemiddeld van 0 en 'n standaardafwyking van 1 te hê as deel van die standaardiseringsproses (Eenheidsafwyking)
29. Wat presies beteken "variansie-inflasiefaktor"?
Die verhouding van die model se variansie tot die variansie van die model met slegs een onafhanklike veranderlike staan bekend as die variasie-inflasiefaktor (VIF).
VIF skat die hoeveelheid multikollineariteit teenwoordig in 'n stel van verskeie regressieveranderlikes.
Variansie van die model (VIF) Model met een onafhanklike veranderlike variansie
30. Op grond van die grootte van die opleidingstel, hoe kies jy 'n klassifiseerder?
'n Hoë vooroordeel, lae variansie-model presteer beter vir 'n kort oefenstel aangesien oorpas minder waarskynlik is. Naïewe Bayes is een voorbeeld.
Om meer ingewikkelde interaksies vir 'n groot opleidingstel voor te stel, is 'n model met lae vooroordeel en hoë variansie verkieslik. Logistiese regressie is 'n goeie voorbeeld.
31. Na watter algoritme in masjienleer word verwys as die "lui leerder" en hoekom?
'n Trae leerder, KNN is 'n masjienleeralgoritme. Omdat K-NN afstand dinamies bereken elke keer as dit wil klassifiseer in plaas daarvan om enige masjiengeleerde waardes of veranderlikes uit die opleidingsdata te leer, memoriseer dit die opleidingdatastel.
Dit maak van K-NN 'n lui leerder.
32. Wat is die ROC Curve en AUC?
Die prestasie van 'n klassifikasiemodel by alle drempels word grafies deur die ROC-kromme voorgestel. Dit het ware positiewe koers en vals positiewe koers kriteria.
Eenvoudig gestel, die area onder die ROC-kromme staan bekend as AUC (Area Under the ROC Curve). Die ROC-kromme se tweedimensionele area van (0,0) tot AUC word gemeet (1,1). Vir die beoordeling van binêre klassifikasiemodelle word dit as 'n prestasiestatistiek gebruik.
33. Wat is hiperparameters? Wat maak hulle uniek van die modelparameters?
'n Interne veranderlike van die model staan bekend as 'n modelparameter. Deur opleidingsdata te gebruik, word 'n parameter se waarde benader.
Onbekend aan die model, 'n hiperparameter is 'n veranderlike. Die waarde kan nie uit data bepaal word nie, daarom word hulle gereeld gebruik om modelparameters te bereken.
34. Wat beteken F1-telling, herroeping en akkuraatheid?
Die verwarringsmaatstaf is die maatstaf wat gebruik word om die doeltreffendheid van die klassifikasiemodel te bepaal. Die volgende frases kan gebruik word om die verwarringsmetriek beter te verduidelik:
TP: Ware Positiewe – Dit is die positiewe waardes wat behoorlik verwag is. Dit dui daarop dat die waardes van die geprojekteerde klas en die werklike klas beide positief is.
TN: Ware negatiewe - Dit is die nadelige waardes wat akkuraat voorspel is. Dit dui daarop dat beide die waarde van die werklike klas en die verwagte klas negatief is.
Hierdie waardes - vals positiewe en vals negatiewe - kom voor wanneer jou werklike klas verskil van die verwagte klas.
Nou,
Die verhouding van die ware positiewe koers (TP) tot alle waarnemings wat in die werklike klas gemaak word, word herroep genoem, ook bekend as sensitiwiteit.
Die herroeping is TP/(TP+FN).
Presisie is 'n maatstaf van die positiewe voorspellende waarde, wat die aantal positiewe wat die model werklik voorspel, vergelyk met hoeveel korrekte positiewe dit akkuraat voorspel.
Presisie is TP/(TP + FP)
Die maklikste prestasiemaatstaf om te verstaan is akkuraatheid, wat net die verhouding is van behoorlik voorspelde waarnemings tot alle waarnemings.
Akkuraatheid is gelyk aan (TP+TN)/(TP+FP+FN+TN).
Presisie en herroeping word geweeg en gemiddeld om die F1-telling te verskaf. As gevolg hiervan, neem hierdie telling beide vals positiewe en vals negatiewe in ag.
F1 is dikwels meer waardevol as akkuraatheid, veral as jy 'n ongelyke klasverspreiding het, al is dit intuïtief nie so maklik om te verstaan soos akkuraatheid nie.
Die beste akkuraatheid word behaal wanneer die koste van vals positiewe en vals negatiewe vergelykbaar is. Dit is verkieslik om beide Precision en Recall in te sluit indien die koste verbonde aan vals positiewe en vals negatiewe aansienlik verskil.
35. Wat presies is kruisvalidering?
'n Statistiese hersteekproefbenadering genaamd kruisvalidering in masjienleer gebruik verskeie datastelsubstelle om 'n masjienleeralgoritme oor 'n aantal rondtes op te lei en te evalueer.
’n Nuwe bondel data wat nie gebruik is om die model op te lei nie, word getoets met kruisvalidering om te sien hoe goed die model dit voorspel. Data-oorpassing word voorkom deur kruisvalidering.
K-vou Die mees gebruikte hersteekproefmetode verdeel die hele datastel in K-stelle van gelyke groottes. Dit word kruisvalidering genoem.
36. Kom ons sê jy het ontdek dat jou model 'n beduidende afwyking het. Watter algoritme is volgens jou die geskikste om hierdie situasie te hanteer?
Die bestuur van hoë variasie
Ons moet die bagasietegniek gebruik vir probleme met groot variasies.
Herhaalde steekproefneming van ewekansige data sal deur die bagasie-algoritme gebruik word om die data in subgroepe te verdeel. Sodra die data verdeel is, kan ons ewekansige data en 'n spesifieke opleidingsprosedure gebruik om reëls te genereer.
Daarna kan peiling gebruik word om die model se voorspellings te kombineer.
37. Wat onderskei Ridge-regressie van Lasso-regressie?
Twee algemeen gebruikte regulariseringsmetodes is Lasso (ook genoem L1) en Ridge (soms genoem L2) regressie. Hulle word gebruik om die oorpassing van data te voorkom.
Ten einde die beste oplossing te ontdek en kompleksiteit te minimaliseer, word hierdie tegnieke aangewend om die koëffisiënte te straf. Deur die totaal van die absolute waardes van die koëffisiënte te penaliseer, werk die Lasso-regressie.
Die straffunksie in Ridge- of L2-regressie word afgelei van die som van vierkante van die koëffisiënte.
38. Wat is die belangrikste: modelprestasie of modelakkuraatheid? Watter een en hoekom sal jy dit bevoordeel?
Dit is 'n misleidende vraag, dus moet 'n mens eers verstaan wat Model Performance is. As prestasie as spoed gedefinieer word, dan berus dit op die tipe toepassing; enige toepassing wat 'n intydse situasie behels, sal hoë spoed as 'n deurslaggewende komponent vereis.
Byvoorbeeld, die beste soekresultate sal minder waardevol word as die navraagresultate te lank neem om te kom.
As Prestasie gebruik word as 'n regverdiging waarom presisie en herroeping bo akkuraatheid geprioritiseer moet word, dan sal 'n F1-telling nuttiger as akkuraatheid wees om die besigheidsgeval te demonstreer vir enige datastel wat ongebalanseerd is.
39. Hoe sal jy 'n datastel met ongelykhede bestuur?
'n Ongebalanseerde datastel kan baat vind by steekproeftegnieke. Monsterneming kan op 'n onder- of oorbemonsterde wyse gedoen word.
Onder Steekproefneming stel ons in staat om die grootte van die meerderheidsklas te verklein om by die minderheidsklas te pas, wat help om spoed te verhoog met betrekking tot berging en looptyduitvoering, maar kan ook lei tot die verlies van waardevolle data.
Om die kwessie van inligtingsverlies wat veroorsaak word deur oorsteekproefneming reg te stel, neem ons die minderheidsklas op; nietemin, dit veroorsaak dat ons probleme ondervind om te veel te pas.
Bykomende strategieë sluit in:
- Klustergebaseerde oorsteekproefneming- Die minderheids- en meerderheidsklasgevalle word in hierdie situasie individueel aan die K-gemiddelde groeperingstegniek onderwerp. Dit word gedoen om datastelgroepe te vind. Dan word elke groepering oorbemonster sodat alle klasse dieselfde grootte het en alle trosse binne 'n klas 'n gelyke aantal gevalle het.
- SMOTE: Synthetic Minority Over-sampling Technique- 'n Sny data uit die minderheidsklas word as voorbeeld gebruik, waarna addisionele kunsmatige instansies wat daarmee vergelykbaar is, geproduseer en by die oorspronklike datastel gevoeg word. Hierdie metode werk goed met numeriese datapunte.
40. Hoe kan jy onderskei tussen versterking en sakke?
Ensemble Techniques het weergawes bekend as bagging en boosting.
Bagasie-
Vir algoritmes met 'n hoë variasie, is bagging 'n tegniek wat gebruik word om die variansie te verlaag. Een so 'n familie van klassifiseerders wat geneig is tot vooroordeel is die besluitboomfamilie.
Die tipe data waarop besluitnemingsbome opgelei word, het 'n beduidende impak op hul prestasie. As gevolg hiervan, selfs met baie hoë fyninstelling, is veralgemening van uitkomste soms baie moeiliker om daarin te verkry.
As besluitbome se opleidingsdata verander word, verskil die uitkomste aansienlik.
As gevolg hiervan word sakke gebruik, waarin baie besluitnemingsbome geskep word, wat elkeen opgelei word deur 'n steekproef van die oorspronklike data te gebruik, en die eindresultaat is die gemiddelde van al hierdie verskillende modelle.
Versterking:
Versterking is die tegniek om voorspellings te maak met 'n n-swak klassifiseerderstelsel waarin elke swak klassifiseerder opmaak vir die tekortkominge van sy sterker klassifiseerders. Ons verwys na 'n klassifiseerder wat swak presteer op 'n gegewe datastel as 'n "swak klassifiseerder."
Versterking is natuurlik 'n proses eerder as 'n algoritme. Logistiese regressie en vlak besluitnemingsbome is algemene voorbeelde van swak klassifiseerders.
Adaboost, Gradient Boosting en XGBoost is die twee gewildste hupstootalgoritmes, maar daar is baie meer.
41. Verduidelik die verskille tussen induktiewe en deduktiewe leer.
Wanneer 'n model deur voorbeeld uit 'n stel waargenome voorbeelde leer, gebruik 'n model induktiewe leer om tot 'n algemene gevolgtrekking te kom. Aan die ander kant, met deduktiewe leer, gebruik die model die resultaat voordat dit sy eie vorm.
Induktiewe leer is die proses om gevolgtrekkings uit waarnemings te maak.
Deduktiewe leer is die proses om waarnemings op grond van afleidings te skep.
Gevolgtrekking
Geluk! Dit is die top 40 en hoër onderhoudvrae vir masjienleer waarop jy nou die antwoorde ken. Datawetenskap en kunsmatige intelligensie beroepe sal steeds in aanvraag wees soos tegnologie vorder.
Kandidate wat hul kennis van hierdie voorpunttegnologieë opdateer en hul vaardighede verbeter, kan 'n wye verskeidenheid werksmoontlikhede vind met mededingende betaling.
Jy kan voortgaan met die beantwoording van die onderhoude noudat jy 'n goeie begrip het van hoe om te antwoord op sommige van die wyd gestelde vrae oor masjienleer-onderhoude.
Na gelang van jou doelwitte, neem die volgende stap. Berei voor vir onderhoude deur Hashdork's te besoek Onderhoudreeks.
Lewer Kommentaar