Table of Contents[Ferstopje][Toanje]
- 1. Ferklearje de ferskillen tusken masine learen, keunstmjittige yntelliginsje en djip learen.
- 2. Beskriuw asjebleaft de ferskillende soarten masine learen.
- 3. Wat is de ôfwikseling fan bias tsjin fariânsje?
- 4. Masine learen algoritmen hawwe evoluearre signifikant oer de tiid. Hoe kiest men it juste algoritme om te brûken jûn in dataset?
- 5. Hoe ferskille kovariânsje en korrelaasje?
- 6. Yn masine learen, wat betsjut klustering?
- 7. Wat is dyn foarkar masine learen algoritme?
- 8. Lineêre regression yn masine learen: wat is it?
- 9. Beskriuw de ferskillen tusken KNN en k-betsjut klustering.
- 10. Wat betsjut "seleksje bias" foar dy?
- 11. Wat is de stelling fan Bayes krekt?
- 12. Wat binne 'trainingsset' en 'testset' yn in masinelearmodel?
- 13. Wat is in hypoteze yn Machine Learning?
- 14. Wat betsjut masine learen overfitting, en hoe kin it foarkommen wurde?
- 15. Wat binne krekt Naive Bayes klassifikaasjes?
- 16. Wat betsjutte kostenfunksjes en ferliesfunksjes?
- 17. Wat ûnderskiedt in generatyf model fan in diskriminatyf model?
- 18. Beskriuw de fariaasjes tusken Type I en Type II flaters.
- 19. Yn masine learen, wat is de Ensemble leartechnyk?
- 20. Wat binne parametryske modellen krekt? Jou in eksimplaar.
- 21. Beskriuw gearwurkjende filtering. Lykas ynhâld-basearre filterjen?
- 22. Wat bedoele jo krekt mei de Tiidrige?
- 23. Beskriuw de fariaasjes tusken de Gradient Boosting en Random Forest algoritmen.
- 24. Wêrom hawwe jo nedich in betizing matrix? Wat is it?
- 25. Wat is krekt in prinsipe komponint analyze?
- 26. Wêrom is komponint rotaasje sa krúsjaal foar PCA (prinsipale komponint analyze)?
- 27. Hoe ferskille regularisaasje en normalisearring fan elkoar?
- 28. Hoe ferskille normalisearring en standerdisearring fan inoar?
- 29. Wat krekt betsjut "variânsje ynflaasje faktor"?
- 30. Op grûn fan de grutte fan de training set, hoe kieze jo in klassifikaasje?
- 31. Hokker algoritme yn masine learen wurdt oantsjutten as de "lazy learder" en wêrom?
- 32. Wat binne de ROC Curve en AUC?
- 33. Wat binne hyperparameters? Wat makket se unyk fan 'e modelparameters?
- 34. Wat betsjutte F1 Skoare, ûnthâld en presyzje?
- 35. Wat is krekt krúsvalidaasje?
- 36. Litte we sizze dat jo ûntdutsen dat jo model hat in wichtige fariânsje. Hokker algoritme is neffens jo it meast geskikt om dizze situaasje te behanneljen?
- 37. Wat ûnderskiedt Ridge-regression fan Lasso-regression?
- 38. Wat is wichtiger: model prestaasjes of model accuracy? Hokker en wêrom sille jo it favorisearje?
- 39. Hoe soene jo in dataset mei ûngelikens beheare?
- 40. Hoe kinne jo ûnderskiede tusken stimulearjen en bagging?
- 41. Ferklearje de ferskillen tusken ynduktyf en deduktyf learen.
- Konklúzje
Bedriuwen brûke foaroansteande technology, lykas keunstmjittige yntelliginsje (AI) en masine learen, om de tagonklikens fan ynformaasje en tsjinsten foar partikulieren te fergrutsjen.
Dizze technologyen wurde oannommen troch in ferskaat oan yndustry, ynklusyf bankieren, finânsjes, detailhannel, fabrikaazje en sûnenssoarch.
Ien fan 'e meast socht organisatoaryske rollen dy't AI brûke is foar gegevenswittenskippers, yngenieurs fan keunstmjittige yntelliginsje, yngenieurs foar masine-learen en gegevensanalisten.
Dizze post sil liede jo troch in ferskaat oan masine learen ynterviewfragen, fan basis oant kompleks, om jo te helpen klear te meitsjen foar alle fragen dy't jo kinne wurde frege as jo sykje nei jo ideale baan.
1. Ferklearje de ferskillen tusken masine learen, keunstmjittige yntelliginsje en djip learen.
Keunstmjittige yntelliginsje brûkt in ferskaat oan oanpak foar masine-learen en djippe learen dy't komputersystemen tastean om taken út te fieren mei minsklike yntelliginsje mei logika en regels.
Masine learen brûkt in ferskaat oan statistiken en Deep Learning-oanpak om masines yn te skeakeljen om te learen fan har foarôfgeande prestaasjes en better te wurden yn it dwaan fan bepaalde taken op har eigen sûnder minsklik tafersjoch.
Deep Learning is in samling algoritmen wêrmei't de software fan himsels leart en in ferskaat oan kommersjele funksjes útfiere, lykas stim- en byldherkenning.
Systemen dy't bleatstelle harren multilayered neurale netwurken oant grutte hoemannichten gegevens foar learen kinne djip learen dwaan.
2. Beskriuw asjebleaft de ferskillende soarten masine learen.
Masine learen bestiet oer it algemien yn trije ferskillende soarten:
- Tafersjoch learen: In model makket foarsizzingen of oardielen mei markearre of histoaryske gegevens yn tafersjoch masine learen. Gegevenssets dy't tagged of markearre binne om har betsjutting te fergrutsjen wurde oantsjutten as markearre gegevens.
- Learje sûnder tafersjoch: Wy hawwe gjin markearre gegevens foar learen sûnder tafersjoch. Yn 'e ynkommende gegevens kin in model patroanen, nuverheden en korrelaasjes fine.
- Reinforcement Learning: It model kin leare troch fersterking te brûken learen en de beleanningen dy't it krige foar har earder gedrach.
3. Wat is de ôfwikseling fan bias tsjin fariânsje?
Overfitting is in gefolch fan bias, dat is de mjitte wêryn in model past by de gegevens. Bias wurdt feroarsake troch ferkearde of te ienfâldige oannames yn jo masine learen algoritme.
Fariânsje ferwiist nei flaters feroarsake troch kompleksiteit yn jo ML algoritme, dat produsearret gefoelichheid foar grutte graden fan fariânsje yn training gegevens en overfitting.
Fariânsje is hoefolle in model ferskilt ôfhinklik fan ynputen.
Mei oare wurden, basismodellen binne ekstreem biased noch stabyl (lege fariânsje). Overfitting is in probleem mei komplekse modellen, hoewol se dochs de realiteit fan it model fange (lege bias).
Om sawol hege fariaasje as hege bias te foarkommen, is in ôfwikseling tusken bias en fariânsje nedich foar de bêste flaterreduksje.
4. Masine learen algoritmen hawwe evoluearre signifikant oer de tiid. Hoe kiest men it juste algoritme om te brûken jûn in dataset?
De masine-leartechnyk dy't moat wurde brûkt hinget allinich ôf fan 'e soarte gegevens yn in spesifike dataset.
As gegevens lineêr binne, wurdt lineêre regression brûkt. De bagging metoade soe better prestearje as gegevens oanjûn net-lineariteit. Wy kinne beslutebeammen as SVM brûke as de gegevens evaluearre of ynterpretearre wurde moatte foar kommersjele doelen.
Neurale netwurken kinne nuttich wêze om in krekte antwurd te krijen as de dataset foto's, fideo's en audio omfettet.
De kar fan algoritme foar in spesifike omstannichheid of kolleksje fan gegevens kin net makke wurde allinnich op ien maatregel.
Foar it doel om de bêste fitmetoade te ûntwikkeljen, moatte wy de gegevens earst ûndersykje mei ferkennende gegevensanalyse (EDA) en it doel fan it brûken fan de dataset begripe.
5. Hoe ferskille kovariânsje en korrelaasje?
Kovariânsje evaluearret hoe't twa fariabelen mei elkoar ferbûn binne en hoe't ien kin feroarje yn reaksje op feroaringen yn 'e oare.
As it resultaat posityf is, jout it oan dat der in direkte ferbining is tusken de fariabelen en dat men mei in tanimming of ôfnimming fan de basisfariabele op- of ôfnimme soe, oannommen dat alle oare betingsten konstant bliuwe.
Korrelaasje mjit de keppeling tusken twa willekeurige fariabelen en hat mar trije ûnderskate wearden: 1, 0, en -1.
6. Yn masine learen, wat betsjut klustering?
Learmetoaden sûnder tafersjoch dy't gegevenspunten byinoar groepearje wurde klustering neamd. Mei in samling gegevenspunten kin de klustertechnyk tapast wurde.
Jo kinne alle gegevenspunten groepearje neffens har funksjes mei dizze strategy.
De skaaimerken en kwaliteiten fan 'e gegevenspunten dy't yn deselde kategory falle binne ferlykber, wylst dy fan 'e gegevenspunten dy't yn aparte groepen falle oars binne.
Dizze oanpak kin brûkt wurde om statistyske gegevens te analysearjen.
7. Wat is dyn foarkar masine learen algoritme?
Jo hawwe de kâns om jo foarkarren en unike talinten yn dizze fraach te demonstrearjen, lykas jo wiidweidige kennis fan ferskate masine-learentechniken.
Hjir binne in pear typyske masine-learalgoritmen om oer te tinken:
- Lineêre regression
- Logistyske regression
- Naïve Bayes
- Beslutenbeammen
- K betsjut
- Random bosk algoritme
- K-nearest buorman (KNN)
8. Lineêre regression yn masine learen: wat is it?
In tafersjoch algoritme foar masine learen is lineêre regression.
It wurdt brûkt yn foarsizzende analyze om de lineêre ferbining te bepalen tusken de ôfhinklike en ûnôfhinklike fariabelen.
De fergeliking fan lineêre regression is as folget:
Y = A + BX
wêr:
- De ynfier of ûnôfhinklike fariabele wurdt X neamd.
- De ôfhinklike of útfierfariabele is Y.
- De koëffisjint fan X is b, en syn ûndersiket is a.
9. Beskriuw de ferskillen tusken KNN en k-betsjut klustering.
It primêre ûnderskied is dat KNN (in klassifikaasjemetoade, begeliede learen) markearre punten nedich hat, wylst k-means dat net hat (clustering-algoritme, sûnder tafersjoch learen).
Jo kinne markearre gegevens klassifisearje yn in net markearre punt troch K-Nearst Neighbors te brûken. K-means klustering brûkt de gemiddelde ôfstân tusken punten om te learen hoe't jo net-labelde punten groepearje.
10. Wat betsjut "seleksje bias" foar dy?
De foaroardielen yn 'e samplingfaze fan in eksperimint is te tankjen oan statistyske ûnkrektens.
Ien stekproefgroep wurdt faker keazen as de oare groepen yn it eksperimint as gefolch fan de ûnkrektens.
As de seleksje bias net erkend wurdt, kin it resultearje yn in ferkearde konklúzje.
11. Wat is de stelling fan Bayes krekt?
As wy ús bewust binne fan oare kânsen, kinne wy in kâns bepale mei Bayes 'stelling. It biedt de posterior kâns op in foarkommen basearre op foarôfgeande ynformaasje, mei oare wurden.
In goede metoade foar it skatten fan betingsten kânsen wurdt levere troch dit teorema.
By it ûntwikkeljen fan klassifikaasje foarsizzende modelleringsproblemen en it oanpassen fan in model oan in training dataset yn masine learen, Bayes' stelling wurdt tapast (dus Naive Bayes, Bayes Optimal Classifier).
12. Wat binne 'trainingsset' en 'testset' yn in masinelearmodel?
Training set:
- De trainingsset bestiet út eksimplaren dy't nei it model stjoerd wurde foar analyse en learen.
- Dit binne de markearre gegevens dy't sille wurde brûkt om it model te trenen.
- Typysk wurdt 70% fan 'e totale gegevens brûkt as de trainingsdataset.
Testset:
- De testset wurdt brûkt om de krektens fan 'e hypoteze-generaasje fan it model te beoardieljen.
- Wy testen sûnder labele gegevens en brûke dan labels om de resultaten te befêstigjen.
- De oerbleaune 30% wurdt brûkt as testdataset.
13. Wat is in hypoteze yn Machine Learning?
Machine Learning makket it gebrûk fan besteande datasets mooglik om in opjûne funksje better te begripen dy't ynfier keppele oan útfier. Dit is bekend as funksje approximation.
Yn dit gefal moat approximaasje brûkt wurde foar de ûnbekende doelfunksje om alle tinkbere waarnimmings basearre op 'e opjûne situaasje op' e bêste manier oer te dragen.
Yn masine learen is in hypoteze in model dat helpt by it skatten fan de doelfunksje en it foltôgjen fan de passende ynput-nei-útfier mappings.
De seleksje en ûntwerp fan algoritmen jouwe de definysje fan 'e romte fan mooglike hypotezen dy't kinne wurde fertsjintwurdige troch in model.
Foar ien hypoteze wurdt lytse h (h) brûkt, mar haadletter h (H) wurdt brûkt foar de hiele hypotezeromte dy't trochsocht wurdt. Wy sille dizze notaasjes koart besjen:
- In hypoteze (h) is in bepaald model dat it yn kaart bringen fan ynput nei útfier fasilitearret, dat dêrnei brûkt wurde kin foar evaluaasje en foarsizzing.
- In hypotezeset (H) is in trochsykbere romte fan hypotezen dy't brûkt wurde kinne om ynputs nei útgongen yn kaart te bringen. Kwestje framing, model, en model konfiguraasje binne in pear foarbylden fan generike beheinings.
14. Wat betsjut masine learen overfitting, en hoe kin it foarkommen wurde?
As in masine besiket te learen fan in net genôch dataset, komt oerfitting foar.
As gefolch is overfitting omkeard korrelearre mei datavolumint. De oanpak fan cross-validation lit oerfitting wurde foarkommen foar lytse datasets. In dataset wurdt opdield yn twa dielen yn dizze metoade.
De dataset foar testen en training sil bestean út dizze twa dielen. De trainingsdataset wurdt brûkt om in model te meitsjen, wylst de testdataset wurdt brûkt om it model te evaluearjen mei ferskate ynputs.
Dit is hoe te foarkommen fan overfitting.
15. Wat binne krekt Naive Bayes klassifikaasjes?
Ferskate klassifikaasjemetoaden meitsje de Naive Bayes-klassifikaasjes út. In set fan algoritmen bekend as dizze klassifisearrings wurkje allegear op itselde fûnemintele idee.
De oanname makke troch naïve Bayes-klassifisearrings is dat de oanwêzigens of ôfwêzigens fan ien funksje gjin ynfloed hat op de oanwêzigens of ôfwêzigens fan in oare funksje.
Mei oare wurden, dit is wat wy ferwize as "naïef", om't it de oanname makket dat elk datasetattribút like wichtich en ûnôfhinklik is.
Klassifikaasje wurdt dien mei naïve Bayes-klassifikaasjes. Se binne ienfâldich te brûken en produsearje bettere resultaten dan mear komplekse foarsizzers as it útgongspunt foar ûnôfhinklikens wier is.
Yn tekstanalyse, spamfiltering en oanbefellingssystemen wurde se brûkt.
16. Wat betsjutte kostenfunksjes en ferliesfunksjes?
De útdrukking "ferliesfunksje" ferwiist nei it proses fan komputerferlies as mar ien stik gegevens yn rekken brocht wurdt.
Oarsom brûke wy de kostenfunksje om it totale bedrach fan flaters te bepalen foar in protte gegevens. Gjin signifikant ûnderskied bestiet.
Mei oare wurden, wylst kostenfunksjes it ferskil aggregearje foar de heule trainingsdataset, binne ferliesfunksjes ûntworpen om it ferskil tusken de werklike en foarseine wearden foar in inkeld rekord te fangen.
17. Wat ûnderskiedt in generatyf model fan in diskriminatyf model?
In diskriminearjend model leart de ferskillen tusken ferskate gegevenskategoryen. In generatyf model nimt ferskate gegevenstypen op.
Op klassifikaasjeproblemen prestearje diskriminearjende modellen faak better as oare modellen.
18. Beskriuw de fariaasjes tusken Type I en Type II flaters.
False positiven falle ûnder de kategory fan Type I flaters, wylst falske negativen geane ûnder Type II flaters (beweare dat neat bard is as it eins hat).
19. Yn masine learen, wat is de Ensemble leartechnyk?
In technyk neamd ensemble learen mingt in protte masine-learmodellen om mear potente modellen te produsearjen.
In model kin farieare wurde foar in ferskaat oan redenen. Ferskate oarsaken binne:
- Ferskate populaasjes
- Ferskate hypotezen
- Ferskate modellen metoaden
Wy sille in probleem tsjinkomme by it brûken fan de training- en testgegevens fan it model. Bias, fariânsje en ûnferminderbere flater binne mooglike soarten fan dizze flater.
No, wy neame dit lykwicht tusken bias en fariânsje yn it model in bias-fariant trade-off, en it moat altyd bestean. Dizze trade-off wurdt berikt troch it brûken fan ensemble learen.
Hoewol d'r ferskate ensemblebenaderingen beskikber binne, binne d'r twa mienskiplike strategyen foar it kombinearjen fan in protte modellen:
- In lânseigen oanpak neamd bagging brûkt de trainingsset om ekstra trainingsets te produsearjen.
- Boosting, in mear ferfine technyk: Krekt as bagging, wurdt boosting brûkt om de ideale gewichtsformule te finen foar in trainingsset.
20. Wat binne parametryske modellen krekt? Jou in eksimplaar.
D'r binne in beheind oantal parameters yn parametryske modellen. Om gegevens te foarsizzen, binne alles wat jo moatte witte de parameters fan it model.
De folgjende binne typyske foarbylden: logistyske regression, lineêre regression, en lineêre SVM's. Non-parametryske modellen binne fleksibel, om't se in ûnbeheind oantal parameters kinne befetsje.
De parameters fan it model en de status fan 'e waarnommen gegevens binne fereaske foar gegevensfoarsizzings. Hjir binne wat typyske foarbylden: ûnderwerp modellen, beslút beammen, en k-nêste buorlju.
21. Beskriuw gearwurkjende filtering. Lykas ynhâld-basearre filterjen?
In beproefde metoade foar it meitsjen fan oanpaste ynhâldsuggestjes is gearwurkjend filterjen.
In foarm fan oanbefellingssysteem neamd gearwurkjende filtering foarseit farsk materiaal troch brûkersfoarkarren te balansearjen mei dielde ynteresses.
Brûkerfoarkarren binne it ienige ding dat ynhâld-basearre oanbefellingssystemen beskôgje. Yn it ljocht fan 'e foarôfgeande seleksjes fan' e brûker wurde nije oanbefellings oanbean fan besibbe materiaal.
22. Wat bedoele jo krekt mei de Tiidrige?
In tiidrige is in samling nûmers yn oprinnende folchoarder. Oer in foarbepaalde tiidperioade kontroleart it de beweging fan 'e selekteare gegevenspunten en fange periodyk de gegevenspunten.
D'r is gjin minimale of maksimale tiidynput foar tiidsearjes.
Tiidsearjes wurde faak brûkt troch analysten om gegevens te analysearjen yn oerienstimming mei har unike easken.
23. Beskriuw de fariaasjes tusken de Gradient Boosting en Random Forest algoritmen.
Random Forest:
- In grut oantal beslútbeammen wurde oan 'e ein gearfoege en wurde bekend as willekeurige bosken.
- Wylst gradientferbettering elke beam ûnôfhinklik fan 'e oaren produseart, bout willekeurige bosk elke beam ien foar ien.
- Multiclass objektdeteksje wurket goed mei willekeurige bosken.
Gradientferbettering:
- Wylst Random bosken join beslút beammen oan 'e ein fan it proses, kombinearje Gradient Boosting Machines se fan it begjin ôf.
- As parameters passend oanpast wurde, prestearret gradientfergrutting út willekeurige bosken yn termen fan resultaten, mar it is gjin tûke kar as de gegevensset in protte outliers, anomalies of lûd hat, om't it kin feroarsaakje dat it model overfit wurdt.
- As d'r unbalansearre gegevens binne, lykas d'r is yn real-time risiko-beoardieling, docht gradientfergrutting goed.
24. Wêrom hawwe jo nedich in betizing matrix? Wat is it?
In tabel bekend as de betizing matrix, soms bekend as de flater matrix, wurdt in soad brûkt om sjen te litten hoe goed in klassifikaasje model, of klassifikaasje, prestearret op in set fan test gegevens dêr't de echte wearden binne bekend.
It stelt ús yn steat om te sjen hoe't in model of algoritme prestearret. It makket it maklik foar ús om misferstannen tusken ferskate kursussen te spotten.
It tsjinnet as in manier om te evaluearjen hoe goed in model of algoritme wurdt útfierd.
De foarsizzings fan in klassifikaasjemodel wurde gearstald yn in betizingsmatrix. De telwearden fan elk klasselabel waarden brûkt om it totale oantal korrekte en ferkearde foarsizzingen te brekken.
It jout details oer de flaters makke troch de klassifikaasje, lykas de ferskate soarten flaters feroarsake troch klassifikaasjes.
25. Wat is krekt in prinsipe komponint analyze?
Troch it minimalisearjen fan it oantal fariabelen dy't mei-inoar korreleare, is it doel om de dimensjes fan 'e gegevenssammeling te minimalisearjen. Mar it is wichtich om it ferskaat safolle mooglik te hâlden.
De fariabelen wurde feroare yn in folslein nije set fan fariabelen neamd haadkomponinten.
Dizze PC's binne ortogonaal, om't se de eigenvektors fan in kovariânsjematrix binne.
26. Wêrom is komponint rotaasje sa krúsjaal foar PCA (prinsipale komponint analyze)?
Rotaasje is krúsjaal yn PCA, om't it de skieding optimisearret tusken de fariaasjes dy't troch elke komponint krigen wurde, wêrtroch ynterpretaasje fan komponinten ienfâldiger wurdt.
Wy fereaskje útwreide komponinten om komponint fariaasje út te drukken as de komponinten net wurde rotearre.
27. Hoe ferskille regularisaasje en normalisearring fan elkoar?
Normalisaasje:
Gegevens wurde feroare tidens normalisaasje. Jo moatte de gegevens normalisearje as it skalen hat dy't drastysk oars binne, foaral fan leech oant heech. Pas elke kolom oan sadat de fûnemintele statistiken allegear kompatibel binne.
Om derfoar te soargjen dat der gjin ferlies fan presyzje is, kin dit nuttich wêze. It sinjaal opspoaren by it negearjen fan it lûd is ien fan 'e doelstellingen fan modeltraining.
Der is in kâns fan overfitting as it model wurdt jûn folsleine kontrôle te ferminderjen flater.
Regularisaasje:
By regularisaasje wurdt de foarsizzingsfunksje wizige. Dit is ûnder foarbehâld fan wat kontrôle troch regularisaasje, dy't ienfâldiger passende funksjes foarkomt boppe yngewikkelde.
28. Hoe ferskille normalisearring en standerdisearring fan inoar?
De twa meast brûkte techniken foar skaalfergrutting fan funksjes binne normalisaasje en standerdisearring.
Normalisaasje:
- It feroarjen fan de gegevens om te passen by in [0,1] berik is bekend as normalisaasje.
- As alle parameters deselde positive skaal moatte hawwe, is normalisearring nuttich, mar de outliers fan 'e dataset binne ferlern.
Regularisaasje:
- Gegevens wurde op 'e nij skalearre om in gemiddelde fan 0 en in standertdeviaasje fan 1 te hawwen as ûnderdiel fan it standerdisearringsproses (ienheidfariânsje)
29. Wat krekt betsjut "variânsje ynflaasje faktor"?
De ferhâlding fan de fariânsje fan it model nei de fariânsje fan it model mei mar ien ûnôfhinklike fariabele wurdt bekend as de fariaasje ynflaasjefaktor (VIF).
VIF skat it bedrach fan multikollineariteit oanwêzich yn in set fan ferskate regressionfariabelen.
Fariânsje fan it model (VIF) Model mei ien ûnôfhinklike fariabele fariânsje
30. Op grûn fan de grutte fan de training set, hoe kieze jo in klassifikaasje?
In model mei hege bias, lege fariânsje prestearret better foar in koarte trainingsset, om't oerfitting minder wierskynlik is. Naive Bayes is ien eksimplaar.
Om komplisearre ynteraksjes foar in grutte trainingsset te fertsjintwurdigjen, is in model mei lege bias en hege fariânsje de foarkar. Logistyske regression is in goed foarbyld.
31. Hokker algoritme yn masine learen wurdt oantsjutten as de "lazy learder" en wêrom?
In trage learling, KNN is in masine learen algoritme. Om't K-NN de ôfstân dynamysk berekkent elke kear as it klassifisearje wol ynstee fan it learen fan alle masine-learde wearden of fariabelen út 'e trainingsgegevens, ûnthâldt it de trainingsdataset.
Dit makket K-NN in luie learling.
32. Wat binne de ROC Curve en AUC?
De prestaasjes fan in klassifikaasjemodel op alle drompels wurdt grafysk fertsjintwurdige troch de ROC-kromme. It hat wiere positive taryf en falsk positive taryfkritearia.
Simply set, it gebiet ûnder de ROC-kromme is bekend as AUC (Area Under the ROC Curve). It twadiminsjonale gebiet fan 'e ROC-kromme fan (0,0) oant AUC wurdt mjitten (1,1). Foar it beoardieljen fan binêre klassifikaasjemodellen wurdt it brûkt as prestaasjestatistyk.
33. Wat binne hyperparameters? Wat makket se unyk fan 'e modelparameters?
In ynterne fariabele fan it model is bekend as in modelparameter. Troch trainingsgegevens te brûken, wurdt de wearde fan in parameter benadere.
Unbekend foar it model is in hyperparameter in fariabele. De wearde kin net bepaald wurde út gegevens, dus wurde se faak brûkt om modelparameters te berekkenjen.
34. Wat betsjutte F1 Skoare, ûnthâld en presyzje?
De betizingsmaat is de metrik dy't brûkt wurdt om de effektiviteit fan it klassifikaasjemodel te mjitten. De folgjende útdrukkingen kinne brûkt wurde om de betizingsmetrik better te ferklearjen:
TP: True Positives - Dit binne de positive wearden dy't goed waarden ferwachte. It suggerearret dat de wearden fan 'e projekteare klasse en de eigentlike klasse beide posityf binne.
TN: Wiere negativen- Dit binne de neidielige wearden dy't sekuer waarden foarsein. It suggerearret dat sawol de wearde fan 'e eigentlike klasse as de ferwachte klasse negatyf binne.
Dizze wearden - falske positiven en falske negativen - komme foar as jo eigentlike klasse ferskilt fan 'e ferwachte klasse.
No,
De ferhâlding fan 'e wiere positive taryf (TP) oan alle waarnimmings makke yn' e eigentlike klasse wurdt neamd recall, ek bekend as gefoelichheid.
De oprop is TP/(TP+FN).
Precision is in mjitting fan 'e positive foarsizzende wearde, dy't it oantal positives fergeliket dat it model wirklik foarseit mei hoefolle korrekte positives it sekuer foarsizze.
Precision is TP/(TP + FP)
De maklikste prestaasjemetrik om te begripen is krektens, dat is gewoan it oanpart fan goed foarseine waarnimmings foar alle waarnimmings.
De krektens is gelyk oan (TP+TN)/(TP+FP+FN+TN).
Precision en Recall wurde gewogen en gemiddeld om de F1-score te leverjen. As gefolch, dizze skoare beskôget sawol falsk positive as falske negativen.
F1 is faaks weardefoller dan krektens, benammen as jo in ûngelikense klasseferdieling hawwe, sels as it yntuïtyf net sa ienfâldich is om te begripen as krektens.
De bêste krektens wurdt berikt as de kosten fan falske positiven en falske negativen fergelykber binne. It is de foarkar om sawol Precision as Recall op te nimmen as de kosten ferbûn mei falske positiven en falske negativen signifikant ferskille.
35. Wat is krekt krúsvalidaasje?
In statistyske resampling-oanpak neamd cross-validation yn masine-learen brûkt ferskate dataset-subsets om in masine-learalgoritme te trenen en te evaluearjen oer in oantal rûnen.
In nije batch gegevens dy't net waard brûkt om it model te trainen, wurdt hifke mei cross-validation om te sjen hoe goed it model it foarseit. Dataoverfitting wurdt foarkommen troch cross-validation.
K-Fold De meast brûkte resamplingmetoade splitst de hiele dataset yn K sets fan gelikense grutte. It wurdt cross-validaasje neamd.
36. Litte we sizze dat jo ûntdutsen dat jo model hat in wichtige fariânsje. Hokker algoritme is neffens jo it meast geskikt om dizze situaasje te behanneljen?
Behear fan hege fariabiliteit
Wy moatte de baggingtechnyk brûke foar problemen mei grutte fariaasjes.
Werhelle sampling fan willekeurige gegevens soe brûkt wurde troch it bagging-algoritme om de gegevens yn subgroepen te dielen. As de gegevens ienris ferdield binne, kinne wy willekeurige gegevens en in spesifike trainingproseduere brûke om regels te generearjen.
Dêrnei koe polling brûkt wurde om de foarsizzingen fan it model te kombinearjen.
37. Wat ûnderskiedt Ridge-regression fan Lasso-regression?
Twa wiid brûkte regularisaasjemetoaden binne Lasso (ek wol L1 neamd) en Ridge (soms L2 neamd) regression. Se wurde brûkt om it overfitting fan gegevens te foarkommen.
Om de bêste oplossing te ûntdekken en kompleksiteit te minimalisearjen, wurde dizze techniken brûkt om de koeffizienten te straffen. Troch it totaal fan 'e absolute wearden fan' e koeffizienten te straffen, wurket de Lasso-regression.
De straffunksje yn Ridge- as L2-regression is ôflaat fan 'e som fan kwadraten fan' e koeffizienten.
38. Wat is wichtiger: model prestaasjes of model accuracy? Hokker en wêrom sille jo it favorisearje?
Dit is in misleidende fraach, dus moat men earst begripe wat Model Performance is. As prestaasje wurdt definiearre as snelheid, dan fertrout it op it type applikaasje; eltse applikaasje wêrby't in real-time situaasje soe fereaskje hege snelheid as in krúsjale komponint.
Bygelyks, de bêste sykresultaten sille minder weardefol wurde as de Query-resultaten te lang duorje om te kommen.
As Prestaasje wurdt brûkt as in rjochtfeardiging foar wêrom't presyzje en weromroppen moatte wurde prioritearre boppe krektens, dan sil in F1-skoare brûkber wêze as krektens by it demonstrearjen fan 'e saaklike saak foar elke gegevensset dy't net lykwichtich is.
39. Hoe soene jo in dataset mei ûngelikens beheare?
In unbalansearre dataset kin profitearje fan samplingtechniken. Sampling kin dien wurde op in under- of oversampled wize.
Under Sampling lit ús de grutte fan 'e mearderheidsklasse krimpje om te passen by de minderheidsklasse, wat helpt by it ferheegjen fan snelheid oangeande opslach en útfiering fan runtime, mar kin ek resultearje yn it ferlies fan weardefolle gegevens.
Om de kwestje fan ynformaasjeferlies feroarsake troch oersampling te ferhelpen, sammelje wy de minderheidsklasse; nettsjinsteande, dit feroarsaket ús te rinne yn overfitting saken.
Oanfoljende strategyen omfetsje:
- Cluster-Based Over Sampling- De minderheid en mearderheid klasse eksimplaren wurde yndividueel ûnderwurpen wurde oan de K-betsjut clustering technyk yn dizze situaasje. Dit wurdt dien om datasetklusters te finen. Dan wurdt elk kluster oersampled sadat alle klassen deselde grutte hawwe en alle klusters binnen in klasse in gelikense oantal eksimplaren hawwe.
- SMOTE: Synthetic Minority Over-sampling Technique- In stikje gegevens út 'e minderheidsklasse wurdt brûkt as foarbyld, wêrnei't ekstra keunstmjittige eksimplaren dy't dêrmei fergelykber binne produsearre en tafoege wurde oan 'e orizjinele dataset. Dizze metoade wurket goed mei numerike gegevenspunten.
40. Hoe kinne jo ûnderskiede tusken stimulearjen en bagging?
Ensemble Techniques hawwe ferzjes bekend as bagging en boosting.
Bagging-
Foar algoritmen mei in hege fariaasje is bagging in technyk dy't brûkt wurdt om de fariânsje te ferleegjen. Ien sa'n famylje fan klassifisearrings dy't gefoelich is foar bias is de beslútbeamfamylje.
It type gegevens wêrop beslútbeammen wurde oplaat hat in wichtige ynfloed op har prestaasjes. Fanwegen dit, sels mei tige hege fyn-tuning, generalisaasje fan útkomsten is soms folle dreger te krijen yn harren.
As de trainingsgegevens fan beslútbeammen wurde feroare, ferskille de útkomsten sterk.
As gefolch wurdt bagging brûkt, wêrby't in protte beslútbeammen wurde makke, wêrfan elk wurdt oplaat mei in stekproef fan 'e orizjinele gegevens, en it einresultaat is it gemiddelde fan al dizze ferskillende modellen.
Boost:
Boosting is de technyk fan it meitsjen fan foarsizzings mei in n-swak klassifikaasjesysteem wêryn elke swakke klassifikaasje de tekoarten fan har sterkere klassifikaasjes makket. Wy ferwize nei in klassifikaasje dy't min prestearret op in opjûne gegevensset as in "swak klassifikaasje".
Boosting is fansels in proses ynstee fan in algoritme. Logistyske regression en ûndjippe beslútbeammen binne gewoane foarbylden fan swakke klassifikaasjes.
Adaboost, Gradient Boosting, en XGBoost binne de twa populêrste stimulearjende algoritmen, lykwols binne d'r folle mear.
41. Ferklearje de ferskillen tusken ynduktyf en deduktyf learen.
By it learen fan foarbyld út in set fan waarnommen foarbylden, brûkt in model induktyf learen om ta in generalisearre konklúzje te kommen. Oan 'e oare kant, mei deduktyf learen, brûkt it model it resultaat foardat it har eigen foarmje.
Induktyf learen is it proses fan it lûken fan konklúzjes út observaasjes.
Deduktyf learen is it proses fan it meitsjen fan observaasjes basearre op konklúzjes.
Konklúzje
Lokwinske! Dit binne de top 40 en boppe ynterviewfragen foar masine learen wêrop jo no de antwurden witte. Data wittenskip en keunstmjittige yntelliginsje beroppen sille trochgean te wêzen yn fraach as technology foarútgong.
Kandidaten dy't har kennis fan dizze avansearre technologyen bywurkje en har feardigensset ferbetterje, kinne in breed ferskaat oan wurkmooglikheden fine mei kompetitive lean.
Jo kinne trochgean mei it beantwurdzjen fan 'e ynterviews no't jo in solide begryp hawwe fan hoe't jo kinne beäntwurdzje op guon fan' e wiid stelde fraachpetearen foar masine learen.
Ofhinklik fan jo doelen, nim dan de folgjende stap. Tariede op ynterviews troch Hashdork's te besykjen Ynterview Series.
Leave a Reply