Efnisyfirlit[Fela][Sýna]
- 1. Útskýrðu muninn á vélrænu námi, gervigreind og djúpnámi.
- 2. Vinsamlegast lýstu mismunandi gerðum vélanáms.
- 3. Hver er hlutdrægni á móti dreifni?
- 4. Reiknirit vélanáms hafa þróast verulega með tímanum. Hvernig velur maður rétta reikniritið til að nýta tiltekið gagnasett?
- 5. Hvernig er meðbreytni og fylgni mismunandi?
- 6. Hvað þýðir þyrping í vélanámi?
- 7. Hver er valinn reiknirit fyrir vélnám þitt?
- 8. Línuleg aðhvarf í vélanámi: Hvað er það?
- 9. Lýstu muninum á KNN og k-þýða klasa.
- 10. Hvað þýðir "valhlutdrægni" fyrir þig?
- 11. Hvað nákvæmlega er setning Bayes?
- 12. Hvað eru „þjálfunarsett“ og „prófunarsett“ í vélanámslíkani?
- 13. Hvað er tilgáta í vélanámi?
- 14. Hvað þýðir offitting vélanáms og hvernig er hægt að koma í veg fyrir það?
- 15. Hvað nákvæmlega eru Naive Bayes flokkarar?
- 16. Hvað þýða kostnaðaraðgerðir og tapsaðgerðir?
- 17. Hvað aðgreinir generative líkan frá mismununarlíkani?
- 18. Lýstu frávikum á villum af gerð I og II.
- 19. Hvað er Ensemble námstækni í vélanámi?
- 20. Hvað nákvæmlega eru parametrisk líkön? Gefðu dæmi.
- 21. Lýstu samvinnusíun. Eins og innihaldsbundin síun?
- 22. Hvað áttu nákvæmlega við með Time series?
- 23. Lýstu breytileikanum á reikniritunum Gradient Boosting og Random Forest.
- 24. Hvers vegna þarftu ruglingsfylki? Hvað er það?
- 25. Hvað nákvæmlega er meginþáttagreining?
- 26. Hvers vegna er snúningur íhluta svo mikilvægur fyrir PCA (aðalhlutagreiningu)?
- 27. Hvernig eru reglusetning og eðlileg breytileg innbyrðis?
- 28. Hvernig eru normalization og stöðlun frábrugðin hvert öðru?
- 29. Hvað þýðir „dreifniverðbólgustuðull“ nákvæmlega?
- 30. Hvernig velurðu flokkara miðað við stærð þjálfunarsettsins?
- 31. Hvaða reiknirit í vélanámi er nefnt „latur nemandinn“ og hvers vegna?
- 32. Hvað eru ROC kúrfan og AUC?
- 33. Hvað eru hyperparameters? Hvað gerir þá einstaka miðað við færibreytur líkansins?
- 34. Hvað þýðir F1 stig, muna og nákvæmni?
- 35. Hvað nákvæmlega er krossgilding?
- 36. Segjum að þú hafir uppgötvað að líkanið þitt hefur veruleg frávik. Hvaða reiknirit er að þínu mati best til þess fallið að takast á við þessar aðstæður?
- 37. Hvað greinir Ridge afturhvarf frá Lasso aðhvarfi?
- 38. Hvort er mikilvægara: afköst líkans eða nákvæmni líkans? Hver og hvers vegna ætlarðu að hlynna því?
- 39. Hvernig myndir þú stjórna gagnasafni með ójöfnuði?
- 40. Hvernig getur þú greint á milli uppörvunar og poka?
- 41. Útskýrðu muninn á inductive og deductive learning.
- Niðurstaða
Fyrirtæki nýta sér háþróaða tækni, svo sem gervigreind (AI) og vélanám, til að auka aðgengi upplýsinga og þjónustu fyrir einstaklinga.
Þessi tækni er tekin upp af ýmsum atvinnugreinum, þar á meðal banka, fjármálum, smásölu, framleiðslu og heilbrigðisþjónustu.
Eitt eftirsóttasta skipulagshlutverkið sem notar gervigreind er fyrir gagnafræðinga, gervigreindarverkfræðinga, vélanámsverkfræðinga og gagnafræðinga.
Þessi færsla mun leiða þig í gegnum margs konar vél nám viðtalsspurningar, allt frá einföldum til flókinna, til að hjálpa þér að gera þig tilbúinn fyrir allar spurningar sem þú gætir verið spurður þegar þú ert að leita að þínu hugsjónastarfi.
1. Útskýrðu muninn á vélrænu námi, gervigreind og djúpnámi.
Gervigreind notar margs konar vélanám og djúpnámsaðferðir sem gera tölvukerfum kleift að sinna verkefnum með því að nýta mannlega greind með rökfræði og reglum.
Vélanám notar margs konar tölfræði og djúpnámsaðferðir til að gera vélum kleift að læra af fyrri frammistöðu sinni og verða færari í að vinna ákveðin verkefni á eigin spýtur án mannlegs eftirlits.
Deep Learning er safn reiknirita sem gerir hugbúnaðinum kleift að læra af sjálfum sér og framkvæma margvíslegar viðskiptalegar aðgerðir, svo sem radd- og myndgreiningu.
Kerfi sem afhjúpa marglaga þeirra taugakerfi til mikið magn af gögnum til að læra eru fær um að gera djúpt nám.
2. Vinsamlegast lýstu mismunandi gerðum vélanáms.
Vélræn nám er til í þremur mismunandi gerðum í stórum dráttum:
- Stýrt nám: Líkan býr til spár eða dóma með því að nota merkt eða söguleg gögn í stýrðu vélnámi. Gagnasöfn sem hafa verið merkt eða merkt til að auka merkingu þeirra eru kölluð merkt gögn.
- Nám án eftirlits: Við höfum ekki merkt gögn fyrir nám án eftirlits. Í komandi gögnum getur líkan fundið mynstur, einkenni og fylgni.
- Styrkingarnám: Líkanið getur læra með því að nota styrkingu nám og umbun sem það fékk fyrir fyrri hegðun sína.
3. Hver er hlutdrægni á móti dreifni?
Offitting er afleiðing af hlutdrægni, sem er að hve miklu leyti líkan passar við gögnin. Hlutdrægni stafar af röngum eða of einföldum forsendum í þínu vélfræðinám reiknirit.
Frávik vísar til mistaka sem orsakast af flóknu ML reikniritinu þínu, sem framkallar næmni fyrir miklum frávikum í þjálfunargögnum og offitun.
Frávik er hversu mikið líkan er breytilegt eftir aðföngum.
Með öðrum orðum, grunnlíkön eru afar hlutdræg en samt stöðug (lítil dreifni). Offitting er vandamál með flókin líkön, þó þau fangi engu að síður raunveruleika líkansins (low bias).
Til að koma í veg fyrir bæði mikla breytileika og mikla hlutdrægni er skipting milli hlutdrægni og dreifni nauðsynlegt til að draga úr skekkjum sem best.
4. Reiknirit vélanáms hafa þróast verulega með tímanum. Hvernig velur maður rétta reikniritið til að nýta tiltekið gagnasett?
Vélnámstæknin sem ætti að nota fer aðeins eftir tegund gagna í tilteknu gagnasafni.
Þegar gögn eru línuleg er línuleg aðhvarf notuð. Pokunaraðferðin myndi skila betri árangri ef gögn sýndu ólínuleika. Við getum notað ákvörðunartré eða SVM ef gögnin þurfa að vera metin eða túlkuð í viðskiptalegum tilgangi.
Taugakerfi gætu verið gagnleg til að fá nákvæmt svar ef gagnasafnið inniheldur myndir, myndbönd og hljóð.
Val á reiknirit fyrir tilteknar aðstæður eða gagnasöfnun er ekki hægt að gera bara á einum mælikvarða.
Til þess að þróa aðferðina sem hentar best verðum við fyrst að skoða gögnin með því að nota könnunargagnagreiningu (EDA) og skilja markmiðið með því að nýta gagnasafnið.
5. Hvernig er meðbreytni og fylgni mismunandi?
Sambreytileiki metur hvernig tvær breytur tengjast hver annarri og hvernig önnur gæti breyst til að bregðast við breytingum á hinni.
Ef niðurstaðan er jákvæð gefur það til kynna að bein tengsl séu á milli breytanna og að ein myndi hækka eða lækka með hækkun eða lækkun á grunnbreytunni, að því gefnu að allar aðrar aðstæður haldist stöðugar.
Fylgni mælir tengsl tveggja handahófsbreyta og hefur aðeins þrjú aðskilin gildi: 1, 0 og -1.
6. Hvað þýðir þyrping í vélanámi?
Námsaðferðir án eftirlits sem flokka gagnapunkta saman eru kallaðar þyrpingar. Með söfnun gagnapunkta er hægt að beita klasatækninni.
Þú getur flokkað alla gagnapunkta í samræmi við virkni þeirra með því að nota þessa stefnu.
Eiginleikar og eiginleikar gagnapunktanna sem falla í sama flokk eru svipaðir, en gagnapunktanna sem falla í aðskilda hópa eru ólíkir.
Þessa aðferð er hægt að nota til að greina tölfræðileg gögn.
7. Hver er valinn reiknirit fyrir vélnám þitt?
Þú hefur tækifæri til að sýna fram á óskir þínar og einstaka hæfileika í þessari spurningu, sem og yfirgripsmikla þekkingu þína á fjölmörgum vélanámsaðferðum.
Hér eru nokkur dæmigerð vélræn reiknirit til að hugsa um:
- Línuleg aðhvarf
- Logistic afturför
- Barnlaus Bayes
- Ákvörðun tré
- K þýðir
- Tilviljunarkennd skógaralgrím
- K-næsti nágranni (KNN)
8. Línuleg aðhvarf í vélanámi: Hvað er það?
Algrím undir eftirliti vélanáms er línuleg aðhvarf.
Það er notað í forspárgreiningu til að ákvarða línuleg tengsl milli háðu og óháðu breytanna.
Jafna línulegrar aðhvarfs er sem hér segir:
Y = A + BX
þar sem:
- Inntakið eða óháða breytan er kölluð X.
- Háð- eða úttaksbreytan er Y.
- Stuðull X er b og skurður hans er a.
9. Lýstu muninum á KNN og k-þýða klasa.
Helsti greinarmunurinn er sá að KNN (flokkunaraðferð, eftirlitsnám) þarf merkta punkta en k-means ekki (þyrpingarreiknirit, nám án eftirlits).
Þú getur flokkað merkt gögn í ómerktan punkt með því að nota K-Næstu nágranna. K-means þyrping notar meðalfjarlægð milli punkta til að læra hvernig á að flokka ómerkta punkta.
10. Hvað þýðir "valhlutdrægni" fyrir þig?
Skekkjan í sýnatökufasa tilraunar er vegna tölfræðilegrar ónákvæmni.
Einn úrtakshópur er valinn oftar en hinir hóparnir í tilrauninni vegna ónákvæmninnar.
Ef valhlutdrægni er ekki viðurkennd gæti það leitt til rangrar niðurstöðu.
11. Hvað nákvæmlega er setning Bayes?
Þegar við erum meðvituð um aðrar líkur getum við ákvarðað líkur með setningu Bayes. Það býður upp á aftari líkur á atburði byggt á fyrri upplýsingum, með öðrum orðum.
Góð aðferð til að meta skilyrtar líkur er með þessari setningu.
Þegar verið er að þróa flokkun forspárlíkanavandamál og aðlaga líkan við þjálfun gagnasafn í vélanámi, setningu Bayes er beitt (þ.e. Naive Bayes, Bayes Optimal Classifier).
12. Hvað eru „þjálfunarsett“ og „prófunarsett“ í vélanámslíkani?
Þjálfunarsett:
- Þjálfunarsettið samanstendur af atvikum sem eru send í líkanið til greiningar og náms.
- Þetta eru merktu gögnin sem verða notuð til að þjálfa líkanið.
- Venjulega eru 70% af heildargögnum notuð sem þjálfunargagnasett.
Prófasett:
- Prófasettið er notað til að meta nákvæmni tilgátumyndunar líkansins.
- Við prófum án merktra gagna og notum síðan merkimiða til að staðfesta niðurstöðurnar.
- Þau 30% sem eftir eru eru notuð sem prófunargagnasett.
13. Hvað er tilgáta í vélanámi?
Vélræn nám gerir kleift að nota núverandi gagnasöfn til að skilja betur tiltekna aðgerð sem tengir inntak við úttak. Þetta er þekkt sem virkni nálgun.
Í þessu tilviki verður að nota nálgun fyrir óþekkta markaðgerðina til að flytja allar mögulegar athuganir byggðar á gefnum aðstæðum á sem bestan hátt.
Í vélanámi er tilgáta líkan sem hjálpar til við að meta markaðgerðina og klára viðeigandi inntak-til-úttak kortlagningu.
Val og hönnun reiknirita gerir ráð fyrir skilgreiningu á rými mögulegra tilgáta sem hægt er að tákna með líkani.
Fyrir eina tilgátu er notaður lítill h (h) en stór h (H) er notaður fyrir allt tilgáturýmið sem verið er að leita að. Við munum í stuttu máli fara yfir þessar merkingar:
- Tilgáta (h) er sérstakt líkan sem auðveldar kortlagningu inntaks til úttaks, sem síðan er hægt að nota við mat og spá.
- Tilgátumengi (H) er leitarhæft rými tilgáta sem hægt er að nota til að varpa inntak til úttaks. Umgjörð máls, líkan og líkanastilling eru nokkur dæmi um almennar takmarkanir.
14. Hvað þýðir offitting vélanáms og hvernig er hægt að koma í veg fyrir það?
Þegar vél reynir að læra af ófullnægjandi gagnasafni á sér stað offitting.
Fyrir vikið er offitting í öfugri fylgni við gagnamagn. Kross-fullgildingaraðferðin gerir kleift að forðast ofþenslu fyrir lítil gagnasöfn. Gagnapakki er skipt í tvo hluta í þessari aðferð.
Gagnapakki fyrir prófun og þjálfun mun samanstanda af þessum tveimur hlutum. Þjálfunargagnasafnið er notað til að búa til líkan, en prófunargagnasettið er notað til að meta líkanið með því að nota mismunandi inntak.
Þannig má koma í veg fyrir offitun.
15. Hvað nákvæmlega eru Naive Bayes flokkarar?
Ýmsar flokkunaraðferðir mynda Naive Bayes flokkana. Sett af reikniritum sem kallast þessir flokkarar vinna allir á sömu grundvallarhugmyndinni.
Tilgátan sem barnaleg Bayes flokkarar gera er sú að tilvist eða fjarvera eins eiginleika hafi engin áhrif á tilvist eða fjarveru annars eiginleika.
Með öðrum orðum, þetta er það sem við vísum til sem „barnlaus“ þar sem það gerir ráð fyrir að hver eiginleiki gagnasafns sé jafn mikilvægur og óháður.
Flokkun er gerð með barnalegum Bayes flokkunartækjum. Þau eru einföld í notkun og skila betri árangri en flóknari spár þegar forsenda sjálfstæðis er sönn.
Í textagreiningu, ruslpóstsíun og meðmælakerfum eru þau notuð.
16. Hvað þýða kostnaðaraðgerðir og tapsaðgerðir?
Orðasambandið „tapfall“ vísar til ferlisins við að reikna tap þegar aðeins eitt gagnastykki er tekið með í reikninginn.
Aftur á móti notum við kostnaðaraðgerðina til að ákvarða heildarfjölda mistaka fyrir fjölmörg gögn. Enginn marktækur munur er á.
Með öðrum orðum, á meðan kostnaðaraðgerðir leggja saman mismuninn fyrir allt þjálfunargagnasettið, eru tapaðgerðir hannaðar til að fanga muninn á raunverulegu og áætluðu gildi fyrir eina skrá.
17. Hvað aðgreinir generative líkan frá mismununarlíkani?
Mismunandi líkan lærir muninn á nokkrum gagnaflokkum. Generative líkan tekur upp mismunandi gagnategundir.
Í flokkunarvandamálum eru mismununarlíkön oft betri en önnur líkön.
18. Lýstu frávikum á villum af gerð I og II.
Rangar jákvæðar falla undir tegund I villur, en rangar neikvæðar falla undir tegund II villur (sem halda því fram að ekkert hafi gerst þegar það gerðist í raun).
19. Hvað er Ensemble námstækni í vélanámi?
Tækni sem kallast ensemble learning blandar saman mörgum vélanámslíkönum til að framleiða öflugri líkön.
Líkan getur verið fjölbreytt af ýmsum ástæðum. Nokkrar orsakir eru:
- Ýmsir íbúar
- Ýmsar tilgátur
- Ýmsar líkanagerðaraðferðir
Við munum lenda í vandræðum þegar við notum þjálfunar- og prófunargögn líkansins. Hlutdrægni, dreifni og óafmáanleg villa eru mögulegar tegundir þessara mistaka.
Nú köllum við þetta jafnvægi á milli hlutdrægni og dreifni í líkaninu hlutdrægni og hlutdrægni, og það ætti alltaf að vera til. Þessi málamiðlun er náð með því að nota ensemble learning.
Þó að það séu ýmsar ensemble aðferðir í boði, þá eru tvær algengar aðferðir til að sameina margar gerðir:
- Innfædd nálgun sem kallast bagging notar æfingasettið til að framleiða viðbótarþjálfunarsett.
- Aukning, flóknari tækni: Líkt og töskur er aukning notuð til að finna kjörþyngdarformúlu fyrir æfingasett.
20. Hvað nákvæmlega eru parametrisk líkön? Gefðu dæmi.
Það er takmarkað magn af breytum í færibreytumlíkönum. Til að spá fyrir um gögn, allt sem þú þarft að vita eru færibreytur líkansins.
Eftirfarandi eru dæmigerð dæmi: Logistic regression, línuleg aðhvarf og línuleg SVM. Módel sem ekki eru færibreyta eru sveigjanleg þar sem þau geta innihaldið ótakmarkaðan fjölda færibreyta.
Færibreytur líkansins og staða þeirra gagna sem skoðaðar eru eru nauðsynlegar fyrir gagnaspár. Hér eru nokkur dæmigerð dæmi: efnislíkön, ákvörðunartré og k-næstu nágranna.
21. Lýstu samvinnusíun. Eins og innihaldsbundin síun?
Reynt og sönn aðferð til að búa til sérsniðnar efnistillögur er samvinnusía.
Form af meðmælakerfi sem kallast samvinnusía spáir fyrir um nýtt efni með því að samræma óskir notenda og sameiginlegra hagsmuna.
Óskir notenda eru það eina sem innihaldsbundin meðmælakerfi hafa í huga. Í ljósi fyrri vala notandans eru nýjar ráðleggingar veittar úr tengdu efni.
22. Hvað áttu nákvæmlega við með Time series?
Tímaröð er safn af tölum í hækkandi röð. Á fyrirfram ákveðnu tímabili fylgist það með hreyfingu valinna gagnapunkta og fangar gagnapunktana reglulega.
Það er engin lágmarks- eða hámarks tímainntak fyrir tímaraðir.
Tímaraðir eru oft notaðar af sérfræðingum til að greina gögn í samræmi við einstaka kröfur þeirra.
23. Lýstu breytileikanum á reikniritunum Gradient Boosting og Random Forest.
Random Forest:
- Mikill fjöldi ákvörðunartrjáa er safnað saman í lokin og eru þekktir sem handahófskenndir skógar.
- Þó hallaaukning framleiði hvert tré óháð öðrum, byggir tilviljunarkenndur skógur hvert tré eitt í einu.
- Fjölflokkur hlutgreining virkar vel með tilviljanakenndum skógum.
Stigullaukning:
- Á meðan tilviljanakenndir skógar sameinast ákvörðunartré í lok ferlisins, sameina Gradient Boosting Machines þau frá upphafi.
- Ef færibreytur eru aðlagaðar á viðeigandi hátt er hallaaukning betri en tilviljanakenndir skógar hvað varðar niðurstöður, en það er ekki snjallt val ef gagnasettið hefur mikið af frávikum, frávikum eða hávaða þar sem það gæti valdið því að líkanið verði offitt.
- Þegar gögn eru í ójafnvægi, eins og rauntíma áhættumat, gengur hallauppörvun vel.
24. Hvers vegna þarftu ruglingsfylki? Hvað er það?
Tafla þekkt sem ruglingsfylki, stundum þekkt sem villufylki, er mikið notuð til að sýna hversu vel flokkunarlíkan, eða flokkari, stendur sig á mengi prófunargagna sem raunveruleg gildi eru þekkt fyrir.
Það gerir okkur kleift að sjá hvernig líkan eða reiknirit virkar. Það auðveldar okkur að koma auga á misskilning á ýmsum námskeiðum.
Það þjónar sem leið til að meta hversu vel líkan eða reiknirit er framkvæmt.
Spár flokkunarlíkans eru settar saman í ruglingsfylki. Talningargildi hvers flokksmerkis voru notuð til að sundurliða heildarfjölda réttra og rangra spá.
Það veitir upplýsingar um gallana sem flokkarinn gerir sem og mismunandi tegundir villna sem flokkarar valda.
25. Hvað nákvæmlega er meginþáttagreining?
Með því að lágmarka fjölda breyta sem tengjast hver annarri er markmiðið að lágmarka stærð gagnasöfnunarinnar. En það er mikilvægt að halda fjölbreytileikanum eins mikið og hægt er.
Breytunum er breytt í alveg nýtt sett af breytum sem kallast aðalþættir.
Þessar tölvur eru rétthyrndar þar sem þær eru eiginvigrar sambreytifylkis.
26. Hvers vegna er snúningur íhluta svo mikilvægur fyrir PCA (aðalhlutagreiningu)?
Snúningur skiptir sköpum í PCA vegna þess að það hámarkar aðskilnað milli frávika sem fæst með hverjum íhlut, sem gerir túlkun íhluta einfaldari.
Við krefjumst aukinna íhluta til að tjá afbrigði íhluta ef íhlutunum er ekki snúið.
27. Hvernig eru reglusetning og eðlileg breytileg innbyrðis?
Normalization:
Gögn breytast meðan á eðlilegu stendur. Þú ættir að staðla gögnin ef þau hafa mælikvarða sem eru verulega mismunandi, sérstaklega frá lágum til háum. Stilltu hvern dálk þannig að grunntölfræðin sé öll samhæfð.
Til að tryggja að ekki missi nákvæmni getur þetta verið gagnlegt. Að greina merkið á meðan hávaða er hunsað er eitt af markmiðum líkanaþjálfunar.
Það er möguleiki á offitun ef líkanið fær fulla stjórn til að draga úr skekkjum.
Reglugerð:
Í reglusetningu er spáaðgerðinni breytt. Þetta er háð nokkurri stjórn með reglusetningu, sem styður einfaldari mátunaraðgerðir fram yfir flóknar.
28. Hvernig eru normalization og stöðlun frábrugðin hvert öðru?
Tvær mest notaðar aðferðir við eiginleikakvarða eru eðlileg og stöðlun.
Normalization:
- Að endurskala gögnin til að passa við [0,1] svið er þekkt sem eðlileg.
- Þegar allar færibreytur verða að hafa sama jákvæða mælikvarða er eðlilegt gagn, en útlínur gagnasafnsins glatast.
Reglugerð:
- Gögn eru endurskaluð til að hafa meðaltalið 0 og staðalfrávikið 1 sem hluti af stöðlunarferlinu (Unit dreifni)
29. Hvað þýðir „dreifniverðbólgustuðull“ nákvæmlega?
Hlutfall dreifni líkansins og dreifni líkansins með aðeins eina óháða breytu er þekkt sem breytileiki verðbólgustuðull (VIF).
VIF metur magn fjöllínuleika sem er til staðar í mengi nokkurra aðhvarfsbreyta.
Frávik líkansins (VIF) líkan með einni óháðum breytu fráviki
30. Hvernig velurðu flokkara miðað við stærð þjálfunarsettsins?
Líkan með mikilli hlutdrægni, lítið dreifni skilar betri árangri fyrir stutt æfingasett þar sem ólíklegra er að offita. Naive Bayes er eitt dæmið.
Til að tákna flóknari samskipti fyrir stórt þjálfunarsett er líkan með litla hlutdrægni og mikilli dreifni æskilegt. Logistic regression er gott dæmi.
31. Hvaða reiknirit í vélanámi er nefnt „latur nemandinn“ og hvers vegna?
KNN er hægur nemandi, vélrænt reiknirit. Vegna þess að K-NN reiknar fjarlægð á kraftmikinn hátt í hvert sinn sem það vill flokka í stað þess að læra vélræn gildi eða breytur úr þjálfunargögnunum, leggur það þjálfunargagnasettið á minnið.
Þetta gerir K-NN að latum námsmanni.
32. Hvað eru ROC kúrfan og AUC?
Frammistaða flokkunarlíkans á öllum þröskuldum er sýnd á myndrænan hátt með ROC ferilnum. Það hefur raunverulegt jákvætt hlutfall og rangt jákvætt hlutfallsviðmið.
Einfaldlega sagt, svæðið undir ROC kúrfunni er þekkt sem AUC (Area Under the ROC Curve). Tvívítt flatarmál ROC ferilsins frá (0,0) til AUC er mælt (1,1). Til að meta tvöfalda flokkunarlíkön er það notað sem frammistöðutölfræði.
33. Hvað eru hyperparameters? Hvað gerir þá einstaka miðað við færibreytur líkansins?
Innri breyta líkansins er þekkt sem líkanbreyta. Með því að nota þjálfunargögn er gildi færibreytu áætlað.
Óþekkt fyrir líkanið, hyperparameter er breyta. Ekki er hægt að ákvarða gildið út frá gögnum, þannig að þau eru oft notuð til að reikna líkanfæribreytur.
34. Hvað þýðir F1 stig, muna og nákvæmni?
Ruglingsmælingin er mælikvarðinn sem notaður er til að meta skilvirkni flokkunarlíkansins. Hægt er að nota eftirfarandi setningar til að útskýra ruglingsmælinguna betur:
TP: Sannur jákvæður - Þetta eru jákvæðu gildin sem búist var við á réttan hátt. Það bendir til þess að gildi áætlaðs flokks og raunverulegs flokks séu bæði jákvæð.
TN: Sannar neikvæðar - Þetta eru skaðlegu gildin sem var nákvæmlega spáð. Það bendir til þess að bæði gildi raunverulegs flokks og væntanlegs flokks séu neikvætt.
Þessi gildi - rangar jákvæðar og rangar neikvæðar - koma fram þegar raunverulegur flokkur þinn er frábrugðinn þeim flokki sem búist var við.
Nú,
Hlutfall hins sanna jákvæða hlutfalls (TP) við allar athuganir sem gerðar eru í raunverulegum flokki kallast innköllun, einnig þekkt sem næmi.
Innköllunin er TP/(TP+FN).
Nákvæmni er mælikvarði á jákvæða forspárgildið, sem ber saman fjölda jákvæðra punkta sem líkanið spáir í raun og veru við hversu mörg rétt jákvæð það spáir nákvæmlega fyrir um.
Nákvæmni er TP/(TP + FP)
Auðveldasta frammistöðumælikvarðinn til að skilja er nákvæmni, sem er bara hlutfall rétt spáðra athugana af öllum athugunum.
Nákvæmni er jöfn (TP+TN)/(TP+FP+FN+TN).
Nákvæmni og endurköll eru vegin og meðaltal til að gefa F1 stigið. Þar af leiðandi tekur þetta stig bæði rangar jákvæðar og rangar neikvæðar.
F1 er oft meira virði en nákvæmni, sérstaklega ef þú ert með ójafna flokkadreifingu, jafnvel þótt innsæi sé það ekki eins auðvelt að skilja það og nákvæmni.
Besta nákvæmnin næst þegar kostnaður við rangar jákvæðar og rangar neikvæðar er sambærilegur. Æskilegt er að hafa bæði nákvæmni og endurköllun með ef kostnaður sem fylgir fölskum jákvæðum og fölskum neikvæðum er verulega mismunandi.
35. Hvað nákvæmlega er krossgilding?
Tölfræðileg endursýnatökuaðferð sem kallast krossfullgilding í vélanámi notar nokkur gagnasett undirmengi til að þjálfa og meta reiknirit fyrir vélanám í nokkrum lotum.
Ný gagnalota sem ekki var notuð til að þjálfa líkanið er prófuð með krossgildingu til að sjá hversu vel líkanið spáir fyrir um það. Komið er í veg fyrir ofhleðslu gagna með krossgildingu.
K-Fold Oftast notaða endursýnaaðferðin skiptir öllu gagnasafninu í K sett af jöfnum stærðum. Það er kallað krossgilding.
36. Segjum að þú hafir uppgötvað að líkanið þitt hefur veruleg frávik. Hvaða reiknirit er að þínu mati best til þess fallið að takast á við þessar aðstæður?
Stjórna miklum breytileika
Við ættum að nota pokatæknina fyrir vandamál með miklum afbrigðum.
Endurtekið úrtak af slembigögnum yrði notað af pokareikniritinu til að skipta gögnunum í undirhópa. Þegar gögnunum hefur verið skipt getum við notað tilviljunarkennd gögn og ákveðna þjálfunaraðferð til að búa til reglur.
Eftir það væri hægt að nota skoðanakönnun til að sameina spár líkansins.
37. Hvað greinir Ridge afturhvarf frá Lasso aðhvarfi?
Tvær mikið notaðar reglusetningaraðferðir eru Lasso (einnig kallaður L1) og Ridge (stundum kallaður L2) aðhvarf. Þær eru notaðar til að koma í veg fyrir ofþenslu gagna.
Til að finna bestu lausnina og lágmarka flókið, eru þessar aðferðir notaðar til að refsa stuðlunum. Með því að refsa heildargildum stuðlanna virkar Lasso aðhvarfið.
Refsifallið í Ridge eða L2 aðhvarfinu er dregið af kvaðratsummu stuðlanna.
38. Hvort er mikilvægara: afköst líkans eða nákvæmni líkans? Hver og hvers vegna ætlarðu að hlynna því?
Þetta er villandi spurning, þannig að maður ætti fyrst að skilja hvað Model Performance er. Ef frammistaða er skilgreind sem hraði, þá treystir það á tegund umsóknar; sérhvert forrit sem felur í sér rauntímaaðstæður myndi krefjast mikils hraða sem afgerandi þáttar.
Til dæmis verða bestu leitarniðurstöðurnar minna virði ef fyrirspurnarniðurstöðurnar eru of lengi að berast.
Ef árangur er notaður sem rökstuðningur fyrir því hvers vegna nákvæmni og innköllun ætti að vera í forgangi umfram nákvæmni, þá mun F1 stig vera gagnlegra en nákvæmni til að sýna fram á viðskiptatilvik fyrir hvaða gagnasafn sem er í ójafnvægi.
39. Hvernig myndir þú stjórna gagnasafni með ójöfnuði?
Ójafnvægi gagnapakka getur notið góðs af sýnatökutækni. Hægt er að taka sýni annaðhvort með undir- eða yfirsýnum.
Undir sýnatöku gerir okkur kleift að minnka stærð meirihlutahópsins til að passa við minnihlutahópinn, sem hjálpar til við að auka hraða með tilliti til geymslu og keyrslutíma en getur einnig leitt til taps á verðmætum gögnum.
Til að ráða bót á upplýsingatapinu af völdum ofstaka, tökum við upp sýni úr minnihlutahópnum; engu að síður veldur þetta því að við lendum í offitunarmálum.
Fleiri aðferðir eru:
- Cluster-Based Over Sampling- Minnihluta- og meirihlutaflokkatilvikin eru hvert fyrir sig sætt við K-means klasatækni í þessum aðstæðum. Þetta er gert til að finna gagnaklasa. Síðan er hver klasi tekinn of mikið þannig að allir flokkar hafa sömu stærð og allir klasar innan flokks hafa jafn mörg tilvik.
- SMOTE: Synthetic Minority Over-sampling Technique- Sneið af gögnum úr minnihlutaflokknum er notað sem dæmi, eftir það eru fleiri gervitilvik sem eru sambærileg honum framleidd og bætt við upprunalega gagnasafnið. Þessi aðferð virkar vel með tölulegum gagnapunktum.
40. Hvernig getur þú greint á milli uppörvunar og poka?
Ensemble Techniques eru með útgáfur sem kallast bagging og boosting.
Bagga-
Fyrir reiknirit með mikilli breytileika er pakkning tækni sem notuð er til að lækka frávikið. Ein slík flokkafjölskylda sem er viðkvæm fyrir hlutdrægni er ákvörðunartrésfjölskyldan.
Tegund gagna sem ákvarðanatré eru þjálfuð í hefur veruleg áhrif á frammistöðu þeirra. Vegna þessa, jafnvel með mjög mikilli fínstillingu, er stundum mun erfiðara að alhæfa niðurstöður í þeim.
Ef þjálfunargögnum ákvörðunartrjáa er breytt er útkoman mjög mismunandi.
Afleiðingin er sú að töskur er notaður, þar sem mörg ákvörðunartré eru búin til, sem hvert um sig er þjálfað með því að nota sýnishorn af upprunalegu gögnunum, og lokaniðurstaðan er meðaltal allra þessara mismunandi líkana.
Uppörvun:
Uppörvun er tæknin við að gera spár með n-veiku flokkunarkerfi þar sem hver veikur flokkari bætir upp annmarka sterkari flokka. Við vísum til flokkunaraðila sem gengur illa á tilteknu gagnasetti sem „veikan flokkara“.
Uppörvun er augljóslega ferli frekar en reiknirit. Logistic regression og grunn ákvörðunartré eru algeng dæmi um veika flokkara.
Adaboost, Gradient Boosting og XGBoost eru tvö vinsælustu auka reikniritin, en það eru miklu fleiri.
41. Útskýrðu muninn á inductive og deductive learning.
Þegar lærð er með dæmum úr safni af dæmum sem fylgst hefur verið með notar líkan inductive learning til að komast að almennri niðurstöðu. Aftur á móti, með deductive learning, notar líkanið niðurstöðuna áður en það myndar sína eigin.
Inductive learning er ferlið við að draga ályktanir af athugunum.
Afleidd nám er ferlið við að búa til athuganir byggðar á ályktunum.
Niðurstaða
Til hamingju! Þetta eru efstu 40 og yfir viðtalsspurningarnar fyrir vélanám sem þú veist núna svörin við. Gagnafræði og gervigreind störf verða áfram eftirsótt eftir því sem tækninni fleygir fram.
Umsækjendur sem uppfæra þekkingu sína á þessari nýjustu tækni og bæta færni sína geta fundið fjölbreytta atvinnumöguleika með samkeppnishæf laun.
Þú getur haldið áfram að svara viðtölunum núna þegar þú hefur góðan skilning á því hvernig á að svara sumum algengum spurningum um vélanámsviðtal.
Taktu eftirfarandi skref, allt eftir markmiðum þínum. Undirbúðu þig fyrir viðtöl með því að heimsækja Hashdork's Viðtalsröð.
Skildu eftir skilaboð