Zêdetirî 40 Pirsên Hevpeyvînê yên Fêrbûna Makîneyê (2024)

Table of Contents[Veşartin][Rêdan]

1. Cûdahiyên di navbera fêrbûna makîneyê, îstîxbarata sûnî, û fêrbûna kûr de rave bikin.
2. Ji kerema xwe cûreyên cûda yên fêrbûna makîneyê diyar bikin.
3. Beralîkirina li hember veguheztinê çi ye?
4. Algorîtmayên fêrbûna makîneyê bi demê re pir pêş ketine. Meriv çawa algorîtmaya rast hildibijêre ku komek daneyê bikar bîne?
5. Kovarîans û hevbendî çawa ji hev cuda ne?
6. Di fêrbûna makîneyê de, kombûn tê çi wateyê?
7. Algorîtmaya fêrbûna makîneya weya bijare çi ye?
8. Regression Linear Di Fêrbûna Makîneyê de: Çi ye?
9. Cûdahiyên di navbera KNN û komkirina k-wateyan de vebêjin.
10. Wateya “alîbûna hilbijartinê” ji bo we çi ye?
11. Teorema Bayes bi rastî çi ye?
12. Di Modela Fêrbûna Makîneyê de, 'Set perwerdehiyê' û 'Set Test' çi ne?
13. Di Fêrbûna Makîneyê de Hîpotez çi ye?
.
15. Tesnîfkerên Naive Bayes bi rastî çi ne?
16. Wateya Karên Mesref û Karûbarên Loss çi ye?
17. Modela çêker ji modela cudaker çi cuda dike?
18. Guhertoyên di navbera xeletiyên Tîpa I û Tîpa II de diyar bikin.
19. Di fêrbûna makîneyê de, teknîka fêrbûna Ensemble çi ye?
20. Modelên parametrîk bi rastî çi ne? Mînakekê bidin.
21. Parzûnkirina hevkariyê diyar bike. Her weha fîlterkirina naverokê?
22. Mebesta te ji rêzenivîsa Dem çi ye?
23. Guhertoyên di navbera algorîtmayên Zêdekirina Gradient û Daristana Rasthatî de vebêjin.
24. Çima hûn hewceyê matrixek tevliheviyê ne? Çiye?
25. Bi rastî analîzek pêkhateya prensîpê çi ye?
26. Çima zivirîna pêkhateyan ji bo PCA (analîzkirina pêkhateya sereke) ew qas girîng e?
27. Birêkûpêkkirin û normalîzekirin çawa ji hev cûda dibin?
28. Normalîzasyon û standartbûn ji hev çawa cuda ne?
29. Wateya "faktora enflasyonê ya variansê" bi rastî çi ye?
30. Li ser bingeha mezinahiya koma perwerdehiyê, hûn çawa dabeşkerek hilbijêrin?
31. Di fêrbûna makîneyê de kîjan algorîtma wekî "xwendekarê tembel" tê binavkirin û çima?
32. ROC Curve û AUC çi ne?
33. Hîperparametre çi ne? Çi wan ji pîvanên modelê yekta dike?
34. F1 Score, bibîranîn û rastbûn tê çi wateyê?
35. Bi rastî erêkirina xaçê çi ye?
36. Ka em bêjin we keşif kir ku modela we cûdahiyek girîng heye. Li gorî we kîjan algorîtma ji bo birêvebirina vê rewşê herî maqûl e?
37. Çi vegerandina Ridge ji paşveçûna Lasso cuda dike?
38. Kîjan girîngtir e: performansa modelê an rastbûna modelê? Kîjan yek û çima hûn ê jê hez bikin?
39. Hûn ê çawa danûstendinek bi newekheviyan birêve bibin?
40. Tu çawa dikarî ferq û cudahiyê bikî navbera zêdekirin û çentekirinê?
41. Cudahiyên di navbera hînbûna înduktîf û deduktîf de rave bike.
Xelasî

Karsaz teknolojiya pêşkeftî, wekî îstîxbarata sûnî (AI) û fêrbûna makîneyê bikar tînin, da ku gihîştina agahdarî û karûbaran ji kesan re zêde bikin.

Van teknolojiyên ji hêla pîşesaziyên cûrbecûr ve têne pejirandin, di nav de banking, darayî, firotanê, çêkirin, û lênihêrîna tenduristî.

Yek ji wan rolên rêxistinî yên ku AI-ê bikar tîne ji bo zanyarên daneyê, endezyarên îstîxbarata sûnî, endezyarên fêrbûna makîneyê, û analîstên daneyê ye.

Ev post dê we bi cûrbecûr rêve bibe fêrbûna makîneyê Pirsên hevpeyivînê, ji bingehîn heya tevlihev, ji bo ku ji we re bibe alîkar ku hûn ji bo her pirsên ku hûn dikarin ji we werin pirsîn dema ku li karê xweya îdeal digerin amade bibin.

1. Cûdahiyên di navbera fêrbûna makîneyê, îstîxbarata sûnî, û fêrbûna kûr de rave bikin.

Zehmetiya hunerî cûrbecûr fêrbûna makîneyê û nêzîkatiyên fêrbûna kûr bi kar tîne ku dihêle pergalên komputerê bi mantiq û qaîdeyan peywiran bi karanîna îstîxbarata mîna mirovî pêk bînin.

Fêrbûna makîneyê cûrbecûr statîstîk û nêzîkatiyên Fêrbûna Kûr bikar tîne da ku makîneyan ji performansa xwe ya berê fêr bibin û di kirina hin karan de bi serê xwe bêyî çavdêriya mirov jêhatîtir bibin.

Fêrbûna Kûr berhevokek algorîtmayan e ku dihêle nermalavê ji xwe fêr bibe û cûrbecûr fonksiyonên bazirganî, wek naskirina deng û wêneyê, pêk bîne.

Pergalên ku pirrengiya wan eşkere dikin torên neural ji bo fêrbûnê gelek daneyan dikarin fêrbûna kûr bikin.

2. Ji kerema xwe cûreyên cûda yên fêrbûna makîneyê diyar bikin.

Fêrbûna makîneyê bi gelemperî di sê celebên cûda de heye:

Fêrbûna Çavdêrî: Modelek bi karanîna daneyên nîşankirî an dîrokî di fêrbûna makîneya çavdêrîkirî de pêşbînan an dadbaran diafirîne. Daneyên ku ji bo ku wateya xwe zêde bikin hatine tagkirin an jî etîket kirin, wekî daneya bi etîket têne binav kirin.
Fêrbûna Bêserpirtûk: Ji bo fêrbûna neçaverêkirî daneyên me yên nîşankirî tune. Di daneyên gihîştî de, modelek dikare nimûne, xerîb û hevrêzan bibîne.
Fêrbûna Hêzkirinê: Model dikare bi karanîna xurtkirinê fêr bibin fêrbûn û xelatên ku ji bo tevgera xwe ya berê wergirtiye.

3. Beralîkirina li hember veguheztinê çi ye?

Zêdebûn encamek nelirêtiyê ye, ku asta ku modelek bi daneyan re têkildar e. Bias ji ber texmînên nerast an pir hêsan di we de çêdibe algorîtmaya fêrbûna makîneyê.

Variance xeletiyên ku ji ber tevliheviya di algorîtmaya weya ML-yê de çêdibin vedibêje, ku di daneyên perwerdehiyê de û zêde guncan de hesasiyetê bi dereceyên mezin ên cûdabûnê çêdike.

Cûda ew e ku çend modelek bi têketinê ve girêdayî ye.

Bi gotinek din, modelên bingehîn pir bialoz û lê bi îstîqrar in (cûda kêm). Zêdebûn bi modelên tevlihev re pirsgirêkek e, her çend ew di heman demê de rastiya modelê digirin (biasiya kêm).

Ji bo ku hem guheztinek zêde û hem jî bertengiya bilind were pêşîlêgirtin, ji bo kêmkirina xeletiya çêtirîn pevguherînek di navbera bias û cûdabûnê de hewce ye.

4. Algorîtmayên fêrbûna makîneyê bi demê re pir pêş ketine. Meriv çawa algorîtmaya rast hildibijêre ku komek daneyê bikar bîne?

Teknîka fêrbûna makîneyê ya ku divê were bikar anîn tenê bi celebê daneya di databasek taybetî de girêdayî ye.

Dema ku dane rêzik be, paşvekêşana xêzkirî tê bikar anîn. Rêbaza bagkirinê dê çêtir çêbibe heke daneyan ne-xêzikî destnîşan bikin. Ger ku dane ji bo mebestên bazirganî bêne nirxandin an şîrove kirin em dikarin darên biryarê an SVM bikar bînin.

Dibe ku torên neuralî ji bo wergirtina bersivek rast bikêr bin heke danehev wêne, vîdyo û deng pêk bîne.

Hilbijartina algorîtmayê ji bo rewşek taybetî an berhevkirina daneyan tenê li ser pîvanek yek nayê çêkirin.

Ji bo mebesta pêşxistina rêbaza çêtirîn çêtirîn, divê em pêşî daneyan bi karanîna analîza daneya keşfê (EDA) vekolînin û armanca karanîna databasê fam bikin.

5. Kovarîans û hevbendî çawa ji hev cuda ne?

Covariance dinirxîne ka du guhêrbar çawa bi hev ve girêdayî ne û meriv çawa dikare di bersivê de li ser guhertinên di ya din de biguhezîne.

Ger encam erênî be, ew destnîşan dike ku têkiliyek rasterast di navbera guhêrbaran de heye û ew ê bi zêdebûn an kêmbûna guhêrbara bingehîn re zêde bibe an kêm bibe, bihesibînin ku hemî mercên din sabît bimînin.

Têkilî girêdana di navbera du guhêrbarên rasthatî de dipîve û tenê sê nirxên cihêreng hene: 1, 0, û -1.

6. Di fêrbûna makîneyê de, kombûn tê çi wateyê?

Rêbazên fêrbûnê yên neçavdêrî yên ku xalên daneyê bi hev re kom dikin, jê re kombûn tê gotin. Bi berhevkirina xalên daneyê re, teknîka komkirinê dikare were sepandin.

Hûn dikarin hemî xalên daneyê li gorî fonksiyonên wan bi karanîna vê stratejiyê kom bikin.

Taybetmendî û xisletên xalên daneyê yên ku dikevin heman kategoriyê dişibin hev, lê yên xalên daneyê yên ku di nav komên cûda de cih digirin cûda ne.

Ev nêzîkatî dikare ji bo analîzkirina daneyên statîstîkî were bikar anîn.

7. Algorîtmaya fêrbûna makîneya weya bijare çi ye?

Di vê pirsê de şansê we heye ku hûn tercîh û jêhatîyên xwe yên bêhempa destnîşan bikin, û hem jî zanîna weya berfireh a gelek teknîkên fêrbûna makîneyê.

Li vir çend algorîtmayên fêrbûna makîneyê yên tîpîk hene ku hûn li ser bifikirin:

Paşvekişîna xêzik
Regresyona lojîstîk
Naîv Bayes
Biryara darên
K tê wateya
Algorîtmaya daristana Random
K-cîranê herî nêzîk (KNN)

8. Regression Linear Di Fêrbûna Makîneyê de: Çi ye?

Algorîtmayek fêrbûna makîneyê ya çavdêrîkirî paşvekêşana xêz e.

Ew di analîza pêşdîtinê de tête bikar anîn da ku pêwendiya xêzikî ya di navbera guhêrbarên girêdayî û serbixwe de diyar bike.

Hevkêşana regresyona xêzkî wiha ye:

Y = A + BX

ko:

Ji guherbara têketinê an jî serbixwe re X tê gotin.
Guherbara girêday an jî derketinê Y e.
Rêjeya X-ê b, û navbera wê a ye.

9. Cûdahiyên di navbera KNN û komkirina k-wateyan de vebêjin.

Cûdahiya bingehîn ev e ku KNN (rêbazek dabeşkirinê, fêrbûna çavdêrîkirî) hewceyê xalên binavkirî ye lê k-navgîn ne hewce ye (algorîtmaya komkirinê, fêrbûna neserperiştkirî).

Hûn dikarin bi karanîna K-Nêzîktirîn Neighbors daneyên etîketkirî di nav xalek nelabelkirî de dabeş bikin. K-wateya komkirinê dûrahiya navînî ya di navbera xalan de bikar tîne da ku fêr bibe ka meriv çawa xalên bê etîket kom dike.

10. Wateya “alîbûna hilbijartinê” ji bo we çi ye?

Nerazîbûna di qonaxa nimûneya ceribandinê de ji ber nerastiya statîstîkî ye.

Di azmûnê de komek nimûne ji komên din bêtir ji ber nerastiyê tê hilbijartin.

Ger nerastiya hilbijartinê neyê pejirandin, dibe ku encamek nerast derkeve.

11. Teorema Bayes bi rastî çi ye?

Dema ku em ji îhtîmalên din haydar bin, em dikarin bi teorema Bayes îhtimalekê destnîşan bikin. Bi gotinek din, ew îhtîmala paşerojê ya bûyerek li ser bingeha agahdariya pêşîn pêşkêşî dike.

Rêbazek saxlem ji bo texmînkirina îhtîmalên şertî ji hêla vê teoremê ve tê peyda kirin.

Dema ku pirsgirêkên modela pêşdîtinê yên dabeşkirinê pêşve dibin û modelek ji perwerdehiyê re bicîh dikin databas di fêrbûna makîneyê de, teorema Bayes tê sepandin (ango Naive Bayes, Bayes Optimal Classifier).

12. Di Modela Fêrbûna Makîneyê de, 'Set perwerdehiyê' û 'Set Test' çi ne?

Koma perwerdehiyê:

Koma perwerdehiyê ji mînakên ku ji bo analîz û fêrbûnê ji modelê re têne şandin pêk tê.
Ev daneyên nîşankirî ye ku dê ji bo perwerdekirina modelê were bikar anîn.
Bi gelemperî, 70% ji daneyên tevahî wekî daneyên perwerdehiyê tê bikar anîn.

Set Test:

Koma testê ji bo nirxandina rastbûna hilberîna hîpoteza modelê tê bikar anîn.
Em bêyî daneyên nîşankirî diceribînin û dûv re etîketan bikar tînin da ku encaman piştrast bikin.
30% mayî wekî databasek ceribandinê tê bikar anîn.

13. Di Fêrbûna Makîneyê de Hîpotez çi ye?

Fêrbûna Makîneyê karanîna danehevên heyî dihêle ku fonksiyonek diyarkirî ya ku têketinê bi derketinê ve girêdide çêtir fam bike. Ev wekî nêzîkbûna fonksiyonê tê zanîn.

Di vê rewşê de, pêdivî ye ku nêzîkbûn ji bo fonksiyona mebesta nenas were bikar anîn da ku hemî çavdêriyên têgihîştî li ser bingeha rewşa diyarkirî bi awayê çêtirîn gengaz veguhezîne.

Di fêrbûna makîneyê de, hîpotezek modelek e ku di texmînkirina fonksiyona armancê û temamkirina nexşeyên guncan-derketin-derketinê de dibe alîkar.

Hilbijartin û sêwirana algorîtmayan rê dide danasîna cîhê hîpotezên muhtemel ên ku dikarin bi modelekê werin temsîl kirin.

Ji bo hîpotezek yek tîpa piçûk h (h) tê bikar anîn, lê sermaye h (H) ji bo hemî cîhê hîpoteza ku tê lêgerandin tê bikar anîn. Em ê bi kurtasî li ser van nîşanan bisekinin:

Hîpotezek (h) modelek taybetî ye ku nexşeya danûstendinê bi encam re hêsantir dike, ku paşê dikare ji bo nirxandin û pêşbîniyê were bikar anîn.
Komek hîpotezê (H) cîhek lêgerînê ya hîpotezan e ku dikare were bikar anîn ji bo nexşeya têketinê bi derhaneyan re. Çarçovekirina pirsgirêkê, model, û veavakirina modelê çend mînakên tixûbên gelemperî ne.

.

Dema ku makîneyek hewl dide ku ji databasek ne bes fêr bibe, zêde guncan çêdibe.

Wekî encamek, zêdebarkirin bi qebareya daneyê re berevajî ve girêdayî ye. Nêzîkatiya pejirandî ya xaçerê dihêle ku ji bo berhevokên piçûk ji zêdebarkirinê were dûrxistin. Di vê rêbazê de databasek li du beşan tê dabeş kirin.

Daneyên ji bo ceribandin û perwerdehiyê dê ji van her du beşan pêk were. Daneyên perwerdehiyê ji bo afirandina modelek tê bikar anîn, dema ku databasa ceribandinê ji bo nirxandina modelê bi karanîna têketinên cihêreng tê bikar anîn.

Bi vî rengî meriv pêşî li zêdegirtinê digire.

15. Tesnîfkerên Naive Bayes bi rastî çi ne?

Rêbazên dabeşkirinê yên cihêreng tesnîfkerên Naive Bayes pêk tînin. Komek algorîtmayên ku wekî van dabeşker têne zanîn hemî li ser heman ramana bingehîn dixebitin.

Texmîna ku ji hêla tasnîfkerên Bayes ên naîf ve hatî çêkirin ev e ku hebûn an tunebûna yek taybetmendiyekê bi hebûn an nebûna taybetmendiyek din re tune ye.

Bi gotinek din, ev tiştê ku em jê re wekî "naîf" bi nav dikin ji ber ku ew texmîn dike ku her taybetmendiya databasê bi heman rengî girîng û serbixwe ye.

Tesnîfkirin bi karanîna tesnîfkerên Bayes ên naîf tê kirin. Dema ku pêşgotina serxwebûnê rast be ew karanîna wan hêsan in û ji pêşbîniyên tevlihevtir encamên çêtir derdixin.

Di analîza nivîsê, fîlterkirina spam, û pergalên pêşniyarê de, ew têne xebitandin.

16. Wateya Karên Mesref û Karûbarên Loss çi ye?

Gotina "fonksîyona winda" ji pêvajoya windakirina hesabkirinê re vedibêje dema ku tenê yek perçeyek daneyê tê hesibandin.

Berevajî vê, em fonksiyona lêçûnê bikar tînin da ku ji bo gelek daneyan tevahiya xeletiyan diyar bikin. Cûdahiya girîng tune.

Bi gotinek din, dema ku fonksiyonên lêçûn cûdahiya ji bo tevahiya databasa perwerdehiyê berhev dikin, fonksiyonên windabûnê têne sêwirandin ku cûdahiya di navbera nirxên rastîn û pêşbînîkirî de ji bo tomarek yekane bigirin.

17. Modela çêker ji modela cudaker çi cuda dike?

Modelek cûdaxwaz cûdahiyên di navbera çend kategoriyên daneyê de fêr dibe. Modelek hilberîner li ser celebên daneyên cihêreng hildibijêre.

Li ser pirsgirêkên dabeşkirinê, modelên cihêkar bi gelemperî ji modelên din derdikevin.

18. Guhertoyên di navbera xeletiyên Tîpa I û Tîpa II de diyar bikin.

Pozîtîvên derewîn di bin kategoriya xeletiyên Tîpa I de ne, lê negatîfên derewîn di bin xeletiyên Tîpa II de ne (îdia dikin ku dema ku ew bi rastî tiştek nebûye).

19. Di fêrbûna makîneyê de, teknîka fêrbûna Ensemble çi ye?

Teknîkek bi navê fêrbûna ensembleyê gelek modelên fêrbûna makîneyê tevlihev dike da ku modelên bihêztir hilberîne.

Modelek dikare ji ber sedemên cûda cûda bibe. Gelek sedem hene:

Nifûsên cihêreng
Hîpotezên cihêreng
Rêbazên cûda yên modelkirinê

Dema ku em daneyên perwerdehî û ceribandina modelê bikar tînin em ê bi pirsgirêkekê re rû bi rû bimînin. Bias, cudabûn, û xeletiya bêkêmkirin celebên vê xeletiyê mimkun in.

Naha, em ji vê hevsengiya di navbera beralîbûn û cihêrengiya di modelê de wekî danûstendinek bias-variance dibêjin, û divê ew her gav hebe. Ev bazirganî bi karanîna fêrbûna ensembleyê pêk tê.

Her çend cûrbecûr nêzîkatiyên ensembleyê hene jî, ji bo berhevkirina gelek modelan du stratejiyên hevpar hene:

Nêzîkatiyek xwemalî ya bi navê bagging koma perwerdehiyê bikar tîne da ku komên perwerdehiya zêde hilberîne.
Zêdekirin, teknîkek sofîstîketir: Mîna çenteyê, zêdekirin ji bo dîtina formula giraniya îdeal a komek perwerdehiyê tê bikar anîn.

20. Modelên parametrîk bi rastî çi ne? Mînakekê bidin.

Di modelên parametrîk de hejmareke sînorkirî ya parametreyan hene. Ji bo pêşbînkirina daneyan, ya ku hûn hewce ne ku zanibin pîvanên modelê ne.

Nimûneyên jêrîn nimûneyên tîpîk in: paşveçûna lojîstîkî, paşveçûna xêzik, û SVM-yên xêzkirî. Modelên ne-parametrîk maqûl in ji ber ku ew dikarin hejmareke bêsînor pîvanan bihewînin.

Parametreyên modelê û rewşa daneyên çavdêrîkirî ji bo pêşbîniyên daneyê hewce ne. Li vir çend mînakên tîpîk hene: modelên mijarê, darên biryarê, û k-cîranên herî nêzîk.

21. Parzûnkirina hevkariyê diyar bike. Her weha fîlterkirina naverokê?

Rêbazek ceribandin-û-rast ji bo afirandina pêşniyarên naverokê yên lihevhatî fîlterkirina hevkar e.

Formek pergala pêşniyarê ya ku jê re fîlterkirina hevkarî tê gotin, materyalek nû pêşbînî dike bi hevsengkirina bijareyên bikarhêner bi berjewendîyên hevpar re.

Vebijêrkên bikarhêner yekane tiştê ku pergalên pêşniyar-based naverokê dihesibînin. Di ronahiya hilbijartinên berê yên bikarhêner de, pêşniyarên nû ji materyalê têkildar têne peyda kirin.

22. Mebesta te ji rêzenivîsa Dem çi ye?

Rêzeya dem berhevkirina hejmaran bi rêza hilkişînê ye. Di serdemek demek diyarkirî de, ew tevgera xalên daneya hilbijartî dişopîne û bi awayekî periyodîk xalên daneyê digire.

Ji bo rêzikên demê têketina dema herî kêm an herî zêde tune.

Rêzên demê bi gelemperî ji hêla analîstan ve têne bikar anîn da ku daneyan li gorî hewcedariyên wan ên bêhempa analîz bikin.

23. Guhertoyên di navbera algorîtmayên Zêdekirina Gradient û Daristana Rasthatî de vebêjin.

Daristana Rasthatî:

Hejmarek mezin ji darên biryarê di dawiyê de bi hev re têne berhev kirin û wekî daristanên random têne zanîn.
Dema ku zêdekirina gradientê her darê ji yên din serbixwe hildiberîne, daristanek bêserûber her darê yek bi yek ava dike.
Multiclass tespîtkirina objektê bi daristanên random re baş dixebite.

Zêdekirina Gradient:

Dema ku daristanên Random di dawiya pêvajoyê de tev li darên biryarê dibin, Makîneyên Hêzkirina Gradient wan ji destpêkê ve bihev dikin.
Ger parametre bi rêkûpêk werin sererast kirin, zêdekirina gradientê ji hêla encaman ve ji daristanên rasthatî derdixe pêş, lê heke berhevoka daneyê gelek derbider, anomalî, an deng hebe, ji ber ku ew dikare bibe sedema ku model zêde bibe.
Gava ku daneya bêhevseng hebe, wekî ku di nirxandina xetereya rast-ê de heye, zêdekirina gradientê baş pêk tîne.

24. Çima hûn hewceyê matrixek tevliheviyê ne? Çiye?

Tabloyek ku wekî matrixa tevliheviyê tê zanîn, carinan wekî matrixa xeletiyê tê zanîn, bi berfirehî tê bikar anîn da ku nîşan bide ka modelek dabeşkirinê, an dabeşker çiqas baş li ser komek daneyên ceribandinê yên ku nirxên rastîn têne zanîn performans dike.

Ew dihêle ku em bibînin ka modelek an algorîtmayek çawa dike. Ew ji me re hêsan dike ku em di nav qursên cihêreng de têgihîştinê bibînin.

Ew wekî rêyek ji bo nirxandina ka modelek an algorîtmayek çawa tête kirin re xizmetê dike.

Pêşbîniyên modelek dabeşkirinê di nav matrixek tevliheviyê de têne berhev kirin. Nirxên hejmartina her etîketa polê ji bo şikandina jimareya giştî ya pêşbîniyên rast û nerast hatine bikar anîn.

Ew hûrguliyên li ser xeletiyên ku ji hêla dabeşker ve hatî çêkirin û her weha celebên cûda yên xeletiyên ku ji hêla dabeşker ve têne çêkirin de peyda dike.

25. Bi rastî analîzek pêkhateya prensîpê çi ye?

Bi kêmkirina hejmara guhêrbarên ku bi hevûdu re têkildar in, armanc ew e ku pîvana berhevkirina daneyan kêm bike. Lê girîng e ku cihêrengiyê bi qasî ku gengaz bimîne.

Guherbar di nav komek bi tevahî nû ya guhêrbaran de têne guheztin ku jê re hêmanên sereke tê gotin.

Van PC-yên ortogonal in ji ber ku ew vektorên taybetî yên matrixek hevvarîansê ne.

26. Çima zivirîna pêkhateyan ji bo PCA (analîzkirina pêkhateya sereke) ew qas girîng e?

Zivirandin di PCA de pir girîng e ji ber ku ew veqetandina di navbera ciyawaziyên ku ji hêla her pêkhateyê ve têne peyda kirin xweşbîn dike, şirovekirina pêkhateyê hêsantir dike.

Ger pêkhate neyên zivirandin, em ji pêkhateyên dirêjkirî hewce dikin ku guheztina pêkhateyan diyar bikin.

27. Birêkûpêkkirin û normalîzekirin çawa ji hev cûda dibin?

Normalîzasyon:

Daneyên di dema normalîzekirinê de têne guhertin. Ger pîvanên wê bi giranî cûda bin, nemaze ji nizm berbi bilind, divê hûn daneyan normal bikin. Her stûnê rast bikin da ku statîstîkên bingehîn hemî lihevhatî bin.

Ji bo ku hûn pêbaweriyê winda nekin, ev dikare kêrhatî be. Tespîtkirina sînyalê dema guhnedana deng yek ji armancên perwerdehiya modelê ye.

Ger ku modela bi tevahî kontrol were dayîn da ku xeletiyê kêm bike, şansek zêde guncan heye.

Birêkûpêkkirin:

Di rêkûpêkkirinê de, fonksiyona pêşbîniyê tê guhertin. Ev bi rêkûpêkkirinê ve bi hindek kontrolê ve girêdayî ye, ku fonksiyonên guncantir li ser yên tevlihev diparêze.

28. Normalîzasyon û standartbûn ji hev çawa cuda ne?

Du teknîkên ku herî zêde têne bikar anîn ji bo pîvandina taybetmendiyê normalîzekirin û standardkirin in.

Normalîzasyon:

Vejandina daneyan li gorî rêzek [0,1] wekî normalîzekirinê tê zanîn.
Gava ku pêdivî ye ku hemî pîvan xwedî heman pîvanek erênî bin, normalîzekirin alîkar e, lê hûrgelên daneyên daneyê winda dibin.

Birêkûpêkkirin:

Daneyên ji nû ve têne pîvandin ku xwediyê navgînek 0 û veguheztina standard a 1 be wekî beşek ji pêvajoya standardkirinê (Vîrengiya yekîneyê)

29. Wateya "faktora enflasyonê ya variansê" bi rastî çi ye?

Rêjeya guhêrbariya modelê ya bi veguheztina modela bi tenê yek guhêrbarek serbixwe re wekî faktora enflasyonê ya guheztinê (VIF) tê zanîn.

VIF mîqdara pirhejmariya ku di komek çend guhêrbarên regresyonê de heye texmîn dike.

Variance of Model (VIF) Model bi Yek Variable Variable Serbixwe

30. Li ser bingeha mezinahiya koma perwerdehiyê, hûn çawa dabeşkerek hilbijêrin?

Modelek bialoziyek bilind, cûdahiya kêm ji bo komek perwerdehiya kurt çêtir performans dike ji ber ku zêde guncan kêm e. Naive Bayes yek nimûne ye.

Ji bo ku ji bo komek perwerdehiyek mezin danûstendinên tevlihevtir werin temsîl kirin, modelek bi biasiya kêm û cûdahiya zêde tê tercîh kirin. Regresyona lojîstîkî mînakek baş e.

31. Di fêrbûna makîneyê de kîjan algorîtma wekî "xwendekarê tembel" tê binavkirin û çima?

Xwendevanek sist, KNN algorîtmayek fêrbûna makîneyê ye. Ji ber ku K-NN bi dînamîk dûr dihesibîne her carê ku ew dixwaze li şûna ku ji daneyên perwerdehiyê nirx an guhêrbarên fêrbûyî yên makîneyê fêr bibe, dabeş bike, ew databasa perwerdehiyê ji bîr dike.

Ev yek K-NN-ê hînkerek tembel dike.

32. ROC Curve û AUC çi ne?

Performansa modelek dabeşkirinê di hemî bendan de bi grafîkî ji hêla kêşeya ROC ve tê destnîşan kirin. Rêjeya erênî ya rastîn û pîvanên rêjeya erênî yên derewîn heye.

Bi hêsanî tê gotin, devera ku di binê keviya ROC de wekî AUC (Area Under the ROC Curve) tê zanîn. Qada du-alî ya kembera ROC ji (0,0) heya AUC tê pîvandin (1,1). Ji bo nirxandina modelên dabeşkirina binary, ew wekî statîstîkek performansê tête bikar anîn.

33. Hîperparametre çi ne? Çi wan ji pîvanên modelê yekta dike?

Guherbarek navxweyî ya modelê wekî pîvanek modelê tê zanîn. Bi karanîna daneya perwerdehiyê, nirxek parametreyek nêzik e.

Ji modelê re nayê zanîn, hîperparameterek guhêrbar e. Nirx ji daneyan nayê destnîşankirin, ji ber vê yekê ew bi gelemperî têne xebitandin ku pîvanên modelê hesab bikin.

34. F1 Score, bibîranîn û rastbûn tê çi wateyê?

Pîvana tevliheviyê metrîka ye ku ji bo pîvandina bandora modela dabeşkirinê tête bikar anîn. Gotinên jêrîn dikarin werin bikar anîn da ku metrîka tevliheviyê baştir rave bikin:

TP: Erênî rast - Ev nirxên erênî ne ku bi rêkûpêk hatine pêşbînî kirin. Ew pêşniyar dike ku nirxên çîna pêşbînkirî û çîna rastîn herdu jî erênî ne.

TN: Neyînîyên Rast- Ev nirxên neyînî ne ku bi rast hatine pêşbînîkirin. Ew pêşniyar dike ku hem nirxa çîna rastîn û hem jî çîna pêşbînî neyînî ne.

Van nirxan - erênîyên derewîn û neyînîyên derewîn - dema ku çîna weya rastîn ji çîna pêşbînîkirî cûda dibe çêdibin.

Niha,

Rêjeya rêjeya erênî ya rastîn (TP) ji hemî çavdêriyên ku di çîna rastîn de têne çêkirin, jê re tê gotin, ku wekî hestiyar jî tê zanîn.

Bîranîn TP/(TP+FN) ye.

Rastbûn pîvanek nirxa pêşdîtinê ya erênî ye, ku hejmara erênîyên ku model bi rastî pêşbîn dike bi çend erênîyên rast ên ku ew bi rastî pêşbîn dike berhev dike.

Rastbûn TP/(TP + FP) ye

Metrîka performansê ya herî hêsan ku tê fêm kirin rastbûn e, ku tenê rêjeya çavdêriyên bi rêkûpêk pêşbînîkirî ji hemî çavdêriyan re ye.

Rastbûn bi (TP+TN)/(TP+FP+FN+TN) wekhev e.

Rastbûn û Recall ji bo peydakirina Pûanên F1 têne giran kirin û navîn. Wekî encamek, ev xal hem erênîyên derewîn û hem jî neyînîyên derewîn dihesibîne.

F1 bi gelemperî ji rastbûnê bi qîmettir e, nemaze ger ku we dabeşek çînek newekhev hebe, her çend bi têgihîştî ew qas ne hêsan be ku têgihîştina rastbûnê jî hebe.

Rastiya herî baş tê bidestxistin dema ku lêçûna erênîyên derewîn û neyînîyên derewîn berawirdî be. Ger lêçûnên ku bi pozîtîfên derewîn û neyînîyên derewîn re têkildar in girîng e ku meriv hem Precision û hem jî Recall têxe nav xwe.

35. Bi rastî erêkirina xaçê çi ye?

Nêzîkatiyek ji nûvekirina nimûneyên îstatîstîkî ya ku jê re tê gotin erêkirina xaçerê di fêrbûna makîneyê de çend binkomên danezanê bikar tîne da ku algorîtmayek fêrbûna makîneyê di nav çend qonaxan de perwerde bike û binirxîne.

Parçeyek nû ya daneyan ku ji bo perwerdekirina modelê nehat bikar anîn, bi karanîna erêkirina xaçerê tê ceribandin da ku bibînin ka model wê çiqas baş pêşbîn dike. Zêdebûna daneyan bi erêkirina xaçerê tê asteng kirin.

K-Fold Rêbaza ji nû ve nimûnekirinê ya ku herî zêde tê bikar anîn tevahiya databasê di K komikên bi mezinahiyên wekhev de vediqetîne. Jê re tê gotin erêkirina xaçerê.

36. Ka em bêjin we keşif kir ku modela we cûdahiyek girîng heye. Li gorî we kîjan algorîtma ji bo birêvebirina vê rewşê herî maqûl e?

Birêvebirina guherbariya bilind

Divê em teknîka çenteyê ji bo pirsgirêkên bi guhertoyên mezin bikar bînin.

Nimûneya dubare ya daneyên rasthatî dê ji hêla algorîtmaya çenteyê ve were bikar anîn da ku daneyan li binekoman dabeş bike. Dema ku dane dabeş kirin, em dikarin daneyên rasthatî û pêvajoyek perwerdehiyê ya taybetî bikar bînin da ku qaîdeyan çêbikin.

Piştî wê, anket dikare were bikar anîn da ku pêşbîniyên modelê berhev bike.

37. Çi vegerandina Ridge ji paşveçûna Lasso cuda dike?

Du rêbazên rêkûpêkkirinê yên ku bi berfirehî têne bikar anîn ev in Lasso (ku jê re L1 jî tê gotin) û Ridge (carinan jê re L2 tê gotin). Ew ji bo pêşîgirtina zêdekirina daneyan têne bikar anîn.

Ji bo vedîtina çareseriya çêtirîn û kêmkirina tevliheviyê, van teknîkan ji bo cezakirina hevberan têne bikar anîn. Bi cezakirina tevahî nirxên mutleq ên hevberan re, regresyona Lasso tevdigere.

Fonksiyona cezakirinê di regresyona Ridge an L2 de ji berhevoka çarçikên hevberan tê peyda kirin.

38. Kîjan girîngtir e: performansa modelê an rastbûna modelê? Kîjan yek û çima hûn ê jê hez bikin?

Ev pirsek xapînok e, ji ber vê yekê divê meriv pêşî fam bike ka Performansa Modelê çi ye. Ger performans wekî lezê were pênase kirin, wê hingê ew xwe dispêre celebê serîlêdanê; her serîlêdana ku di rewşek rast-ê de têkildar be dê leza bilind wekî hêmanek girîng hewce bike.

Mînakî, Encamên Lêgerînê yên çêtirîn dê kêm qîmet bibin heke encamên Pirsnameyê pir dirêj bigihîjin.

Ger Performans wekî rastdariyek ji bo vê yekê were bikar anîn ku çima rastbûn û bibîranîn divê li jor rastbûnê were pêşanîn, wê hingê xalek F1 dê ji rastbûnê di nîşandana doza karsaziyê de ji bo her komek daneya ku hevsengî ye bikêrtir be.

39. Hûn ê çawa danûstendinek bi newekheviyan birêve bibin?

Daneyek nehevseng dikare ji teknîkên nimûneyê sûd werbigire. Nimûnekirin dikare bi şêwazek bin an jî bi rengek zêde were kirin.

Bin Sampling rê dide me ku em qebareya çîna piraniyê piçûk bikin da ku bi çîna hindikahiyê re li hev bikin, ev yek di zêdekirina lezê de di derbarê hilanîn û dema xebitandinê de dibe alîkar lê di heman demê de dikare bibe sedema windakirina daneyên hêja.

Ji bo ku em pirsgirêka windabûna agahdariyê ya ku ji ber nimûneyên zêde çêdibe çareser bikin, em çîna Kêmaran hildibijêrin; dîsa jî, ev dibe sedem ku em bikevin nav pirsgirêkên zêde.

Stratejiyên din jî hene:

Nimûnekirina Bi Bingeha Komê- Di vê rewşê de mînakên çîna hindikahî û piraniyê bi ferdî dikevin bin teknîka komkirina K-wateyan. Ev ji bo dîtina komên daneyan tê kirin. Dûv re, her komik zêde tê nimûnekirin da ku hemî çîn xwedî heman mezinahiyê bin û hemî komikên di nav polê de xwediyê hejmarek nimûneyên wekhev bin.
SMOTE: Teknîka Zêdeya Nimûnekirina Kêmahiya Sentetîk- Parçeyek daneya ji çîna hindikahiyê wekî mînak tê bikar anîn, pişt re mînakên çêkirî yên din ên ku bi wê re têne berhev kirin têne hilberandin û li daneya orîjînal têne zêdekirin. Ev rêbaz bi xalên daneyên hejmarî re baş dixebite.

40. Tu çawa dikarî ferq û cudahiyê bikî navbera zêdekirin û çentekirinê?

Teknolojiyên Ensembleyê guhertoyên ku wekî çente û zêdekirin têne zanîn hene.

Çêkirin-

Ji bo algorîtmayên bi guhertoyek zêde, bagging teknîkek e ku ji bo kêmkirina veguheztinê tê bikar anîn. Yek ji van malbatek dabeşkeran ku meyla beralîbûnê ye, malbata dara biryarê ye.

Cûreya daneyên ku darên biryarê li ser têne perwerde kirin bandorek girîng li ser performansa wan heye. Ji ber vê yekê, tewra digel rêziknameya pir bilind jî, gelemperîkirina encaman carinan di wan de pir dijwartir e.

Ger daneyên perwerdehiya darên biryarê were guheztin, encam bi girîngî diguhezin.

Wekî encamek, bagging tê bikar anîn, ku tê de gelek darên biryarê têne afirandin, ku her yek ji wan bi karanîna nimûneyek daneyên orîjînal têne perwerde kirin, û encama dawiyê navînî van hemî modelên cihêreng e.

Zêdekirin:

Boostkirin teknîka çêkirina pêşbîniyan bi pergalek n-qels e ku tê de her dabeşkerek qels kêmasiyên dabeşkerên xwe yên bihêztir çêdike. Em dabeşkerek ku li ser berhevokek daneya diyarkirî xirab dike wekî "teşnavkerek qels" binav dikin.

Zehfkirin eşkere pêvajoyek e ji bilî algorîtmayek. Regresyona lojîstîkî û darên biryarê yên hûrgelî mînakên hevpar ên dabeşkerên qels in.

Adaboost, Gradient Boosting, û XGBoost du algorîtmayên bihêzkirina herî populer in, lêbelê, gelekên din jî hene.

41. Cudahiyên di navbera hînbûna înduktîf û deduktîf de rave bike.

Dema ku bi mînakek ji komek nimûneyên çavdêrîkirî fêr dibe, modelek fêrbûna înduktîf bikar tîne da ku bigihîje encamek giştî. Ji hêla din ve, bi fêrbûna deduktîv re, model berî ku xwe çêbike encamê bikar tîne.

Fêrbûna înduktîf pêvajoya derxistina encaman ji çavdêriyan e.

Fêrbûna deduktîv pêvajoya afirandina çavdêriyan e ku li ser bingeha encaman têne çêkirin.

Xelasî

Pîroz be! Vana 40 û jorîn pirsên hevpeyivînê yên ji bo fêrbûna makîneyê ne ku hûn naha bersivên wan dizanin. Zanistiya daneyan û çêkirî her ku teknolojiyek pêş dikeve dê pîşeyan berdewam bikin.

Namzetên ku zanîna xwe di derbarê van teknolojiyên pêşkeftî de nûve dikin û şarezatiya xwe baştir dikin dikarin bi mûçeya pêşbaziyê re cûrbecûr derfetên kar bibînin.

Naha ku hûn têgihiştinek zexm heye ka meriv çawa bersivê dide hin pirsên hevpeyivîna fêrbûna makîneyê ya ku pir têne pirsîn, hûn dikarin bi bersivdana hevpeyivînan bidomînin.

Bi armancên xwe ve girêdayî, gava jêrîn bavêjin. Bi serdana Hashdork's ji bo hevpeyivînan amade bibin Hevpeyvîn Series.

Zêdetirî 40 Pirsên Hevpeyvînê yên Fêrbûna Makîneyê