Ən yaxşı 40+ Maşın Öyrənməsi Müsahibə Sualları (2024)

Mündəricat[Gizlət][Göstər]

1. Maşın öyrənməsi, süni intellekt və dərin öyrənmə arasındakı fərqləri izah edin.
2. Maşın öyrənmənin müxtəlif növlərini təsvir edin.
3. Dispersiyaya qarşı qərəzlilik nədir?
4. Maşın öyrənmə alqoritmləri zamanla əhəmiyyətli dərəcədə inkişaf etmişdir. Verilən məlumat dəstindən istifadə etmək üçün düzgün alqoritmi necə seçmək olar?
5. Kovariasiya və korrelyasiya necə fərqlənir?
6. Maşın öyrənməsində klasterləşmə nə deməkdir?
7. Tercih etdiyiniz maşın öyrənmə alqoritmi hansıdır?
8. Maşın öyrənməsində xətti reqressiya: bu nədir?
9. KNN və k-vasitələrinin klasterləşməsi arasındakı fərqləri təsvir edin.
10. “Seçmə qərəzi” sizin üçün nə deməkdir?
11. Bayes teoremi tam olaraq nədir?
12. Maşın Öyrənmə Modelində “təlim dəsti” və “test dəsti” nədir?
13. Maşın Öyrənməsində Hipoteza nədir?
14. Maşın öyrənməsinin həddən artıq uyğunlaşması nə deməkdir və bunun qarşısını necə almaq olar?
15. Naive Bayes klassifikatorları məhz hansılardır?
16. Xərc funksiyaları və zərər funksiyaları nə deməkdir?
17. Generativ modeli diskriminativ modeldən nə ilə fərqləndirir?
18. Tip I və II tip xətalar arasındakı variasiyaları təsvir edin.
19. Maşın öyrənməsində Ansambl öyrənmə texnikası nədir?
20. Parametrik modellər məhz hansılardır? Nümunə verin.
21. Birgə filtrasiyanı təsvir edin. Eləcə də məzmuna əsaslanan filtrasiya?
22. Zaman seriyası dedikdə dəqiq nəyi nəzərdə tutursunuz?
23. Gradient Boosting və Random Forest alqoritmləri arasındakı variasiyaları təsvir edin.
24. Qarışıqlıq matrisi nə üçün lazımdır? Bu nədir?
25. Prinsip komponent analizi tam olaraq nədir?
26. Nə üçün komponentlərin fırlanması PCA (əsas komponent təhlili) üçün bu qədər vacibdir?
27. Normallaşdırma və normallaşdırma bir-birindən necə fərqlənir?
28. Normallaşdırma və standartlaşdırma bir-birindən nə ilə fərqlənir?
29. “Dəyişən inflyasiya faktoru” dəqiq nə deməkdir?
30. Təlim dəstinin ölçüsünə əsasən, təsnifatı necə seçirsiniz?
31. Maşın öyrənməsində hansı alqoritm “tənbəl öyrənən” adlanır və niyə?
32. ROC əyrisi və AUC nədir?
33. Hiperparametrlər hansılardır? Onları model parametrlərindən unikal edən nədir?
34. F1 Qiymətləndirmə, geri çağırma və dəqiqlik nə deməkdir?
35. Çarpaz doğrulama dəqiq nədir?
36. Tutaq ki, siz modelinizin əhəmiyyətli bir fərqə malik olduğunu kəşf etdiniz. Sizcə, bu vəziyyəti idarə etmək üçün hansı alqoritm daha uyğundur?
37. Ridge reqressiyasını Lasso reqressiyasından nə ilə fərqləndirir?
38. Hansı daha vacibdir: modelin performansı yoxsa modelin dəqiqliyi? Hansına və niyə ona üstünlük verəcəksiniz?
39. Bərabərsizlikləri olan verilənlər toplusunu necə idarə edərdiniz?
40. Boosting və bagging arasında necə fərqlənə bilərsiniz?
41. İnduktiv və deduktiv öyrənmə arasındakı fərqləri izah edin.
Nəticə

Müəssisələr informasiya və xidmətlərin fərdlər üçün əlçatanlığını artırmaq üçün süni intellekt (AI) və maşın öyrənməsi kimi qabaqcıl texnologiyalardan istifadə edirlər.

Bu texnologiyalar bank, maliyyə, pərakəndə satış, istehsal və səhiyyə də daxil olmaqla müxtəlif sənaye sahələri tərəfindən mənimsənilir.

Süni intellektdən istifadə edən ən çox axtarılan təşkilati rollardan biri məlumat alimləri, süni intellekt mühəndisləri, maşın öyrənmə mühəndisləri və məlumat analitikləri üçündür.

Bu yazı sizi müxtəlif yollarla aparacaq maşın təlim İdeal işinizi axtararkən sizə verilə biləcək hər hansı suala hazırlaşmağınıza kömək etmək üçün əsasdan mürəkkəbə qədər müsahibə sualları.

1. Maşın öyrənməsi, süni intellekt və dərin öyrənmə arasındakı fərqləri izah edin.

Süni intellekt kompüter sistemlərinə insana bənzər intellektdən istifadə edərək məntiq və qaydalarla tapşırıqları yerinə yetirməyə imkan verən müxtəlif maşın öyrənməsi və dərin öyrənmə yanaşmalarından istifadə edir.

Maşın öyrənməsi maşınlara əvvəlki performanslarından öyrənmək və insan nəzarəti olmadan müəyyən tapşırıqları təkbaşına yerinə yetirməkdə daha bacarıqlı olmaq üçün müxtəlif statistika və Dərin Öyrənmə yanaşmalarından istifadə edir.

Dərin Öyrənmə proqram təminatının özündən öyrənməsinə və səs və şəklin tanınması kimi müxtəlif kommersiya funksiyalarını yerinə yetirməsinə imkan verən alqoritmlər toplusudur.

Onların çoxqatlılığını ifşa edən sistemlər sinir şəbəkələri öyrənmə üçün böyük həcmdə məlumatlara dərindən öyrənmə edə bilərlər.

2. Maşın öyrənmənin müxtəlif növlərini təsvir edin.

Maşın öyrənməsi üç müxtəlif növdə mövcuddur:

Nəzarət olunan Öyrənmə: Model nəzarət edilən maşın öyrənməsində etiketli və ya tarixi datadan istifadə edərək proqnozlar və ya mühakimələr yaradır. Mənasını artırmaq üçün işarələnmiş və ya etiketlənmiş məlumat dəstləri etiketlənmiş verilənlər adlanır.
Nəzarətsiz Öyrənmə: Nəzarətsiz öyrənmə üçün etiketlənmiş məlumatımız yoxdur. Daxil olan məlumatlarda model nümunələri, qəribəlikləri və korrelyasiyaları tapa bilər.
Gücləndirici Öyrənmə: Model edə bilər möhkəmləndirmədən istifadə edərək öyrənin öyrənmə və əvvəlki davranışına görə aldığı mükafatlar.

3. Dispersiyaya qarşı qərəzlilik nədir?

Həddindən artıq uyğunlaşma qərəzliliyin nəticəsidir ki, bu da modelin məlumatlara uyğunluq dərəcəsidir. Qərəz sizin yanlış və ya çox sadə fərziyyələrdən qaynaqlanır maşın öyrənmə alqoritmi.

Dəyişiklik, ML alqoritminizdəki mürəkkəbliyin səbəb olduğu səhvlərə aiddir, bu, təlim məlumatlarında və həddən artıq uyğunlaşmada böyük dərəcədə fərqliliklərə həssaslıq yaradır.

Variasiya, girişlərdən asılı olaraq bir modelin nə qədər dəyişdiyidir.

Başqa sözlə, əsas modellər son dərəcə qərəzli, lakin sabitdir (aşağı variasiya). Həddindən artıq uyğunlaşma mürəkkəb modellərdə problemdir, baxmayaraq ki, onlar modelin reallığını (aşağı qərəz) tuturlar.

Həm yüksək dəyişkənliyin, həm də yüksək qərəzliliyin qarşısını almaq üçün səhvlərin ən yaxşı şəkildə azaldılması üçün qərəz və variasiya arasında uyğunlaşma lazımdır.

4. Maşın öyrənmə alqoritmləri zamanla əhəmiyyətli dərəcədə inkişaf etmişdir. Verilən məlumat dəstindən istifadə etmək üçün düzgün alqoritmi necə seçmək olar?

İstifadə edilməli olan maşın öyrənmə texnikası yalnız müəyyən verilənlər bazasındakı verilənlərin növündən asılıdır.

Verilənlər xətti olduqda, xətti reqressiya istifadə olunur. Əgər məlumatların qeyri-xətti olduğunu göstərsəydi, torbalama üsulu daha yaxşı performans göstərərdi. Məlumatların kommersiya məqsədləri üçün qiymətləndirilməsi və ya şərh edilməsi lazımdırsa, qərar ağaclarından və ya SVM-dən istifadə edə bilərik.

Məlumat toplusuna fotolar, videolar və audiolar daxildirsə, neyron şəbəkələri dəqiq cavab almaq üçün faydalı ola bilər.

Müəyyən bir vəziyyət və ya məlumatların toplanması üçün alqoritm seçimi yalnız bir ölçü ilə edilə bilməz.

Ən yaxşı uyğunluq metodunu inkişaf etdirmək üçün əvvəlcə kəşfiyyat məlumatlarının təhlili (EDA) istifadə edərək məlumatları araşdırmalı və verilənlər bazasından istifadə məqsədini dərk etməliyik.

5. Kovariasiya və korrelyasiya necə fərqlənir?

Kovariasiya iki dəyişənin bir-birinə necə bağlı olduğunu və birinin digərindəki dəyişikliklərə cavab olaraq necə dəyişə biləcəyini qiymətləndirir.

Nəticə müsbət olarsa, bu, dəyişənlər arasında birbaşa əlaqənin olduğunu və bütün digər şərtlərin sabit qaldığını fərz edərək, əsas dəyişənin artması və ya azalması ilə birinin yüksələcəyini və ya azalacağını göstərir.

Korrelyasiya iki təsadüfi dəyişən arasındakı əlaqəni ölçür və yalnız üç fərqli qiymətə malikdir: 1, 0 və -1.

6. Maşın öyrənməsində klasterləşmə nə deməkdir?

Məlumat nöqtələrini qruplaşdıran nəzarətsiz öyrənmə üsulları klasterləşmə adlanır. Məlumat nöqtələrinin toplanması ilə klaster texnikası tətbiq oluna bilər.

Bu strategiyadan istifadə edərək bütün məlumat nöqtələrini funksiyalarına görə qruplaşdıra bilərsiniz.

Eyni kateqoriyaya daxil olan məlumat nöqtələrinin xüsusiyyətləri və keyfiyyətləri oxşardır, ayrı-ayrı qruplara daxil olan məlumat nöqtələri isə fərqlidir.

Bu yanaşma statistik məlumatları təhlil etmək üçün istifadə edilə bilər.

7. Tercih etdiyiniz maşın öyrənmə alqoritmi hansıdır?

Bu sualda üstünlüklərinizi və unikal istedadlarınızı, eləcə də çoxsaylı maşın öyrənmə texnikalarına dair hərtərəfli biliklərinizi nümayiş etdirmək şansınız var.

Burada düşünmək üçün bir neçə tipik maşın öyrənmə alqoritmi var:

Xətti reqressiya
Logistik reqressiya
Sadəlövh Bayes
Qərar ağacı
K deməkdir
Təsadüfi meşə alqoritmi
K-ən yaxın qonşu (KNN)

8. Maşın öyrənməsində xətti reqressiya: bu nədir?

Nəzarət olunan maşın öyrənmə alqoritmi xətti reqressiyadır.

Asılı və müstəqil dəyişənlər arasında xətti əlaqəni təyin etmək üçün proqnozlaşdırıcı analizdə istifadə olunur.

Xətti reqressiyanın tənliyi aşağıdakı kimidir:

Y = A + BX

burada:

Giriş və ya müstəqil dəyişən X adlanır.
Asılı və ya çıxış dəyişəni Y-dir.
X-in əmsalı b, kəsişməsi isə a-dır.

9. KNN və k-vasitələrinin klasterləşməsi arasındakı fərqləri təsvir edin.

Əsas fərq ondan ibarətdir ki, KNN (təsnifat metodu, nəzarət edilən öyrənmə) etiketli nöqtələrə ehtiyac duyur, k-vasitəsi isə tələb etmir (klasterləşdirmə alqoritmi, nəzarətsiz öyrənmə).

Siz K-Yaxın Qonşulardan istifadə edərək etiketli məlumatları etiketsiz nöqtəyə təsnif edə bilərsiniz. K-vasitələri klasterləşdirmə, etiketlənməmiş nöqtələri necə qruplaşdırmağı öyrənmək üçün nöqtələr arasındakı orta məsafədən istifadə edir.

10. “Seçmə qərəzi” sizin üçün nə deməkdir?

Təcrübənin seçmə mərhələsindəki qərəz statistik qeyri-dəqiqliklə bağlıdır.

Təcrübədə qeyri-dəqiqlik nəticəsində bir nümunə qrupu digər qruplara nisbətən daha tez-tez seçilir.

Seçimdə qərəzlilik qəbul edilməzsə, bu, yanlış nəticə ilə nəticələnə bilər.

11. Bayes teoremi tam olaraq nədir?

Başqa ehtimallardan xəbərdar olduqda, Bayes teoremindən istifadə edərək bir ehtimal müəyyən edə bilərik. Başqa sözlə, əvvəlki məlumatlara əsaslanan bir hadisənin sonrakı ehtimalını təklif edir.

Şərti ehtimalların qiymətləndirilməsi üçün əsaslı üsul bu teoremlə təmin edilir.

Təsnifat proqnozlaşdırıcı modelləşdirmə problemlərini hazırlayarkən və bir modeli təlimə uyğunlaşdırarkən maşın öyrənməsində verilənlər toplusu, Bayes teoremi tətbiq edilir (yəni Naive Bayes, Bayes Optimal Classifier).

12. Maşın Öyrənmə Modelində “təlim dəsti” və “test dəsti” nədir?

Təlim dəsti:

Təlim dəsti təhlil və öyrənmə üçün modelə göndərilən nümunələrdən ibarətdir.
Bu, modeli öyrətmək üçün istifadə ediləcək etiketli məlumatlardır.
Tipik olaraq, ümumi məlumatların 70%-i təlim verilənlər bazası kimi istifadə olunur.

Test dəsti:

Test dəsti modelin fərziyyəsini yaratmaq düzgünlüyünü qiymətləndirmək üçün istifadə olunur.
Biz etiketli data olmadan test edirik və sonra nəticələri təsdiqləmək üçün etiketlərdən istifadə edirik.
Qalan 30% test məlumat dəsti kimi istifadə olunur.

13. Maşın Öyrənməsində Hipoteza nədir?

Maşın öyrənmə girişi çıxışla əlaqələndirən verilmiş funksiyanı daha yaxşı başa düşmək üçün mövcud verilənlər dəstlərindən istifadə etməyə imkan verir. Bu funksiya yaxınlaşması kimi tanınır.

Bu halda, naməlum hədəf funksiyası üçün təqribi hesablama tətbiq edilməlidir ki, bu vəziyyətə əsaslanan bütün mümkün müşahidələri ən yaxşı şəkildə ötürsün.

Maşın öyrənməsində fərziyyə, hədəf funksiyanı qiymətləndirməyə və müvafiq giriş-çıxış xəritələrini tamamlamağa kömək edən bir modeldir.

Alqoritmlərin seçilməsi və dizaynı modellə təmsil oluna bilən mümkün fərziyyələrin fəzasını müəyyən etməyə imkan verir.

Tək bir fərziyyə üçün kiçik h (h) hərfindən istifadə olunur, lakin axtarılan bütün fərziyyə sahəsi üçün böyük h (H) istifadə olunur. Bu qeydləri qısaca nəzərdən keçirəcəyik:

Fərziyyə (h) sonradan qiymətləndirmə və proqnozlaşdırma üçün istifadə oluna bilən girişin çıxışa uyğunlaşdırılmasını asanlaşdıran xüsusi modeldir.
Hipotez dəsti (H) girişləri çıxışlara uyğunlaşdırmaq üçün istifadə edilə bilən fərziyyələrin axtarılan məkanıdır. Problem çərçivəsi, model və model konfiqurasiyası ümumi məhdudiyyətlərin bir neçə nümunəsidir.

14. Maşın öyrənməsinin həddən artıq uyğunlaşması nə deməkdir və bunun qarşısını necə almaq olar?

Maşın qeyri-kafi məlumat dəstindən öyrənməyə çalışdıqda, həddindən artıq uyğunlaşma baş verir.

Nəticədə, həddindən artıq uyğunlaşma məlumat həcmi ilə tərs korrelyasiya olunur. Çarpaz doğrulama yanaşması kiçik verilənlər dəstləri üçün həddindən artıq uyğunlaşmanın qarşısını almağa imkan verir. Bu metodda verilənlər dəsti iki hissəyə bölünür.

Test və təlim üçün verilənlər bazası bu iki hissədən ibarət olacaq. Təlim verilənlər bazası model yaratmaq üçün istifadə olunur, test verilənlər bazası isə müxtəlif girişlərdən istifadə edərək modeli qiymətləndirmək üçün istifadə olunur.

Həddindən artıq uyğunlaşmanın qarşısını necə almaq olar.

15. Naive Bayes klassifikatorları məhz hansılardır?

Müxtəlif təsnifat üsulları Naive Bayes təsnifatını təşkil edir. Bu təsnifatçılar kimi tanınan bir sıra alqoritmlərin hamısı eyni əsas ideya üzərində işləyir.

Sadə Bayes klassifikatorları tərəfindən irəli sürülən fərziyyə ondan ibarətdir ki, bir xüsusiyyətin mövcudluğu və ya olmaması başqa bir xüsusiyyətin mövcudluğu və ya olmaması ilə heç bir əlaqəsi yoxdur.

Başqa sözlə, bu, hər bir verilənlər toplusunun atributunun eyni dərəcədə əhəmiyyətli və müstəqil olduğunu fərz etdiyi üçün “sadəlövh” adlandırdığımız şeydir.

Təsnifat sadəlövh Bayes təsnifatçılarından istifadə etməklə aparılır. İstifadəsi sadədir və müstəqillik müddəası doğru olduqda daha mürəkkəb proqnozlaşdırıcılardan daha yaxşı nəticələr verir.

Mətn təhlili, spam filtrasiyası və tövsiyə sistemlərində bunlar istifadə olunur.

16. Xərc funksiyaları və zərər funksiyaları nə deməkdir?

"İtki funksiyası" ifadəsi yalnız bir məlumat parçası nəzərə alındıqda hesablama itkisi prosesinə aiddir.

Əksinə, biz çox sayda məlumat üçün səhvlərin ümumi miqdarını müəyyən etmək üçün xərc funksiyasından istifadə edirik. Heç bir əhəmiyyətli fərq yoxdur.

Başqa sözlə, xərc funksiyaları bütün təlim verilənlər toplusu üçün fərqi birləşdirdiyi halda, itki funksiyaları bir qeyd üçün faktiki və proqnozlaşdırılan dəyərlər arasındakı fərqi tutmaq üçün nəzərdə tutulmuşdur.

17. Generativ modeli diskriminativ modeldən nə ilə fərqləndirir?

Diskriminativ model bir neçə məlumat kateqoriyası arasındakı fərqləri öyrənir. Generativ model müxtəlif məlumat növlərini seçir.

Təsnifat problemlərində diskriminativ modellər çox vaxt digər modellərdən üstündür.

18. Tip I və II tip xətalar arasındakı variasiyaları təsvir edin.

Yanlış pozitivlər Tip I səhvlər kateqoriyasına, yalançı neqativlər isə Tip II xətalara aiddir (əslində heç nə baş vermədiyini iddia edir).

19. Maşın öyrənməsində Ansambl öyrənmə texnikası nədir?

Ansambl öyrənməsi adlanan texnika daha güclü modellər yaratmaq üçün bir çox maşın öyrənmə modellərini qarışdırır.

Bir model müxtəlif səbəblərə görə dəyişə bilər. Bir neçə səbəb var:

Müxtəlif Əhali
Müxtəlif fərziyyələr
Müxtəlif modelləşdirmə üsulları

Modelin təlim və sınaq məlumatlarından istifadə edərkən problemlə qarşılaşacağıq. Qərəz, dispersiya və azaldılmayan xəta bu səhvin mümkün növləridir.

İndi biz modeldəki qərəz və variasiya arasındakı bu tarazlığı qərəz-variasiya ticarəti adlandırırıq və o, həmişə mövcud olmalıdır. Bu mübadilə ansambl öyrənməsindən istifadə etməklə həyata keçirilir.

Müxtəlif ansambl yanaşmaları mövcud olsa da, bir çox modeli birləşdirmək üçün iki ümumi strategiya var:

Torbalama adlanan yerli yanaşma əlavə təlim dəstləri hazırlamaq üçün təlim dəstindən istifadə edir.
Artırma, daha mürəkkəb bir texnika: Torbalama kimi, gücləndirmə məşq dəsti üçün ideal çəki düsturunu tapmaq üçün istifadə olunur.

20. Parametrik modellər məhz hansılardır? Nümunə verin.

Parametrik modellərdə məhdud sayda parametrlər var. Məlumatları proqnozlaşdırmaq üçün yalnız modelin parametrlərini bilmək lazımdır.

Aşağıdakılar tipik nümunələrdir: logistik reqressiya, xətti reqressiya və xətti SVMlər. Qeyri-parametrik modellər çevikdir, çünki onlar qeyri-məhdud sayda parametrləri ehtiva edə bilirlər.

Modelin parametrləri və müşahidə edilən məlumatların vəziyyəti verilənlərin proqnozlaşdırılması üçün tələb olunur. Budur bəzi tipik nümunələr: mövzu modelləri, qərar ağacları və k-ən yaxın qonşular.

21. Birgə filtrasiyanı təsvir edin. Eləcə də məzmuna əsaslanan filtrasiya?

Fərdi məzmun təklifləri yaratmaq üçün sınanmış və doğru üsul birgə filtrləmədir.

Birgə filtrləmə adlanan tövsiyə sistemi forması istifadəçi seçimlərini ortaq maraqlarla balanslaşdırmaqla təzə materialı qabaqcadan xəbər verir.

İstifadəçi seçimləri məzmuna əsaslanan tövsiyə sistemlərinin nəzərə aldığı yeganə şeydir. İstifadəçinin əvvəlki seçimləri nəzərə alınmaqla, əlaqəli materiallardan yeni tövsiyələr verilir.

22. Zaman seriyası dedikdə dəqiq nəyi nəzərdə tutursunuz?

Zaman seriyası artan ardıcıllıqla nömrələr toplusudur. Əvvəlcədən müəyyən edilmiş müddət ərzində o, seçilmiş məlumat nöqtələrinin hərəkətini izləyir və vaxtaşırı məlumat nöqtələrini tutur.

Zaman seriyası üçün minimum və ya maksimum vaxt daxil edilməmişdir.

Zaman sıraları analitiklər tərəfindən öz unikal tələblərinə uyğun olaraq məlumatları təhlil etmək üçün tez-tez istifadə olunur.

23. Gradient Boosting və Random Forest alqoritmləri arasındakı variasiyaları təsvir edin.

Təsadüfi Meşə:

Çox sayda qərar ağacı sonunda birləşir və təsadüfi meşələr kimi tanınır.
Qradiyentin artırılması hər bir ağacı digərlərindən asılı olmayaraq istehsal edərkən, təsadüfi meşə hər ağacı bir-bir düzəldir.
Çox sinifli obyekt aşkarlanması təsadüfi meşələrlə yaxşı işləyir.

Gradient Artırma:

Təsadüfi meşələr prosesin sonunda qərar ağaclarına qoşulsa da, Gradient Boosting Machines onları əvvəldən birləşdirir.
Parametrlər lazımi şəkildə tənzimlənərsə, gradient gücləndirilməsi nəticələr baxımından təsadüfi meşələri üstələyir, lakin məlumat dəstində çoxlu kənar göstəricilər, anomaliyalar və ya səs-küy varsa, bu ağıllı seçim deyil, çünki bu, modelin həddindən artıq uyğunlaşmasına səbəb ola bilər.
Balanssız məlumatlar olduqda, real vaxt risk qiymətləndirməsində olduğu kimi, gradient gücləndirilməsi yaxşı işləyir.

24. Qarışıqlıq matrisi nə üçün lazımdır? Bu nədir?

Qarışıqlıq matrisi kimi tanınan və bəzən səhv matrisi kimi tanınan cədvəl, təsnifat modelinin və ya təsnifatının həqiqi dəyərləri məlum olan bir sıra test məlumatı üzərində nə qədər yaxşı performans göstərdiyini göstərmək üçün geniş istifadə olunur.

Bu, bir modelin və ya alqoritmin necə işlədiyini görməyə imkan verir. Bu, müxtəlif kurslar arasında anlaşılmazlıqları aşkar etməyimizi asanlaşdırır.

Bir modelin və ya alqoritmin nə qədər yaxşı yerinə yetirildiyini qiymətləndirmək üçün bir yol kimi xidmət edir.

Təsnifat modelinin proqnozları qarışıqlıq matrisinə yığılır. Düzgün və yanlış proqnozların ümumi sayını bölmək üçün hər bir sinif etiketinin hesab dəyərlərindən istifadə edilmişdir.

O, təsnifatçı tərəfindən edilən nasazlıqlar, eləcə də təsnifatçıların yaratdığı müxtəlif növ xətalar haqqında təfərrüatları təqdim edir.

25. Prinsip komponent analizi tam olaraq nədir?

Bir-biri ilə əlaqəli dəyişənlərin sayını minimuma endirməklə, məqsəd məlumatların toplanmasının ölçüsünü minimuma endirməkdir. Ancaq müxtəlifliyi mümkün qədər saxlamaq vacibdir.

Dəyişənlər əsas komponentlər adlanan tamamilə yeni dəyişənlər dəstinə dəyişdirilir.

Bu fərdi kompüterlər ortoqonaldır, çünki onlar kovariasiya matrisinin xüsusi vektorlarıdır.

26. Nə üçün komponentlərin fırlanması PCA (əsas komponent təhlili) üçün bu qədər vacibdir?

Rotasiya PCA-da çox vacibdir, çünki o, hər bir komponent tərəfindən əldə edilən fərqlər arasındakı ayırmanı optimallaşdırır və komponentin şərhini asanlaşdırır.

Komponentlər fırlanmadıqda komponent dəyişikliyini ifadə etmək üçün genişləndirilmiş komponentlər tələb edirik.

27. Normallaşdırma və normallaşdırma bir-birindən necə fərqlənir?

Normallaşma:

Normallaşdırma zamanı məlumatlar dəyişdirilir. Xüsusilə aşağıdan yuxarıya qədər kəskin şəkildə fərqlənən tərəzi varsa, məlumatları normallaşdırmalısınız. Hər bir sütunu elə tənzimləyin ki, əsas statistika hamısı uyğun olsun.

Dəqiqliyin itirilməməsini təmin etmək üçün bu faydalı ola bilər. Səs-küyə məhəl qoymadan siqnalın aşkarlanması model təliminin məqsədlərindən biridir.

Səhvləri azaltmaq üçün modelə tam nəzarət verilərsə, həddindən artıq uyğunlaşma şansı var.

Tənzimləmə:

Regulyasiyada proqnozlaşdırma funksiyası dəyişdirilir. Bu, nizamlanma yolu ilə müəyyən nəzarətə tabedir ki, bu da mürəkkəb funksiyalara nisbətən daha sadə uyğunlaşdırma funksiyalarına üstünlük verir.

28. Normallaşdırma və standartlaşdırma bir-birindən nə ilə fərqlənir?

Xüsusiyyət miqyası üçün ən çox istifadə edilən iki üsul normallaşdırma və standartlaşdırmadır.

Normallaşma:

Verilənlərin [0,1] diapazonuna uyğun ölçülərinin dəyişdirilməsi normallaşdırma kimi tanınır.
Bütün parametrlər eyni müsbət miqyasda olmalıdırsa, normallaşdırma faydalıdır, lakin məlumat dəstinin kənar göstəriciləri itirilir.

Tənzimləmə:

Standartlaşdırma prosesinin bir hissəsi kimi verilənlər orta 0-a və standart kənara 1-ə malik olmaq üçün yenidən miqyaslanır (Vahid fərqi)

29. “Dəyişən inflyasiya faktoru” dəqiq nə deməkdir?

Modelin dispersiyasının yalnız bir müstəqil dəyişəni olan modelin dispersiyasına nisbəti variasiya inflyasiya faktoru (VIF) kimi tanınır.

VIF bir neçə reqressiya dəyişənləri dəstində mövcud olan multikollinearlığın miqdarını təxmin edir.

Bir Müstəqil Dəyişən Variasiya ilə Modelin Variasiyası (VIF) Modeli

30. Təlim dəstinin ölçüsünə əsasən, təsnifatı necə seçirsiniz?

Yüksək qərəzli, aşağı dəyişkənlik modeli qısa bir məşq dəsti üçün daha yaxşı işləyir, çünki həddindən artıq uyğunlaşma ehtimalı azdır. Naive Bayes bir nümunədir.

Böyük bir məşq dəsti üçün daha mürəkkəb qarşılıqlı əlaqəni təmsil etmək üçün aşağı meyl və yüksək dispersiyaya malik modelə üstünlük verilir. Logistik reqressiya yaxşı bir nümunədir.

31. Maşın öyrənməsində hansı alqoritm “tənbəl öyrənən” adlanır və niyə?

Yavaş öyrənən KNN maşın öyrənmə alqoritmidir. K-NN məşq məlumatlarından hər hansı maşınla öyrənilmiş dəyərləri və ya dəyişənləri öyrənmək əvəzinə təsnif etmək istədiyi hər dəfə məsafəni dinamik şəkildə hesabladığı üçün təlim məlumat dəstini yadda saxlayır.

Bu, K-NN-i tənbəl öyrənən edir.

32. ROC əyrisi və AUC nədir?

Təsnifat modelinin bütün hədlərdə performansı qrafik olaraq ROC əyrisi ilə təmsil olunur. Həqiqi müsbət nisbət və yanlış müsbət dərəcə meyarları var.

Sadə dillə desək, ROC əyrisi altında olan sahə AUC (ARA Under the ROC Curve) kimi tanınır. ROC əyrisinin ikiölçülü sahəsi (0,0) ilə AUC arasında ölçülür (1,1). Binar təsnifat modellərini qiymətləndirmək üçün performans statistikası kimi istifadə olunur.

33. Hiperparametrlər hansılardır? Onları model parametrlərindən unikal edən nədir?

Modelin daxili dəyişəni model parametri kimi tanınır. Təlim məlumatlarından istifadə edərək, parametrin dəyəri təxmini hesablanır.

Modelə məlum olmayan hiperparametr dəyişəndir. Dəyəri məlumatlardan müəyyən edilə bilməz, buna görə də model parametrlərini hesablamaq üçün tez-tez istifadə olunur.

34. F1 Qiymətləndirmə, geri çağırma və dəqiqlik nə deməkdir?

Qarışıqlıq Ölçüsü təsnifat modelinin effektivliyini ölçmək üçün istifadə olunan metrikdir. Qarışıqlıq metrikasını daha yaxşı izah etmək üçün aşağıdakı ifadələrdən istifadə edilə bilər:

TP: Həqiqi Müsbətlər – Bunlar düzgün gözlənilən müsbət dəyərlərdir. Bu, proqnozlaşdırılan sinfin və faktiki sinfin dəyərlərinin həm müsbət olduğunu göstərir.

TN: Əsl Neqativlər- Bunlar dəqiq proqnozlaşdırılan mənfi dəyərlərdir. Bu, həm faktiki sinifin, həm də gözlənilən sinfin dəyərinin mənfi olduğunu göstərir.

Bu dəyərlər - yanlış müsbət və yanlış neqativlər - həqiqi sinifiniz gözlənilən sinifdən fərqli olduqda baş verir.

İndi,

Həqiqi müsbət nisbətin (TP) faktiki sinifdə aparılan bütün müşahidələrə nisbəti geri çağırma adlanır və həssaslıq kimi də tanınır.

Geri çağırma TP/(TP+FN)-dir.

Dəqiqlik, modelin həqiqətən proqnozlaşdırdığı pozitivlərin sayını dəqiq proqnozlaşdırdığı neçə düzgün müsbət ilə müqayisə edən müsbət proqnozlaşdırıcı dəyərin ölçüsüdür.

Dəqiqlik TP/(TP + FP)

Anlamaq üçün ən asan performans göstəricisi dəqiqlikdir ki, bu da düzgün proqnozlaşdırılan müşahidələrin bütün müşahidələrə nisbətidir.

Dəqiqlik (TP+TN)/(TP+FP+FN+TN) bərabərdir.

Dəqiqlik və Geri Çağırılma F1 Hesabını təmin etmək üçün ölçülür və orta hesablanır. Nəticədə, bu xal həm yanlış müsbət, həm də yanlış neqativləri nəzərə alır.

F1 tez-tez dəqiqlikdən daha dəyərlidir, xüsusən də qeyri-bərabər sinif paylanmasına sahibsinizsə, hətta intuitiv olaraq onu başa düşmək dəqiqlik qədər sadə olmasa da.

Ən yaxşı dəqiqliyə yalan pozitivlərin və yalançı neqativlərin qiyməti müqayisə edilə bilən zaman nail olunur. Yanlış pozitivlər və yalan neqativlərlə bağlı xərclər əhəmiyyətli dərəcədə fərqlənirsə, həm Dəqiqlik, həm də Geri çağırış daxil edilməsinə üstünlük verilir.

35. Çarpaz doğrulama dəqiq nədir?

Maşın öyrənməsində çarpaz doğrulama adlanan statistik yenidən nümunə götürmə yanaşması bir sıra dövrlərdə maşın öyrənməsi alqoritmini hazırlamaq və qiymətləndirmək üçün bir neçə verilənlər bazası alt dəstindən istifadə edir.

Modeli öyrətmək üçün istifadə olunmayan yeni məlumat toplusu modelin onu nə qədər yaxşı proqnozlaşdırdığını görmək üçün çarpaz doğrulamadan istifadə etməklə sınaqdan keçirilir. Çapraz doğrulama vasitəsilə məlumatların həddən artıq uyğunlaşmasının qarşısı alınır.

K-Qatlama Ən çox istifadə edilən təkrar nümunələşdirmə metodu bütün verilənlər dəstini bərabər ölçülü K dəstinə bölür. Buna çarpaz doğrulama deyilir.

36. Tutaq ki, siz modelinizin əhəmiyyətli bir fərqə malik olduğunu kəşf etdiniz. Sizcə, bu vəziyyəti idarə etmək üçün hansı alqoritm daha uyğundur?

Yüksək dəyişkənliyin idarə edilməsi

Böyük varyasyonları olan problemlər üçün torbalama texnikasından istifadə etməliyik.

Təsadüfi məlumatların təkrar seçilməsi məlumatı alt qruplara bölmək üçün torbalama alqoritmi tərəfindən istifadə olunacaq. Məlumatlar bölündükdən sonra qaydalar yaratmaq üçün təsadüfi məlumatlardan və xüsusi təlim prosedurundan istifadə edə bilərik.

Bundan sonra modelin proqnozlarını birləşdirmək üçün sorğudan istifadə edilə bilər.

37. Ridge reqressiyasını Lasso reqressiyasından nə ilə fərqləndirir?

Geniş istifadə olunan iki nizamlama metodu Lasso (həmçinin L1 adlanır) və Ridge (bəzən L2 adlanır) reqresiyasıdır. Onlar məlumatların həddindən artıq yüklənməsinin qarşısını almaq üçün istifadə olunur.

Ən yaxşı həlli tapmaq və mürəkkəbliyi minimuma endirmək üçün bu üsullar əmsalları cəzalandırmaq üçün istifadə olunur. Əmsalların mütləq qiymətlərinin cəmini cəzalandırmaqla, Lasso reqresiyası fəaliyyət göstərir.

Ridge və ya L2 reqressiyasında cəza funksiyası əmsalların kvadratlarının cəmindən alınır.

38. Hansı daha vacibdir: modelin performansı yoxsa modelin dəqiqliyi? Hansına və niyə ona üstünlük verəcəksiniz?

Bu, aldadıcı sualdır, buna görə də əvvəlcə Model Performansının nə olduğunu başa düşmək lazımdır. Performans sürət kimi müəyyən edilirsə, o, tətbiqin növündən asılıdır; real vaxt vəziyyətini əhatə edən hər hansı bir proqram mühüm komponent kimi yüksək sürət tələb edəcəkdir.

Məsələn, Sorğu nəticələrinin gəlməsi çox uzun çəkərsə, ən yaxşı Axtarış Nəticələri daha az dəyərli olacaq.

Əgər Performans nə üçün dəqiqlik və geri çağırmanın dəqiqlikdən üstün tutulması lazım olduğuna dair əsaslandırma kimi istifadə olunarsa, F1 balı balanssız olan hər hansı məlumat dəsti üçün iş şəraitinin nümayiş etdirilməsində dəqiqlikdən daha faydalı olacaq.

39. Bərabərsizlikləri olan verilənlər toplusunu necə idarə edərdiniz?

Balanssız verilənlər toplusu seçmə üsullarından faydalana bilər. Nümunə götürmə həm az, həm də çox nümunəvi şəkildə aparıla bilər.

Nümunə götürmə bizə çoxluq sinfinin ölçüsünü azlıq sinfinə uyğunlaşdırmaq üçün kiçiltməyə imkan verir ki, bu da saxlama və iş vaxtı icrası ilə bağlı sürəti artırmağa kömək edir, həm də qiymətli məlumatların itirilməsi ilə nəticələnə bilər.

Həddindən artıq seçmə nəticəsində yaranan məlumat itkisi problemini həll etmək üçün biz Azlıq sinifini nümunə götürürük; buna baxmayaraq, bu, bizim həddən artıq uyğunlaşma problemləri ilə üzləşməyimizə səbəb olur.

Əlavə strategiyalara aşağıdakılar daxildir:

Klaster əsaslı çox seçmə - Azlıq və çoxluq sinif nümunələri bu vəziyyətdə fərdi olaraq K-vasitəsilə klasterləşdirmə texnikasına məruz qalır. Bu, verilənlər bazası klasterlərini tapmaq üçün edilir. Sonra hər klaster həddən artıq seçilir ki, bütün siniflər eyni ölçüyə malik olsun və sinif daxilindəki bütün klasterlər bərabər sayda nümunəyə malik olsun.
SMOTE: Synthetic Minority Over-sempling Technique- Azlıqlar sinfindən verilənlərin bir hissəsi nümunə kimi istifadə olunur, bundan sonra onunla müqayisə edilə bilən əlavə süni nümunələr hazırlanır və orijinal verilənlər bazasına əlavə edilir. Bu üsul rəqəmsal məlumat nöqtələri ilə yaxşı işləyir.

40. Boosting və bagging arasında necə fərqlənə bilərsiniz?

Ensemble Techniques-in torbalama və gücləndirmə kimi tanınan versiyaları var.

Torbalama-

Yüksək dəyişkənliyə malik alqoritmlər üçün torbalama, fərqi azaltmaq üçün istifadə edilən bir texnikadır. Qərəzliyə meylli olan belə təsnifatçılar ailəsi qərar ağacı ailəsidir.

Qərar ağaclarının öyrədildiyi məlumat növü onların fəaliyyətinə əhəmiyyətli dərəcədə təsir göstərir. Buna görə, hətta çox yüksək incə tənzimləmə ilə belə, nəticələrin ümumiləşdirilməsi bəzən onlardan daha çətin olur.

Qərar ağaclarının təlim məlumatları dəyişdirilərsə, nəticələr əhəmiyyətli dərəcədə dəyişir.

Nəticədə, bir çox qərar ağacının yaradıldığı, hər biri orijinal məlumatların nümunəsi ilə öyrədilmiş torbalama istifadə olunur və son nəticə bütün bu müxtəlif modellərin ortasıdır.

Artırma:

Artırma, hər bir zəif təsnifatçının daha güclü təsnifatçılarının çatışmazlıqlarını tamamladığı n-zəif təsnifat sistemi ilə proqnozlaşdırma texnikasıdır. Verilən məlumat dəstində pis fəaliyyət göstərən təsnifatçıya “zəif təsnifatçı” deyirik.

Gücləndirmə bir alqoritmdən çox bir prosesdir. Logistik reqressiya və dayaz qərar ağacları zəif təsnifatçıların ümumi nümunələridir.

Adaboost, Gradient Boosting və XGBoost ən populyar iki gücləndirici alqoritmdir, lakin daha çoxu var.

41. İnduktiv və deduktiv öyrənmə arasındakı fərqləri izah edin.

Müşahidə olunan nümunələr toplusundan nümunə ilə öyrənərkən, model ümumiləşdirilmiş nəticəyə gəlmək üçün induktiv öyrənmədən istifadə edir. Digər tərəfdən, deduktiv öyrənmə ilə model özününküləşdirmədən əvvəl nəticədən istifadə edir.

İnduktiv öyrənmə müşahidələrdən nəticə çıxarmaq prosesidir.

Deduktiv öyrənmə nəticəyə əsaslanan müşahidələrin yaradılması prosesidir.

Nəticə

Təbriklər! Bunlar, indi cavablarını bildiyiniz maşın öyrənməsi üçün ən yaxşı 40 və yuxarı müsahibə suallarıdır. Məlumat elmi və süni intellekt texnologiya inkişaf etdikcə peşələrə tələbat qalmağa davam edəcək.

Bu qabaqcıl texnologiyalar haqqında biliklərini yeniləyən və bacarıq dəstlərini təkmilləşdirən namizədlər rəqabətli maaşla geniş çeşiddə iş imkanları tapa bilərlər.

Siz indi müsahibələrə cavab verməyə davam edə bilərsiniz ki, siz maşın öyrənməsi ilə bağlı geniş verilən bəzi müsahibə suallarına necə cavab verəcəyinizi yaxşı başa düşürsünüz.

Məqsədlərinizdən asılı olaraq aşağıdakı addımı atın. Hashdork-a baş çəkərək müsahibələrə hazırlaşın Müsahibə seriyası.

Ən yaxşı 40+ Maşın Öyrənmə Müsahibə Sualları