En İyi 40+ Makine Öğrenimi Mülakat Sorusu (2024)

İçindekiler[Saklamak][Göstermek]

1. Makine öğrenimi, yapay zeka ve derin öğrenme arasındaki farkları açıklayın.
2. Lütfen farklı makine öğrenimi türlerini tanımlayın.
3. Önyargıya karşı varyans değiş tokuşu nedir?
4. Makine öğrenimi algoritmaları zaman içinde önemli ölçüde gelişmiştir. Verilen bir veri setini kullanmak için doğru algoritma nasıl seçilir?
5. Kovaryans ve korelasyon nasıl farklılık gösterir?
6. Makine öğreniminde kümeleme ne anlama geliyor?
7. Tercih ettiğiniz makine öğrenimi algoritması nedir?
8. Makine Öğreniminde Doğrusal Regresyon: Nedir?
9. KNN ve k-ortalama kümeleme arasındaki farkları tanımlayın.
10. “Seçim yanlılığı” sizin için ne anlama geliyor?
11. Bayes Teoremi tam olarak nedir?
12. Bir Makine Öğrenimi Modelinde 'eğitim Seti' ve 'test Seti' nedir?
13. Makine Öğreniminde Hipotez Nedir?
14. Makine öğrenimi fazla uydurma ne anlama geliyor ve nasıl önlenebilir?
15. Naive Bayes sınıflandırıcıları tam olarak nedir?
16. Maliyet Fonksiyonları ve Kayıp Fonksiyonları ne anlama geliyor?
17. Üretken bir modeli ayırt edici bir modelden ayıran nedir?
18. Tip I ve Tip II hatalar arasındaki farklılıkları tanımlayın.
19. Makine öğreniminde Topluluk öğrenme tekniği nedir?
20. Parametrik modeller tam olarak nedir? Bir örnek verin.
21. İşbirlikçi filtrelemeyi tanımlayın. İçerik tabanlı filtrelemenin yanı sıra?
22. Zaman serisi ile tam olarak neyi kastediyorsunuz?
23. Gradient Boost ve Random Forest algoritmaları arasındaki varyasyonları tanımlayın.
24. Neden bir karışıklık matrisine ihtiyacınız var? Bu ne?
25. Temel bileşen analizi tam olarak nedir?
26. Bileşen rotasyonu PCA (temel bileşen analizi) için neden çok önemlidir?
27. Düzenleme ve normalleştirme birbirinden nasıl farklıdır?
28. Normalleştirme ve standardizasyon birbirinden nasıl farklıdır?
29. “Varyans enflasyon faktörü” tam olarak ne anlama geliyor?
30. Eğitim setinin boyutuna göre nasıl bir sınıflandırıcı seçersiniz?
31. Makine öğrenimindeki hangi algoritmaya “tembel öğrenen” denir ve neden?
32. ROC Eğrisi ve AUC nedir?
33. Hiperparametreler nelerdir? Onları model parametrelerinden benzersiz kılan nedir?
34. F1 Puanı, hatırlama ve kesinlik ne anlama geliyor?
35. Çapraz doğrulama tam olarak nedir?
36. Diyelim ki modelinizin önemli bir varyansı olduğunu keşfettiniz. Sizce bu durumla başa çıkmak için en uygun algoritma hangisidir?
37. Ridge regresyonunu Lasso regresyonundan ayıran nedir?
38. Hangisi daha önemli: model performansı mı yoksa model doğruluğu mu? Hangisini ve neden tercih edeceksiniz?
39. Eşitsizlikleri olan bir veri setini nasıl yönetirsiniz?
40. Güçlendirme ve torbalama arasında nasıl ayrım yapabilirsiniz?
41. Tümevarımsal ve tümdengelimli öğrenme arasındaki farkları açıklayın.
Sonuç

İşletmeler, bilgi ve hizmetlerin bireylere erişilebilirliğini artırmak için yapay zeka (AI) ve makine öğrenimi gibi en son teknolojileri kullanıyor.

Bu teknolojiler, bankacılık, finans, perakende, üretim ve sağlık dahil olmak üzere çeşitli endüstriler tarafından benimsenmektedir.

Yapay zekayı kullanan en çok aranan kurumsal rollerden biri, veri bilimcileri, yapay zeka mühendisleri, makine öğrenimi mühendisleri ve veri analistleri içindir.

Bu gönderi size çeşitli makine öğrenme ideal işinizi ararken sorulabilecek her türlü soruya hazırlanmanıza yardımcı olmak için temelden karmaşığa mülakat soruları.

1. Makine öğrenimi, yapay zeka ve derin öğrenme arasındaki farkları açıklayın.

Yapay zeka, bilgisayar sistemlerinin insan benzeri zekayı mantık ve kurallarla kullanarak görevleri yerine getirmesini sağlayan çeşitli makine öğrenmesi ve derin öğrenme yaklaşımlarını kullanır.

Makine öğrenimi, makinelerin önceki performanslarından öğrenmelerini ve belirli görevleri insan denetimi olmadan kendi başlarına yapma konusunda daha usta hale gelmelerini sağlamak için çeşitli istatistikler ve Derin Öğrenme yaklaşımları kullanır.

Derin Öğrenme, yazılımın kendisinden öğrenmesini ve ses ve resim tanıma gibi çeşitli ticari işlevleri gerçekleştirmesini sağlayan bir algoritmalar topluluğudur.

Çok katmanlılığını ortaya çıkaran sistemler nöral ağlar öğrenme için büyük miktarda veriye derin öğrenme yapabilirler.

2. Lütfen farklı makine öğrenimi türlerini tanımlayın.

Makine öğrenimi genel olarak üç farklı türde bulunur:

Denetimli Öğrenme: Bir model, denetimli makine öğreniminde etiketli veya geçmiş verileri kullanarak tahminler veya yargılar oluşturur. Anlamlarını arttırmak için etiketlenmiş veya etiketlenmiş veri kümelerine etiketli veri denir.
Denetimsiz Öğrenme: Denetimsiz öğrenme için etiketlenmiş verilerimiz yok. Gelen verilerde bir model, kalıpları, tuhaflıkları ve korelasyonları bulabilir.
Takviyeli Öğrenme: Model şunları yapabilir: takviye kullanarak öğrenmek öğrenme ve önceki davranışı için aldığı ödüller.

3. Önyargıya karşı varyans değiş tokuşu nedir?

Fazla uydurma, bir modelin verilere uyma derecesi olan önyargının bir sonucudur. Önyargı, yanlış veya çok basit varsayımlardan kaynaklanır. makine öğrenimi algoritması.

Varyans, eğitim verilerinde ve fazla uydurmada büyük derecelerde varyansa duyarlılık üreten ML algoritmanızdaki karmaşıklığın neden olduğu hataları ifade eder.

Varyans, bir modelin girdilere bağlı olarak ne kadar değiştiğidir.

Başka bir deyişle, temel modeller son derece önyargılı ancak kararlıdır (düşük varyans). Fazla uydurma, karmaşık modellerde bir sorundur, ancak yine de modelin gerçekliğini yakalarlar (düşük önyargı).

Hem yüksek varyasyonu hem de yüksek sapmayı önlemek için, en iyi hata azaltma için sapma ve varyans arasında bir denge gereklidir.

4. Makine öğrenimi algoritmaları zaman içinde önemli ölçüde gelişmiştir. Verilen bir veri setini kullanmak için doğru algoritma nasıl seçilir?

Kullanılması gereken makine öğrenimi tekniği, yalnızca belirli bir veri kümesindeki verilerin türüne bağlıdır.

Veriler doğrusal olduğunda doğrusal regresyon kullanılır. Torbalama yöntemi, veriler doğrusal olmama gösteriyorsa daha iyi performans gösterecektir. Verilerin ticari amaçlarla değerlendirilmesi veya yorumlanması gerekiyorsa, karar ağaçlarını veya SVM'yi kullanabiliriz.

Veri kümesi fotoğraf, video ve ses içeriyorsa, sinir ağları doğru bir yanıt almak için yararlı olabilir.

Belirli bir durum veya veri toplama için algoritma seçimi sadece tek bir ölçü üzerinde yapılamaz.

En uygun yöntemi geliştirmek için öncelikle keşifsel veri analizi (EDA) kullanarak verileri incelemeli ve veri setinden yararlanma amacını anlamalıyız.

5. Kovaryans ve korelasyon nasıl farklılık gösterir?

Kovaryans, iki değişkenin birbirine nasıl bağlı olduğunu ve birinin diğerindeki değişikliklere yanıt olarak nasıl değişebileceğini değerlendirir.

Sonucun pozitif olması, değişkenler arasında doğrudan bir bağlantı olduğunu ve diğer tüm koşulların sabit kaldığı varsayılarak, baz değişkendeki artış veya azalışla artacağını veya azalacağını gösterir.

Korelasyon, iki rastgele değişken arasındaki bağlantıyı ölçer ve yalnızca üç farklı değere sahiptir: 1, 0 ve -1.

6. Makine öğreniminde kümeleme ne anlama geliyor?

Veri noktalarını bir arada gruplayan denetimsiz öğrenme yöntemlerine kümeleme denir. Veri noktalarının toplanmasıyla kümeleme tekniği uygulanabilir.

Bu stratejiyi kullanarak tüm veri noktalarını işlevlerine göre gruplayabilirsiniz.

Aynı kategoriye giren veri noktalarının özellikleri ve nitelikleri benzerken, ayrı gruplamalara giren veri noktalarının özellikleri farklıdır.

Bu yaklaşım istatistiksel verileri analiz etmek için kullanılabilir.

7. Tercih ettiğiniz makine öğrenimi algoritması nedir?

Bu soruda tercihlerinizi ve benzersiz yeteneklerinizi gösterme şansınızın yanı sıra çok sayıda makine öğrenimi tekniğine ilişkin kapsamlı bilginiz var.

İşte üzerinde düşünülmesi gereken birkaç tipik makine öğrenimi algoritması:

Doğrusal regresyon
Lojistik regresyon
Naif bayanlar
Karar ağaçları
K anlamı
Rastgele orman algoritması
K-en yakın komşu (KNN)

8. Makine Öğreniminde Doğrusal Regresyon: Nedir?

Denetimli bir makine öğrenimi algoritması doğrusal regresyondur.

Bağımlı ve bağımsız değişkenler arasındaki doğrusal bağlantıyı belirlemek için tahmine dayalı analizde kullanılır.

Doğrusal regresyon denklemi aşağıdaki gibidir:

Y = A + BX

nerede:

Girdi veya bağımsız değişken X olarak adlandırılır.
Bağımlı veya çıktı değişkeni Y'dir.
X'in katsayısı b ve kesişimi a'dır.

9. KNN ve k-ortalama kümeleme arasındaki farkları tanımlayın.

Birincil ayrım, KNN'nin (bir sınıflandırma yöntemi, denetimli öğrenme) etiketli noktalara ihtiyaç duyması, k-ortalamaların ise (kümeleme algoritması, denetimsiz öğrenme) gerektirmemesidir.

K-En Yakın Komşuları kullanarak etiketlenmiş verileri etiketlenmemiş bir noktaya sınıflandırabilirsiniz. K-ortalama kümeleme, etiketlenmemiş noktaların nasıl gruplanacağını öğrenmek için noktalar arasındaki ortalama mesafeyi kullanır.

10. “Seçim yanlılığı” sizin için ne anlama geliyor?

Bir deneyin örnekleme aşamasındaki yanlılık, istatistiksel yanlışlıktan kaynaklanmaktadır.

Yanlışlık nedeniyle deneyde bir örneklem grubu diğer gruplara göre daha sık seçilmiştir.

Seçim yanlılığı onaylanmazsa, yanlış bir sonuca neden olabilir.

11. Bayes Teoremi tam olarak nedir?

Diğer olasılıkların farkında olduğumuzda, Bayes Teoremini kullanarak bir olasılık belirleyebiliriz. Başka bir deyişle, önceki bilgilere dayalı olarak bir oluşumun arka olasılığını sunar.

Bu teorem, koşullu olasılıkları tahmin etmek için sağlam bir yöntem sağlar.

Sınıflandırma kestirimci modelleme problemleri geliştirirken ve bir eğitime bir model uydururken makine öğreniminde veri kümesi, Bayes teoremi uygulanır (yani Naive Bayes, Bayes Optimal Sınıflandırıcı).

12. Bir Makine Öğrenimi Modelinde 'eğitim Seti' ve 'test Seti' nedir?

Eğitim Seti:

Eğitim seti, analiz ve öğrenme için modele gönderilen örneklerden oluşur.
Bu, modeli eğitmek için kullanılacak etiketli verilerdir.
Tipik olarak, toplam verinin %70'i eğitim veri seti olarak kullanılır.

Deneme seti:

Test seti, modelin hipotez oluşturma doğruluğunu değerlendirmek için kullanılır.
Etiketli veriler olmadan test eder ve ardından sonuçları doğrulamak için etiketleri kullanırız.
Kalan %30 ise test veri seti olarak kullanılır.

13. Makine Öğreniminde Hipotez Nedir?

Makine Öğrenimi, girdiyi çıktıya bağlayan belirli bir işlevi daha iyi anlamak için mevcut veri kümelerinin kullanılmasını sağlar. Bu, fonksiyon yaklaşımı olarak bilinir.

Bu durumda, verilen duruma dayalı olarak akla gelebilecek tüm gözlemleri mümkün olan en iyi şekilde aktarmak için bilinmeyen hedef fonksiyon için yaklaşıklık kullanılmalıdır.

Makine öğreniminde bir hipotez, hedef işlevi tahmin etmeye ve uygun girdi-çıktı eşleştirmelerini tamamlamaya yardımcı olan bir modeldir.

Algoritmaların seçimi ve tasarımı, bir model tarafından temsil edilebilecek olası hipotezlerin uzayının tanımlanmasına izin verir.

Tek bir hipotez için küçük h (h) kullanılır, ancak aranmakta olan tüm hipotez uzayı için büyük h (H) kullanılır. Bu notasyonları kısaca gözden geçireceğiz:

Bir hipotez (h), daha sonra değerlendirme ve tahmin için kullanılabilecek girdinin çıktıya eşlenmesini kolaylaştıran belirli bir modeldir.
Bir hipotez seti (H), girdileri çıktılara eşlemek için kullanılabilecek aranabilir bir hipotezler alanıdır. Sorun çerçeveleme, model ve model yapılandırması, genel sınırlamalara birkaç örnektir.

14. Makine öğrenimi fazla uydurma ne anlama geliyor ve nasıl önlenebilir?

Bir makine yetersiz bir veri kümesinden öğrenmeye çalıştığında, fazla uydurma meydana gelir.

Sonuç olarak, fazla uydurma veri hacmi ile ters orantılıdır. Çapraz doğrulama yaklaşımı, küçük veri kümeleri için fazla uyumdan kaçınılmasına izin verir. Bu yöntemde bir veri kümesi iki kısma ayrılır.

Test ve eğitim için veri seti bu iki bölümden oluşacaktır. Eğitim veri seti, bir model oluşturmak için kullanılırken, test veri seti, farklı girdiler kullanarak modeli değerlendirmek için kullanılır.

Bu şekilde aşırı takmayı önleyebilirsiniz.

15. Naive Bayes sınıflandırıcıları tam olarak nedir?

Naive Bayes sınıflandırıcılarını çeşitli sınıflandırma yöntemleri oluşturur. Bu sınıflandırıcılar olarak bilinen bir dizi algoritma, hepsi aynı temel fikir üzerinde çalışır.

Saf Bayes sınıflandırıcıları tarafından yapılan varsayım, bir özelliğin varlığının veya yokluğunun, başka bir özelliğin varlığı veya yokluğu ile hiçbir ilgisi olmadığıdır.

Başka bir deyişle, her veri kümesi özniteliğinin eşit derecede önemli ve bağımsız olduğu varsayımını yaptığı için “naif” olarak adlandırdığımız şeydir.

Sınıflandırma, saf Bayes sınıflandırıcıları kullanılarak yapılır. Bağımsızlık öncülü doğru olduğunda, kullanımı kolaydır ve daha karmaşık tahmin edicilerden daha iyi sonuçlar üretirler.

Metin analizi, spam filtreleme ve öneri sistemlerinde kullanılırlar.

16. Maliyet Fonksiyonları ve Kayıp Fonksiyonları ne anlama geliyor?

“Kayıp işlevi” ifadesi, yalnızca bir veri parçası dikkate alındığında kayıp hesaplama sürecini ifade eder.

Aksine, çok sayıda veri için toplam hata miktarını belirlemek için maliyet fonksiyonunu kullanıyoruz. Önemli bir ayrım mevcut değildir.

Başka bir deyişle, maliyet işlevleri tüm eğitim veri kümesi için farkı toplarken, kayıp işlevleri tek bir kayıt için gerçek ve tahmin edilen değerler arasındaki farkı yakalamak için tasarlanmıştır.

17. Üretken bir modeli ayırt edici bir modelden ayıran nedir?

Ayırt edici bir model, birkaç veri kategorisi arasındaki farkları öğrenir. Üretken bir model, farklı veri türlerini alır.

Sınıflandırma problemlerinde, ayırt edici modeller genellikle diğer modellerden daha iyi performans gösterir.

18. Tip I ve Tip II hatalar arasındaki farklılıkları tanımlayın.

Yanlış pozitifler Tip I hatalar kategorisine girerken, yanlış negatifler Tip II hatalar kategorisine girer (aslında hiçbir şey olmadığını iddia ederek).

19. Makine öğreniminde Topluluk öğrenme tekniği nedir?

Topluluk öğrenimi adı verilen bir teknik, daha güçlü modeller üretmek için birçok makine öğrenimi modelini karıştırır.

Bir model çeşitli nedenlerle değişebilir. Çeşitli nedenler şunlardır:

Çeşitli Popülasyonlar
Çeşitli Hipotezler
Çeşitli modelleme yöntemleri

Modelin eğitim ve test verilerini kullanırken bir sorunla karşılaşacağız. Önyargı, varyans ve indirgenemez hata bu hatanın olası türleridir.

Şimdi, modeldeki önyargı ve varyans arasındaki bu dengeye önyargı-varyans değiş tokuşu diyoruz ve bu her zaman var olmalıdır. Bu değiş tokuş, topluluk öğrenimi kullanılarak gerçekleştirilir.

Mevcut çeşitli topluluk yaklaşımları olmasına rağmen, birçok modeli birleştirmek için iki ortak strateji vardır:

Torbalama adı verilen yerel bir yaklaşım, ek eğitim setleri üretmek için eğitim setini kullanır.
Boosting, daha karmaşık bir teknik: Torbalamaya çok benzer bir şekilde boosting, bir eğitim seti için ideal ağırlık formülünü bulmak için kullanılır.

20. Parametrik modeller tam olarak nedir? Bir örnek verin.

Parametrik modellerde sınırlı sayıda parametre vardır. Verileri tahmin etmek için bilmeniz gereken tek şey modelin parametreleridir.

Aşağıdakiler tipik örneklerdir: lojistik regresyon, lineer regresyon ve lineer SVM'ler. Parametrik olmayan modeller, sınırsız sayıda parametre içerebildikleri için esnektir.

Modelin parametreleri ve gözlemlenen verilerin durumu, veri tahminleri için gereklidir. İşte bazı tipik örnekler: konu modelleri, karar ağaçları ve k-en yakın komşular.

21. İşbirlikçi filtrelemeyi tanımlayın. İçerik tabanlı filtrelemenin yanı sıra?

Özel içerik önerileri oluşturmak için denenmiş ve gerçek bir yöntem, işbirlikçi filtrelemedir.

İşbirlikçi filtreleme adı verilen bir öneri sistemi, kullanıcı tercihlerini ortak ilgi alanları ile dengeleyerek yeni malzemeyi önceden bildirir.

Kullanıcı tercihleri, içerik tabanlı öneri sistemlerinin dikkate aldığı tek şeydir. Kullanıcının önceki seçimleri ışığında ilgili materyallerden yeni öneriler sunulmaktadır.

22. Zaman serisi ile tam olarak neyi kastediyorsunuz?

Bir zaman serisi, artan sırada bir sayılar topluluğudur. Önceden belirlenmiş bir süre boyunca, seçilen veri noktalarının hareketini izler ve veri noktalarını periyodik olarak yakalar.

Zaman serileri için minimum veya maksimum zaman girişi yoktur.

Zaman serileri, analistler tarafından verileri benzersiz gereksinimlerine göre analiz etmek için sıklıkla kullanılır.

23. Gradient Boost ve Random Forest algoritmaları arasındaki varyasyonları tanımlayın.

Rastgele Orman:

Çok sayıda karar ağacı sonunda bir araya toplanır ve rastgele ormanlar olarak bilinir.
Gradyan artırma, her ağacı diğerlerinden bağımsız olarak üretirken, rastgele orman her bir ağacı birer birer oluşturur.
çok sınıflı nesne algılama rastgele ormanlarla iyi çalışır.

Gradyan Artırma:

Rastgele ormanlar sürecin sonunda karar ağaçlarına katılırken, Gradient Boosting Machines onları baştan birleştirir.
Parametreler uygun şekilde ayarlanırsa, gradyan artırma, sonuçlar açısından rastgele ormanlardan daha iyi performans gösterir, ancak veri kümesinde çok fazla aykırı değer, anormallik veya gürültü varsa, modelin gereğinden fazla uymasına neden olabileceğinden, bu akıllıca bir seçim değildir.
Dengesiz veriler olduğunda, gerçek zamanlı risk değerlendirmesinde olduğu gibi, gradyan artırma iyi performans gösterir.

24. Neden bir karışıklık matrisine ihtiyacınız var? Bu ne?

Bazen hata matrisi olarak da bilinen karışıklık matrisi olarak bilinen bir tablo, bir sınıflandırma modelinin veya sınıflandırıcının, gerçek değerlerin bilindiği bir dizi test verisi üzerinde ne kadar iyi performans gösterdiğini göstermek için yaygın olarak kullanılır.

Bir modelin veya algoritmanın nasıl performans gösterdiğini görmemizi sağlar. Çeşitli kurslar arasındaki yanlış anlamaları tespit etmemizi kolaylaştırır.

Bir modelin veya algoritmanın ne kadar iyi gerçekleştirildiğini değerlendirmenin bir yolu olarak hizmet eder.

Bir sınıflandırma modelinin tahminleri, bir karışıklık matrisinde derlenir. Her sınıf etiketinin sayı değerleri, toplam doğru ve yanlış tahmin sayısını ayırmak için kullanıldı.

Sınıflandırıcı tarafından yapılan hataların yanı sıra sınıflandırıcıların neden olduğu farklı hata türleri hakkında ayrıntılı bilgi sağlar.

25. Temel bileşen analizi tam olarak nedir?

Birbiriyle ilişkili değişkenlerin sayısını en aza indirerek amaç, veri toplamanın boyutluluğunu en aza indirmektir. Ancak çeşitliliği mümkün olduğunca korumak önemlidir.

Değişkenler, temel bileşenler adı verilen tamamen yeni bir dizi değişkene dönüştürülür.

Bu PC'ler, bir kovaryans matrisinin özvektörleri oldukları için ortogonaldir.

26. Bileşen rotasyonu PCA (temel bileşen analizi) için neden çok önemlidir?

Döndürme, PCA'da çok önemlidir, çünkü her bir bileşen tarafından elde edilen varyanslar arasındaki ayrımı optimize ederek bileşen yorumlamasını kolaylaştırır.

Bileşenler döndürülmezse, bileşen varyasyonunu ifade etmek için genişletilmiş bileşenlere ihtiyacımız var.

27. Düzenleme ve normalleştirme birbirinden nasıl farklıdır?

normalleştirme:

Normalleştirme sırasında veriler değiştirilir. Özellikle düşükten yükseğe büyük ölçüde farklı ölçeklere sahipse verileri normalleştirmelisiniz. Her sütunu, temel istatistiklerin tümü uyumlu olacak şekilde ayarlayın.

Kesinlik kaybı olmadığından emin olmak için bu yararlı olabilir. Gürültüyü yok sayarak sinyali algılamak, model eğitiminin amaçlarından biridir.

Hatayı azaltmak için modele tam kontrol verilirse, fazla uydurma şansı vardır.

Düzenlileştirme:

Düzenlemede, tahmin işlevi değiştirilir. Bu, karmaşık işlevlere göre daha basit uydurma işlevleri tercih eden düzenlileştirme yoluyla bir miktar kontrole tabidir.

28. Normalleştirme ve standardizasyon birbirinden nasıl farklıdır?

Özellik ölçekleme için en yaygın kullanılan iki teknik, normalleştirme ve standardizasyondur.

normalleştirme:

Verileri [0,1] aralığına uyacak şekilde yeniden ölçeklendirme, normalleştirme olarak bilinir.
Tüm parametrelerin aynı pozitif ölçeğe sahip olması gerektiğinde normalleştirme yararlıdır, ancak veri kümesinin aykırı değerleri kaybolur.

Düzenlileştirme:

Veriler, standardizasyon sürecinin bir parçası olarak ortalama 0 ve standart sapma 1 olacak şekilde yeniden ölçeklendirilir (Birim varyans)

29. “Varyans enflasyon faktörü” tam olarak ne anlama geliyor?

Modelin varyansının, yalnızca bir bağımsız değişkenli modelin varyansına oranı, varyasyon enflasyon faktörü (VIF) olarak bilinir.

VIF, bir dizi regresyon değişkeninde bulunan çoklu bağlantı miktarını tahmin eder.

Bir Bağımsız Değişken Varyanslı Model Varyansı (VIF) Modeli

30. Eğitim setinin boyutuna göre nasıl bir sınıflandırıcı seçersiniz?

Yüksek önyargılı, düşük varyanslı bir model, fazla uydurma olasılığı daha düşük olduğundan kısa bir eğitim seti için daha iyi performans gösterir. Naive Bayes bir örnektir.

Büyük bir eğitim seti için daha karmaşık etkileşimleri temsil etmek için, düşük önyargılı ve yüksek varyanslı bir model tercih edilir. Lojistik regresyon buna iyi bir örnektir.

31. Makine öğrenimindeki hangi algoritmaya “tembel öğrenen” denir ve neden?

Yavaş öğrenen KNN, bir makine öğrenme algoritmasıdır. K-NN, eğitim verilerinden makine tarafından öğrenilen değerleri veya değişkenleri öğrenmek yerine, sınıflandırmak istediği her seferde mesafeyi dinamik olarak hesapladığı için eğitim veri setini ezberler.

Bu, K-NN'yi tembel bir öğrenci yapar.

32. ROC Eğrisi ve AUC nedir?

Bir sınıflandırma modelinin tüm eşiklerdeki performansı, ROC eğrisi ile grafiksel olarak temsil edilir. Doğru pozitif oran ve yanlış pozitif oran kriterlerine sahiptir.

Basitçe söylemek gerekirse, ROC eğrisinin altındaki alan AUC (ROC Eğrisinin Altındaki Alan) olarak bilinir. ROC eğrisinin (0,0) ile AUC arasındaki iki boyutlu alanı ölçülür (1,1). İkili sınıflandırma modellerini değerlendirmek için performans istatistiği olarak kullanılır.

33. Hiperparametreler nelerdir? Onları model parametrelerinden benzersiz kılan nedir?

Modelin bir iç değişkeni, model parametresi olarak bilinir. Eğitim verileri kullanılarak bir parametrenin değeri yaklaşık olarak alınır.

Model tarafından bilinmeyen bir hiperparametre bir değişkendir. Değer verilerden belirlenemez, bu nedenle model parametrelerini hesaplamak için sıklıkla kullanılırlar.

34. F1 Puanı, hatırlama ve kesinlik ne anlama geliyor?

Karışıklık Ölçüsü, sınıflandırma modelinin etkinliğini ölçmek için kullanılan ölçüdür. Karışıklık metriğini daha iyi açıklamak için aşağıdaki ifadeler kullanılabilir:

TP: True Positives – Bunlar, uygun şekilde beklenen pozitif değerlerdir. Hem yansıtılan sınıfın hem de gerçek sınıfın değerlerinin pozitif olduğunu gösterir.

TN: Gerçek Negatifler- Bunlar, doğru bir şekilde tahmin edilen olumsuz değerlerdir. Hem gerçek sınıfın hem de beklenen sınıfın değerinin negatif olduğunu gösterir.

Bu değerler (yanlış pozitifler ve yanlış negatifler) gerçek sınıfınız beklenen sınıftan farklı olduğunda ortaya çıkar.

Şimdi,

Gerçek pozitif oranın (TP) gerçek sınıfta yapılan tüm gözlemlere oranı, duyarlılık olarak da bilinen hatırlama olarak adlandırılır.

Geri çağırma TP/(TP+FN) şeklindedir.

Kesinlik, modelin gerçekten tahmin ettiği pozitiflerin sayısını, doğru tahmin ettiği doğru pozitiflerin sayısını karşılaştıran pozitif tahmin değerinin bir ölçüsüdür.

Hassasiyet TP/(TP + FP)

Anlaşılması en kolay performans metriği, doğru şekilde tahmin edilen gözlemlerin tüm gözlemlere oranı olan doğruluktur.

Doğruluk (TP+TN)/(TP+FP+FN+TN) değerine eşittir.

Kesinlik ve Geri Çağırma ağırlıklıdır ve F1 Puanını sağlamak için ortalaması alınır. Sonuç olarak, bu puan hem yanlış pozitifleri hem de yanlış negatifleri dikkate alır.

F1 sıklıkla doğruluktan daha değerlidir, özellikle de eşit olmayan bir sınıf dağılımınız varsa, sezgisel olarak anlaşılması doğruluk kadar basit olmasa bile.

En iyi doğruluk, yanlış pozitiflerin ve yanlış negatiflerin maliyeti karşılaştırılabilir olduğunda elde edilir. Yanlış pozitifler ve yanlış negatiflerle ilişkili maliyetler önemli ölçüde farklılık gösteriyorsa, hem Kesinlik hem de Geri Çağırmayı dahil etmek tercih edilir.

35. Çapraz doğrulama tam olarak nedir?

Makine öğreniminde çapraz doğrulama adı verilen istatistiksel yeniden örnekleme yaklaşımı, bir makine öğrenimi algoritmasını birkaç tur boyunca eğitmek ve değerlendirmek için birkaç veri kümesi alt kümesi kullanır.

Modeli eğitmek için kullanılmayan yeni bir veri grubu, modelin onu ne kadar iyi tahmin ettiğini görmek için çapraz doğrulama kullanılarak test edilir. Çapraz doğrulama yoluyla verilerin fazla takılması önlenir.

K-Katlama En sık kullanılan yeniden örnekleme yöntemi, tüm veri kümesini eşit büyüklükteki K kümelerine böler. Çapraz doğrulama denir.

36. Diyelim ki modelinizin önemli bir varyansı olduğunu keşfettiniz. Sizce bu durumla başa çıkmak için en uygun algoritma hangisidir?

Yüksek değişkenliği yönetme

Çok değişkenli problemler için torbalama tekniğini kullanmalıyız.

Rastgele verilerin tekrarlanan örneklemesi, verileri alt gruplara bölmek için torbalama algoritması tarafından kullanılacaktır. Veriler bölündükten sonra, kurallar oluşturmak için rastgele verileri ve özel bir eğitim prosedürünü kullanabiliriz.

Bundan sonra, modelin tahminlerini birleştirmek için yoklama kullanılabilir.

37. Ridge regresyonunu Lasso regresyonundan ayıran nedir?

Yaygın olarak kullanılan iki düzenlileştirme yöntemi, Kement (L1 olarak da adlandırılır) ve Ridge (bazen L2 olarak da adlandırılır) regresyonudur. Verilerin fazla takılmasını önlemek için kullanılırlar.

En iyi çözümü bulmak ve karmaşıklığı en aza indirmek için bu teknikler katsayıları cezalandırmak için kullanılır. Katsayıların mutlak değerlerinin toplamını cezalandırarak, Kement regresyonu çalışır.

Ridge veya L2 regresyonundaki ceza işlevi, katsayıların karelerinin toplamından türetilir.

38. Hangisi daha önemli: model performansı mı yoksa model doğruluğu mu? Hangisini ve neden tercih edeceksiniz?

Bu aldatıcı bir sorudur, bu nedenle önce Model Performansının ne olduğu anlaşılmalıdır. Performans hız olarak tanımlanıyorsa, uygulamanın türüne bağlıdır; gerçek zamanlı bir durumu içeren herhangi bir uygulama, çok önemli bir bileşen olarak yüksek hız gerektirir.

Örneğin, Sorgu sonuçlarının gelmesi çok uzun sürerse, en iyi Arama Sonuçları daha az değerli hale gelir.

Kesinlik ve geri çağırmanın neden doğruluktan daha öncelikli olması gerektiğine ilişkin bir gerekçe olarak Performans kullanılıyorsa, o zaman bir F1 puanı, dengesiz herhangi bir veri seti için iş durumunu göstermede doğruluktan daha faydalı olacaktır.

39. Eşitsizlikleri olan bir veri setini nasıl yönetirsiniz?

Dengesiz bir veri seti, örnekleme tekniklerinden yararlanabilir. Örnekleme, yetersiz veya aşırı örnekleme şeklinde yapılabilir.

Örnekleme Altında, çoğunluk sınıfının boyutunu azınlık sınıfına uyacak şekilde küçültmemize olanak tanır; bu, depolama ve çalışma zamanı yürütme açısından hızın artmasına yardımcı olur, ancak aynı zamanda değerli verilerin kaybına da neden olabilir.

Aşırı örneklemeden kaynaklanan bilgi kaybı sorununu gidermek için Azınlık sınıfını örnekledik; yine de bu, fazla uyum sorunlarıyla karşılaşmamıza neden oluyor.

Ek stratejiler şunları içerir:

Küme Tabanlı Aşırı Örnekleme- Azınlık ve çoğunluk sınıfı örnekleri, bu durumda ayrı ayrı K-ortalamalar kümeleme tekniğine tabi tutulur. Bu, veri kümesi kümelerini bulmak için yapılır. Ardından, tüm sınıfların aynı boyuta sahip olması ve bir sınıf içindeki tüm kümelerin eşit sayıda örneğe sahip olması için her küme aşırı örneklenir.
SMOTE: Sentetik Azınlık Aşırı Örnekleme Tekniği- Azınlık sınıfından bir veri dilimi örnek olarak kullanılır, ardından onunla karşılaştırılabilir ek yapay örnekler üretilir ve orijinal veri kümesine eklenir. Bu yöntem sayısal veri noktalarıyla iyi çalışır.

40. Güçlendirme ve torbalama arasında nasıl ayrım yapabilirsiniz?

Ensemble Techniques'in torbalama ve artırma olarak bilinen versiyonları vardır.

Torbalama-

Yüksek varyasyona sahip algoritmalar için torbalama, varyansı azaltmak için kullanılan bir tekniktir. Önyargıya yatkın olan böyle bir sınıflandırıcı ailesi, karar ağacı ailesidir.

Karar ağaçlarının eğitildiği veri türü, performansları üzerinde önemli bir etkiye sahiptir. Bu nedenle, çok yüksek ince ayarlarla bile, sonuçların genelleştirilmesini elde etmek bazen çok daha zordur.

Karar ağaçlarının eğitim verileri değiştirilirse, sonuçlar önemli ölçüde değişir.

Sonuç olarak, her biri orijinal verinin bir örneği kullanılarak eğitilen birçok karar ağacının oluşturulduğu torbalama kullanılır ve nihai sonuç tüm bu farklı modellerin ortalamasıdır.

Güçlendirme:

Güçlendirme, her zayıf sınıflandırıcının daha güçlü sınıflandırıcılarının eksikliklerini telafi ettiği n-zayıf sınıflandırıcı sistemi ile tahmin yapma tekniğidir. Belirli bir veri kümesinde kötü performans gösteren bir sınıflandırıcıya "zayıf sınıflandırıcı" diyoruz.

Boost, açıkça bir algoritmadan ziyade bir süreçtir. Lojistik regresyon ve sığ karar ağaçları, zayıf sınıflandırıcıların yaygın örnekleridir.

Adaboost, Gradient Boosting ve XGBoost en popüler iki güçlendirme algoritmasıdır, ancak daha birçokları vardır.

41. Tümevarımsal ve tümdengelimli öğrenme arasındaki farkları açıklayın.

Bir dizi gözlemlenen örnekten örnek alarak öğrenirken, bir model genelleştirilmiş bir sonuca varmak için tümevarımsal öğrenmeyi kullanır. Öte yandan, tümdengelimli öğrenme ile model, kendi sonucunu oluşturmadan önce sonucu kullanır.

Tümevarımsal öğrenme, gözlemlerden sonuç çıkarma sürecidir.

Tümdengelimli öğrenme, çıkarımlara dayalı gözlemler oluşturma sürecidir.

Sonuç

Tebrikler! Bunlar, artık yanıtlarını bildiğiniz, makine öğrenimi için en iyi 40 ve üzeri mülakat sorularıdır. Veri bilimi ve yapay zeka Teknoloji ilerledikçe meslekler talep görmeye devam edecek.

Bu son teknolojiler hakkındaki bilgilerini güncelleyen ve becerilerini geliştiren adaylar, rekabetçi ücretlerle çok çeşitli istihdam olanakları bulabilirler.

Yaygın olarak sorulan bazı makine öğrenimi görüşme sorularını nasıl yanıtlayacağınıza dair sağlam bir anlayışa sahip olduğunuza göre, artık röportajları yanıtlamaya başlayabilirsiniz.

Hedeflerinize bağlı olarak aşağıdaki adımı atın. Hashdork'u ziyaret ederek röportajlara hazırlanın Röportaj Serisi.

En İyi 40+ Makine Öğrenimi Mülakat Sorusu