İçindekiler[Saklamak][Göstermek]
Yapay zeka ve günlük hayatımızın her alanını etkileyen makine öğrenmesi nedeniyle dünya hızla değişiyor.
NLP ve makine öğrenimi kullanan sesli asistanlardan randevu almaya, takvimimizdeki etkinliklere bakmaya ve müzik çalmaya kadar, ihtiyaçlarımızı biz daha düşünmeden tahmin edebilecek kadar hassas cihazlara kadar.
Bilgisayarlar, makine öğrenimi algoritmalarının yardımıyla satranç oynayabilir, ameliyat yapabilir ve daha akıllı, daha insan benzeri makinelere dönüşebilir.
Sürekli bir teknolojik ilerleme çağındayız ve bilgisayarların zaman içinde nasıl geliştiğini görerek gelecekte neler olacağına dair tahminlerde bulunabiliriz.
Hesaplama araçlarının ve yöntemlerinin demokratikleştirilmesi, bu devrimin öne çıkan kilit yönlerinden biridir. Veri bilimcileri son beş yılda en yeni metodolojileri zahmetsizce uygulayarak güçlü veri işleyen bilgisayarlar yarattılar. Sonuçlar şaşırtıcı.
Bu yazıda, yakından bakacağız makine öğrenme algoritmalar ve bunların tüm varyasyonları.
Peki, Makine Öğrenimi algoritmaları nelerdir?
Yapay zeka sistemi tarafından görevini yerine getirmek için kullanılan yaklaşım (genellikle, verilen girdi verilerinden çıktı değerlerinin tahmin edilmesi) bir makine öğrenimi algoritması olarak bilinir.
Makine öğrenimi algoritması, verileri kullanan ve üretime hazır makine öğrenimi modelleri oluşturmak için kullanılan bir süreçtir. Makine öğrenimi bir işi yapan trense, makine öğrenimi algoritmaları da işi ilerleten lokomotiflerdir.
Kullanılacak en iyi makine öğrenimi yaklaşımı, ele almaya çalıştığınız iş sorununa, kullandığınız veri kümesinin türüne ve sahip olduğunuz kaynaklara göre belirlenecektir.
Makine öğrenimi algoritmaları, bir veri setini modele dönüştüren algoritmalardır. Yanıtlamaya çalıştığınız sorunun türüne, mevcut işlem gücüne ve sahip olduğunuz veri türüne bağlı olarak, denetlenen, denetlenmeyen veya pekiştirmeli öğrenme algoritmaları iyi performans gösterebilir.
Yani, denetimli, denetimsiz ve pekiştirmeli öğrenme hakkında konuştuk, peki bunlar nedir? Onları keşfedelim.
Denetimli, Denetimsiz ve Takviyeli Öğrenme
Denetimli Öğrenme
Denetimli öğrenmede, AI modeli, sağlanan girdiye ve tahmin edilen sonucu temsil eden etikete dayalı olarak geliştirilir. Girdilere ve çıktılara dayalı olarak, model bir haritalama denklemi geliştirir ve bu haritalama denklemini kullanarak gelecekte girdilerin etiketini tahmin eder.
Diyelim ki bir köpek ve kediyi ayırt edebilecek bir model oluşturmamız gerekiyor. Modeli eğitmek için kedi ve köpeklerin birden fazla fotoğrafı, kedi mi yoksa köpek mi olduklarını gösteren etiketlerle modele beslenir.
Model, girdi fotoğrafları üzerindeki etiketleri bu görüntülerle ilişkilendiren bir denklem kurmaya çalışır. Model görüntüyü daha önce hiç görmemiş olsa bile, eğitimden sonra bir kediye mi yoksa bir köpeğe mi ait olduğunu belirleyebilir.
Denetimsiz Öğrenme
Denetimsiz öğrenme, bir yapay zeka modelinin yalnızca girdiler üzerinde etiketlenmeden eğitilmesini içerir. Model, girdi verilerini ilgili özelliklere sahip gruplara ayırır.
Girdinin gelecekteki etiketi, niteliklerinin sınıflandırmalardan biriyle ne kadar yakından eşleştiğine bağlı olarak tahmin edilir. Bir grup kırmızı ve mavi topu iki kategoriye ayırmamız gereken durumu düşünün.
Topların diğer özelliklerinin renk dışında aynı olduğunu varsayalım. Model, topları iki sınıfa nasıl ayırabileceğine bağlı olarak, toplar arasında farklı olan özellikleri arar.
Toplar renklerine göre iki gruba ayrıldığında biri mavi ve biri kırmızı olmak üzere iki top kümesi üretilir.
Takviye Öğrenme
Takviyeli öğrenmede, AI modeli, belirli bir durumda olabildiğince iyi hareket ederek genel karı en üst düzeye çıkarmaya çalışır. Önceki sonuçlarıyla ilgili geri bildirim, modelin öğrenmesine yardımcı olur.
Bir robota A ve B noktaları arasında bir rota seçmesi talimatı verildiğinde senaryoyu düşünün. Robot, daha önce deneyimi olmadığı için önce rotalardan birini seçer.
Robot, aldığı rota hakkında girdi alır ve ondan bilgi edinir. Robot, bir daha benzer bir durumla karşılaştığında sorunu çözmek için girdiyi kullanabilir.
Örneğin, robot B seçeneğini seçer ve olumlu geribildirim gibi bir ödül alırsa, bu kez ödülünü artırmak için B yolunu seçmesi gerektiğini anlar.
Şimdi nihayet hepinizin beklediği şey, algoritmalar.
Başlıca Makine Öğrenimi Algoritmaları
1. Doğrusal Regresyon
Denetimli öğrenmeden sapan en basit makine öğrenimi yaklaşımı doğrusal regresyondur. Bağımsız değişkenlerden elde edilen bilgilerle çoğunlukla regresyon sorunlarını çözmek ve sürekli bağımlı değişkenler üzerinde tahminler oluşturmak için kullanılır.
Sürekli bağımlı değişkenler için sonucu tahmin etmede yardımcı olabilecek en uygun çizgiyi bulmak, doğrusal regresyonun amacıdır. Ev fiyatları, yaş ve ücretler, sürekli değerlerin bazı örnekleridir.
Basit doğrusal regresyon olarak bilinen bir model, bir bağımsız değişken ile bir bağımlı değişken arasındaki ilişkiyi hesaplamak için düz bir çizgi kullanır. Çoklu doğrusal regresyonda ikiden fazla bağımsız değişken vardır.
Doğrusal bir regresyon modelinin altında yatan dört varsayım vardır:
- Doğrusallık: X ile Y'nin ortalaması arasında doğrusal bir bağlantı vardır.
- Homoscedasticity: X'in her değeri için artık varyans aynıdır.
- Bağımsızlık: Gözlemler bağımsızlık açısından birbirinden bağımsızdır.
- Normallik: X sabit olduğunda, Y normal dağılır.
Doğrusal regresyon, çizgiler boyunca ayrılabilen veriler için takdire şayan bir performans sergiliyor. Düzenlileştirme, çapraz doğrulama ve boyutsallık azaltma tekniklerini kullanarak fazla uydurmayı kontrol edebilir. Ancak, zaman zaman fazla uyum ve gürültü ile sonuçlanabilecek kapsamlı özellik mühendisliğinin gerekli olduğu durumlar vardır.
2. Lojistik Regresyon
Lojistik regresyon, denetimli öğrenmeden ayrılan başka bir makine öğrenimi tekniğidir. Başlıca kullanımı sınıflandırmadır, ancak regresyon problemleri için de kullanılabilir.
Lojistik regresyon, bağımsız faktörlerden gelen bilgileri kullanarak kategorik bağımlı değişkeni tahmin etmek için kullanılır. Amaç, yalnızca 0 ile 1 arasında düşebilecek çıktıları sınıflandırmaktır.
Girdilerin ağırlıklı toplamı, 0 ile 1 arasındaki değerleri dönüştüren bir etkinleştirme işlevi olan sigmoid işlevi tarafından işlenir.
Lojistik regresyonun temeli, belirli gözlenen veriler verilen varsayılan bir olasılık dağılımının parametrelerini hesaplamak için bir yöntem olan maksimum olabilirlik tahminidir.
3. Karar Ağacı
Denetimli öğrenmeden ayrılan bir başka makine öğrenimi yöntemi de karar ağacıdır. Hem sınıflandırma hem de regresyon sorunları için karar ağacı yaklaşımı kullanılabilir.
Bir ağaca benzeyen bu karar verme aracı, eylemlerin olası sonuçlarını, maliyetlerini ve yansımalarını göstermek için görsel temsiller kullanır. Verileri ayrı bölümlere ayırarak, fikir insan zihnine benzer.
Veriler, taneleyebildiğimiz kadar farklı parçalara bölünmüştür. Bir Karar Ağacının ana amacı, hedef değişkenin sınıfını tahmin etmek için kullanılabilecek bir eğitim modeli oluşturmaktır. Eksik değerler, Karar Ağacı kullanılarak otomatik olarak işlenebilir.
Tek seferlik kodlama, yapay değişkenler veya diğer veri ön işleme adımlarına gerek yoktur. Ona yeni veriler eklemenin zor olması anlamında katıdır. Ek etiketli verileriniz varsa, ağacı tüm veri kümesinde yeniden eğitmelisiniz.
Sonuç olarak, karar ağaçları, dinamik model değişikliği gerektiren herhangi bir uygulama için kötü bir seçimdir.
Hedef değişkenin türüne göre karar ağaçları iki türe ayrılır:
- Kategorik Değişken: Hedef değişkenin Kategorik olduğu bir Karar Ağacı.
- Sürekli Değişken: Hedef değişkenin Sürekli olduğu bir Karar Ağacı.
4. Rastgele Orman
Rastgele Orman Yöntemi, bir sonraki makine öğrenme tekniğidir ve sınıflandırma ve regresyon konularında yaygın olarak kullanılan denetimli bir makine öğrenme algoritmasıdır. Aynı zamanda karar ağacına benzer ağaç tabanlı bir yöntemdir.
Bir ağaç ormanı veya birçok karar ağacı, karar vermek için rastgele orman yöntemiyle kullanılır. Rastgele orman yöntemi, sınıflandırma görevlerini işlerken, sürekli değişkenler içeren veri kümeleriyle regresyon görevlerini işlerken kategorik değişkenleri kullandı.
Rastgele orman yönteminin yaptığı bir grup veya birçok modelin karıştırılmasıdır; bu, tahminlerin tek bir model yerine bir grup model kullanılarak yapıldığı anlamına gelir.
Modern makine öğrenimi sistemlerinin çoğunu oluşturan hem sınıflandırma hem de regresyon problemlerinde kullanılabilmesi, rastgele ormanın önemli bir faydasıdır.
Ensemble tarafından iki farklı strateji kullanılmaktadır:
- Torbalama: Bunu yaparak, eğitim veri seti için daha fazla veri üretilir. Tahminlerdeki varyasyonu azaltmak için bu yapılır.
- Güçlendirme, ardışık modeller oluşturarak zayıf öğrenenleri güçlü öğrenenlerle birleştirme ve nihai modelin maksimum doğrulukla elde edilmesi sürecidir.
5. Naif Bayes
İkili (iki sınıflı) ve çok sınıflı bir sınıflandırma sorunu, Naive Bayes tekniği kullanılarak çözülebilir. Yöntem, ikili veya kategori giriş değerleri kullanılarak açıklandığında, kavraması en kolay olanıdır. Naive Bayes sınıflandırıcısı tarafından yapılan bir varsayım, bir sınıftaki bir özelliğin varlığının diğer özelliklerin varlığıyla hiçbir ilgisi olmadığıdır.
Yukarıdaki formül şunları gösterir:
- P(H): H hipotezinin doğru olma olasılığı. Önsel olasılık bu olarak adlandırılır.
- P(E): Kanıtın olasılığı
- P(E|H): Hipotezin kanıtlarla desteklenme olasılığı.
- P(H|E): Kanıt verildiğinde hipotezin doğru olma olasılığı.
Bir Naive Bayes sınıflandırıcısı, bu nitelikler birbirine bağlı olsa bile, belirli bir sonucun olasılığını belirlerken bu özelliklerin her birini ayrı ayrı dikkate alacaktır. Naive Bayes modelinin oluşturulması basittir ve büyük veri kümeleri için etkilidir.
Temel olmakla birlikte en karmaşık sınıflandırma tekniklerinden bile daha iyi performans gösterdiği bilinmektedir. Tek bir yöntemden ziyade tümü Bayes Teoremine dayanan bir algoritmalar topluluğudur.
6. K-En Yakın Komşular
K-en yakın komşular (kNN) tekniği, sınıflandırma ve regresyon sorunlarını ele almak için kullanılabilecek denetimli makine öğreniminin bir alt kümesidir. KNN algoritması, karşılaştırılabilir nesnelerin yakınlarda bulunabileceğini varsayar.
Bunu benzer düşünen bireylerin bir araya gelmesi olarak hatırlıyorum. kNN, yakınlık, yakınlık veya mesafeyi kullanan diğer veri noktaları arasındaki benzerlik fikrinden yararlanır. Görünmeyen verileri en yakın etiketlenmiş gözlemlenebilir veri noktalarına dayalı olarak etiketlemek için, bir grafik üzerindeki noktalar arasındaki ayrımı belirlemek için matematiksel bir yöntem kullanılır.
En yakın karşılaştırılabilir noktaları belirlemek için veri noktaları arasındaki mesafeyi belirlemelisiniz. Bunun için Öklid mesafesi, Hamming mesafesi, Manhattan mesafesi, Minkowski mesafesi gibi mesafe ölçümleri kullanılabilir. K en yakın komşu sayı olarak bilinir ve genellikle tek bir sayıdır.
KNN, sınıflandırma ve regresyon problemlerine uygulanabilir. KNN regresyon sorunları için kullanıldığında yapılan tahmin, K-en benzer oluşumların ortalamasına veya medyanına dayanır.
KNN'ye dayalı bir sınıflandırma algoritmasının sonucu, birbirine en çok benzeyen K tane olay arasında en yüksek frekansa sahip sınıf olarak belirlenebilir. Her örnek, esasen kendi sınıfı için bir oy verir ve tahmin, en çok oyu alan sınıfa aittir.
7. K-araçları
Kümeleme sorunlarını ele alan denetimsiz öğrenme için bir tekniktir. Veri kümeleri, her kümenin veri noktaları homojen ve diğer kümelerdekilerden farklı olacak şekilde belirli sayıda kümeye bölünür - hadi K diyelim.
K-ortalama kümeleme metodolojisi:
- Her küme için, K-ortalama algoritması k tane merkez veya nokta seçer.
- En yakın merkezler veya K kümeleri ile her veri noktası bir küme oluşturur.
- Şimdi, halihazırda mevcut olan küme üyelerine bağlı olarak yeni merkezler üretiliyor.
- Her veri noktası için en yakın mesafe, bu güncellenmiş merkezler kullanılarak hesaplanır. Merkezler değişmeyene kadar bu işlem tekrarlanır.
Daha hızlı, daha güvenilir ve anlaşılması daha kolaydır. Sorunlar varsa, k-araçlarının uyarlanabilirliği ayarlamaları basitleştirir. Veri kümeleri birbirinden farklı veya iyi izole edildiğinde, sonuçlar en iyisidir. Düzensiz verileri veya aykırı değerleri yönetemez.
8. Destek Vektör Makineleri
Verileri sınıflandırmak için SVM tekniğini kullanırken, ham veriler n boyutlu bir uzayda noktalar olarak gösterilir (burada n, sahip olduğunuz özelliklerin sayısıdır). Veriler daha sonra kolayca sınıflandırılabilir çünkü her özelliğin değeri daha sonra belirli bir koordinata bağlanır.
Verileri ayırmak ve bir grafiğe koymak için sınıflandırıcılar olarak bilinen satırları kullanın. Bu yaklaşım, her veri noktasını n boyutlu uzayda bir nokta olarak çizer; burada n, sahip olduğunuz özelliklerin sayısıdır ve her özelliğin değeri belirli bir koordinat değeridir.
Şimdi verileri farklı kategorilere ayrılmış iki veri grubuna bölen bir çizgi bulacağız. İki grubun her birindeki en yakın noktalardan olan mesafeler, bu hat boyunca en uzak mesafe olacaktır.
En yakın iki nokta yukarıdaki örnekteki doğruya en uzak olan noktalar olduğundan, verileri farklı kategorize edilen iki gruba ayıran doğru ortadaki çizgidir. Sınıflandırıcımız bu çizgidir.
9. Boyut Azaltma
Boyut azaltma yaklaşımını kullanarak, eğitim verileri daha az girdi değişkenine sahip olabilir. Basit bir ifadeyle, özellik setinizin boyutunu küçültme sürecini ifade eder. Veri kümenizin 100 sütunu olduğunu düşünelim; boyutsallık azaltma bu miktarı 20 sütuna indirecektir.
Model otomatik olarak daha karmaşık hale gelir ve özelliklerin sayısı arttıkça fazla takma riski artar. Daha büyük boyutlarda verilerle çalışmayla ilgili en büyük sorun, verileriniz aşırı sayıda özellik içerdiğinde ortaya çıkan "boyutluluğun laneti" olarak bilinen şeydir.
Boyut azaltmayı gerçekleştirmek için aşağıdaki öğeler kullanılabilir:
- İlgili özellikleri bulmak ve seçmek için özellik seçimi kullanılır.
- Halihazırda var olan özellikleri kullanarak, özellik mühendisliği manuel olarak yeni özellikler oluşturur.
Sonuç
Denetimsiz veya denetimli makine öğrenimi her ikisi de mümkündür. Verileriniz daha az miktardaysa ve eğitim için iyi etiketlenmişse denetimli öğrenmeyi seçin.
Büyük veri kümeleri genellikle denetimsiz öğrenmeyi kullanarak daha iyi sonuçlar verir ve üretir. Derin öğrenme Yöntemler, kolayca erişilebilen oldukça büyük bir veri koleksiyonunuz varsa en iyisidir.
Takviye öğrenimi ve derin pekiştirmeli öğrenme, üzerinde çalıştığınız bazı konulardır. Sinir ağlarının özellikleri, kullanımları ve kısıtlamaları artık sizin için açık. Son olarak, iş kendi dilinizi oluşturmaya geldiğinde farklı programlama dilleri, IDE'ler ve platformlar için seçenekleri değerlendirdiniz. makine öğrenimi modelleri.
Yapmanız gereken bir sonraki şey, her birini çalışmaya ve kullanmaya başlamaktır. makine öğrenme yaklaşmak. Konu geniş olsa bile, derinliğine odaklanırsanız herhangi bir konu birkaç saat içinde anlaşılabilir. Her konu diğerlerinden ayrı duruyor.
Her seferinde bir konu hakkında düşünmeli, onu incelemeli, uygulamaya koymalı ve algoritmayı/algoritmaları uygulamak için seçtiğiniz bir dili kullanmalısınız.
Yorum bırak