kfold_gif

K-Fold Cross Validation (Çapraz Doğrulama) – #1

 

Verilerle uğraşırken karşılaştığımız temel zorluklardan biri, overfitting ve underfitting’dir. Bu durumda variance ve bias’tan bahsetmek gerekeçektir.

Bias: Tahminimizin gerçek değerden ne kardar uzak olduğudur.

Variance: Veri setindeki değerlerin ortalamaya göre dağılımını gösterir.

 

 ERROR  = Bias2 +Variance

Veri setini eğitim ve test set olarak ayırmamızın amacı, olası overfitting’den kaçınmak ve modelin daha önceden görmediği veri seti üzerinde nasıl performans gösterdiğini anlamak içindir. Fakat modelimizin eğitim ve test aşamasında dağılımdan kaynaklı bazı hatalar olabilir. Bu hataları minimum seviyeye indirmek için K – Fold Cross Validation tekniği kullanılır. Eğitim veri setini rasgele k parçaya böler.  k-1 parça eğitim için kullanılırken 1 parçada test seti için kullanılır ve k defa bu işlem tekrar eder. Her raund’da elde edilen değerler toplanır ; ortalaması alınır ve modelin performansı değerlendirilir.

kfold

Yandaki görselde veri seti 10 parçaya bölünmüştür. Her turda, mavi boyalı alan test setine ayrılmışken diğer parçalar eğitim için ayrılmıştır.Her turun sonunda sınıflandırıcımızdan gelen performans puanlarıda E  değişkenine kaydedilir. Bütün turlar bittiginde  E’nin aritmetik ortalaması modelimizin performansını gösterir.

 

Python ile K-fold Cross Validation

0 Paylaşımlar
Verilerle uğraşırken karşılaştığımız temel zorluklardan biri, overfitting ve underfitting'dir. Bu durumda variance ve bias'tan bahsetmek gerekeçektir.

K-Fold Cross Validation (Çapraz Doğrulama) – #1” üzerine 3 yorum

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir