split

Eğitim ve Test Seti Oluşturma,Feature Scaling – #4

Training and Test Split

Kullandığımız modelin ne kadar sağlıklı, kullanılabir olduğunu test etmek için veri setimizi trainin ve test olarak iki parçaya ayırırız. Trainin veri seti, modelimiz tarafından kullanılır ve bir bağıntı kurar. Modelimizin ne kadar sağlıklı sonuç ürettiğini test etmek için Test setini kullanırız. Böylece modelin kullanılıp kullanılamayacağına karar vermiş oluruz.

Feature Scaling (Özellik Ölçekleme)

Veri ön işlemede en önemli adımlardan birisidir.  Örneğin; 2 sütundan oluşan bir veri seti düşünelim.  1. sütun [1-10] arasında değerlere alırken , 2. sütun [1-10000] arasında değerler alsın. Ağırlık (weight) 2.sütundaki hatalar daha büyük olacağından bu sütuna göre optmize edilecek ve algoritma daha fazla sürede işlemi tamamlayacaktır. 2 porblem ise distance (mesafe)  kullanarak çalışan algoritmalardan verimsiz sonuçlar alınmasına yol açar. Örneğin KNN algoritması euiclidian formulu kullanır ve noktalar arasındaki mesafeleri hesaplar. Bu durumda 2. sütundaki değerler  1.sütundaki değerlerden çok daha büyük olduğundan, 1.sütundaki değerler gözardı edilmiş gibi olur. Bu yüzden bazı algoritmalar için aşağıdaki işlemleri yapmamız gerekir.

Normalization (Normalleştirme)

Normalleştirme, özelliklerin [0, 1] aralığına yeniden ölçeklenmesi anlamına gelir. Her sütunun her bir değeri için;

(i)norm  = X(i) -X (min) / X (max) -X (min)

Standardization (Standartlaştırma)

Normalizasyon sınırlı  aralıkta değerlere ihtiyacımız olduğunda yararlıdır, standardizasyon ise pratikte daha çok kullanılır. Bunun sebebi normal bir dağıtım yapmaktır. Feature sütunlarının ortalama değerleri 0, standat sapma ise 1 olacak şekilde.

x(i) std = (x (i) – µ(x) ) / σ (x)

µ(x) = Belirli bir özelliğin ortalama değeri, σ (x) ise standart sapması

 

 

 

0 Paylaşımlar
Eğitim ve Test Seti Oluşturma,Feature Scaling - #3
Eğitim ve Test Seti Oluşturma,Feature Scaling - #3
Kullandığımız modelin ne kadar sağlıklı, kullanılabir olduğunu test etmek için veri setimizi trainin ve test olarak iki parçaya ayırırız. Trainin veri seti, modelimiz tarafından kullanılır ve bir bağıntı kurar. Modelimizin ne kadar sağlıklı sonuç ürettiğini test etmek için Test setini kullanırız. Böylece modelin kullanılıp kullanılamayacağına karar vermiş oluruz.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir