K-Ortalama Kümeleme (K-Means clustering ) Algoritması – #2

K – Ortalama Algoritması

K-means , bilinen kümeleme problemini çözen, en basit,  gözetimsiz öğrenme algoritmalarından biridir. Prosedür belirli bir veri kümesini belirli  sayıdaki kümeler (k tane) üzerinden gruplara ayırmanın basit ve kolay bir yoludur.

Temel fikir, her bir küme için bir tane olmak üzere k tane centroid (küme merkezi) tanımlamaktır. Bu merkezler, farklı konuma göre farklı sonuçlara neden olduğundan iyi bir biçimde yerleştirmek gerekir. Bu nedenle, merkezleri mümkün olduğunca birbirinden uzakta tutmak gerekir. Sonraki adım, her bir noktayı belirli bir veri kümesine ait almak ve onu en yakın merkeze ilişkilendirmektir. Bekleyen bir nokta yoksa ilk adım tamamlanır ve gruplama yapılır. Optimum merkez noktaları bulunana kadar devam eder.

Yani basitçe;

1-Başlangıç centroid’lerini seçin (küme merkezleri sayısı K değeri)

Tekrar et

2-Her örneği en yakın merkeze ata

3-Yeni centroid belirlemek için kümenin ortalamasını hesapla

Küme merkezleri (centroids) sabit kalana kadar 2. ve 3. adımları tekrarla. Örnekle daha iyi anlayalım.

cl2

Fig. (a) : Örneklerin  XY koordinat düzeleminde dizilmiş hali.

Fig. (b) : (k = 2 varsayalım) Rastgele 2 tane merkez belirlendi.

Fig. (c) : Örnekler ile  merkezler arasındaki uzaklıklar hesaplanması. Örneklerin kendilerine en yakın merkezlere atanması.

Fig. (d) :  Küme merkezleri yeniden hesaplanmış ve yeni noktalar belirlenmiş. (Küme merkezleri kendilerine bağlı olan örneklerin koordinatlarının ortalaması ile bulunur. Örn; Mavi renkli örneklerin X değerleri ile Y değerlerinin toplamının ortalaması küme merkezinin yeni koordinatını verir.)

Fig. (e) : Örneklerin merkezlere olan uzaklıkları tekrar hesaplandı ve yakın olan merkezlere atandı.

Fig. (f) : Küme merkezleri tekrar hesaplandı. Bu işlem optimum noktayı bulana kadar devam eder.

Tabii ki her dataset bu kadar sade ve hatasız olamaz. Bazen öyle örnekler (samples) vardır ki hiçbir gruba yerleştiremezsiniz. Örneğin; Üniversitede okurken double major yapıyosunuz. Hem Elektrik-Elektronik hem de Bilgisayar Mühendisliği okuyorsunuz. Tabii bu size yetmiyor bir de Ekonomi’den minor yapıyorsunuz. Şimdi bu kişiyi  Elektronik grubuna mı ,Bilgisayar grubuna mı yoksa Ekonomi grubuna mı koyacaksınız. İşte böyle örnekler vardır. Onlar da anormallikler (anomalies) olarak geçer. Böyle durumlarda örneğin çok iyi analiz edilmesi gerekir. Aşağıda yeşil halkalar ile işaretlenmiş örnekler anomaly özelliğine sahiptir.

0 Paylaşımlar
K-Ortalama Kümeleme (K-Means clustering ) Algoritması - ML#11
K-Ortalama Kümeleme (K-Means clustering ) Algoritması - ML#11
CSVeri