Merkez tabanlı kümeleme algoritmalarının karşılaştırılması

Bilgin, Aysel

View/Open

File_315439 (5.228Mb)

Date

2008

Author

Bilgin, Aysel

Metadata

Show full item record

Abstract

Kümeleme, Öklit veya Manhattan uzaklığı gibi bir benzerlik ölçümüne dayalı olarak veriyi doğal gruplara ayırma işlemidir. Kümelemede amaç, grup içindeki nesnelerin benzer olması ve bu nesnelerin diğer gruplar içindeki nesnelerden farklı ve başka olmasıdır. Kümelemenin biyoloji, iklim, eğitim, arkeoloji, örüntü tanımlama, tıp, psikoloji ve ilaçlar, elektronik bankacılık, görüntü işleme, astronomi, istatistik ve mühendislik gibi alanlar ile yakından ilişki olması onun daha da gelişmesini sağlamıştır. Kümelenecek olan verinin yapısına bağlı olarak farklı özelliklere sahip birçok kümeleme metodu ortaya çıkmıştır. Kümeleme metotlarından en popüler olanlardan biri bölümlemeli kümeleme metotlarının bir sınıfı olan merkez tabanlı kümeleme algoritmalardır. Merkez tabanlı kümeleme algoritmaları içinde en temel olan K-ortalama kümeleme algoritmasıdır. Diğer merkez tabanlı kümeleme algoritmaları, beklenen eniyileme algoritması ve K-ortalama algoritmasından türetilmiş olan, Bulanık K-Ortalama ve K-Harmonik Ortalama algoritmalarıdır. Merkez tabanlı kümeleme algoritmalarının her birinin kendine ait bir amaç fonksiyonu bulunmaktadır. Bu algoritmaların amacı, kendi amaç fonksiyonlarını en aza indirmektir. Bu çalışma da K-Ortalama, Bulanık K-Ortalama, K-Harmonik Ortalama algoritmaları ve K-Ortalama ve K-Harmonik Ortalama algoritmalarının özelliklerini içeren Hibrit 1 ve Hibrit 2 algoritmaları farklı veri kümeleri üzerinde uygulanmış ve performans değeri ve işlemci zamanına göre karşılaştırılmıştır. Çalışmada kullanılan veriler UCI veri deposundan alınmıştır. Bu çalışma ile merkez tabanlı kümeleme algoritmalarından biri ile kümeleme işlemi yapılacağı zaman ilgili veri kümesi için hangi algoritmanın daha uygun olduğuna karar vermede uzman kişiye yardımcı olmak hedeflenmiştir.

Data clustering is the process of identifying clusters based on some similarity measure like Euclidean, Manhattan distance. The goal of clustering is that patterns within a cluster are similar and different from the patterns in other clusters. The close relationship between data clustering and biology, climate, education, archeology, pattern recognition, medical, psychology and medicine, banking, signal processing, astronomy, statistic, engineering, has caused to improve it. Many clustering methods have appeared based on the structure of data that will be clustered. One popular class of data clustering algorithms is the center-based clustering algorithms. The main algorithm in the center-based clustering algorithms is K-means clustering algorithm. The other center based clustering algorithms, which was developed from k-means and Expectation-maximization, are fuzzy k-means and k-harmonic means algorithm. They each have their own objective function and they try to mininize its own objective function. In this study k-means, fuzzy k-means, k-harmonic means algorithms and two algorithms are named Hybrid 1 and Hybrid 2 that combine features of k-means and k-harmonic means algorithms have been run on different kind of data sets and compared according to their performance value and CPU time. Data that used in this study have been taken from UCI warehouse. The purpose of this study is to help experts making decision about suitable algorithm for relevant data set when they will make a clustering with one of these center-based clustering algorithms.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/419088

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess