Kümeleme problemi için geçerlilik indeksleri üzerine
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Veri kümeleme problemi mühendislikte, tıpta, ekonomide vb. pek çok alanda önemli uygulamalara sahip bir kombinatoryal optimizasyon problemidir. Veri kümeleme probleminde amaç küme içi benzerliğin enbüyüklenip, kümeler arası benzerliğin enküçüklenmesidir. Buna görede modellediği gerçek hayat problemi için gözle görülemeyen/gizli kalmış desenlerin ortaya çıkartılması amaçlanır.Geçmişten günümüze veri kümeleme probleminin çözümü için pek çok çözüm yöntemi önerilmiştir. Geliştirilen/geliştirilmekte olan yöntemlerin ilgili alanda ne kadar geçerliliğe sahip sonuçlar ürettiğini değerlendirmek zor ve önemli bir süreçtir. Literatürde bu değerlendirme süreci için çeşitli kümeleme geçerlilik indeksleri önerilmiştir. Herhangi bir kümeleme problemi üzerinde uygulanan çözüm algoritmasının sonucunun bir geçerlilik indeksi tarafından ne kadar geçerli olduğunun belirlenmesi kesin sınırları olmayan açık uçlu bir konudur.Bu tez çalışmasında, kümeleme probleminin çözümü için literatürde yeralan bazı küme geçerlilik indeksleri incelenmiştir. Bunun yanısıra dört gerçek veriseti üzerinde k-means ve global k-means algoritması uygulanarak elde edilen sonuçlar üzerinde içsel değerlendirme ölçülerinden Davies Bouldin ve dışsal değerlendirme ölçülerinden F-Ölçümü kullanılarak hesaplama denemelerinin sonuçları analiz edilmiştir. Data clustering problem can be found in engineering, medicine, economics etc. It is a combinatorial optimization problem with important applications in many fields. The purpose of the data clustering problem is to maximize the similarity within the cluster and to minimize the similarity between the clusters. Accordingly, it is aimed to reveal invisible/hidden patterns for the real life problem it models. Many solution methods have been proposed to solve the data clustering problem from past to present. It is a difficult and important process to evaluate the validity of the developed/under development methods in the relevant field. Various clustering validity indices have been proposed for this evaluation process in the literature. Determining how valid the result of the solution algorithm applied on any clustering problem is by a validity index is an open-ended issue with no clear boundaries. In this thesis, some clustering validity indexes in the literature were examined to solve the clustering problem. In addition, the results of the calculation trials were analyzed by using Davies Bouldin from internal evaluation measures and F-Measure from external evaluation measures on the results obtained by applying k-means and global k-means algorithm on four real datasets.
Collections