Esnek kısıtlar tabanlı öbekleme
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Öbekleme önemli bir insan aktivitesidir. Aynı özellikleri paylaşan nesne grupları insanların dünyayı algılamasında ve tanımlamasında önemli rol oynar. Öbekleme birçok uygulama alanına sahiptir. Gerçek dünya uygulamaları çeşitli kısıtları sağlayacak şekilde bir öbekleme analizini gerektirir. Fakat, özellikle çok boyutlu ve/veya hacimli veri kümeleri söz konusu olduğunda, yalnızca öbekleme parametrelerine dayanarak anlamlı öbekler yaratmak zor olabilmektedir. Bundan dolayı, birçok uygulamada kullanıcının seçimleri ve koyduğu kısıtların göz önüne alınması istenir. Bizim çalışmamızda esnek kısıtlar kullanılarak, kesişmeyen kısmi öbeklemelerin elde edilmesi hedeflenmiştir. Öbeklemelerin yerine getirilmesi ve verilen kısıtları sağlamada ne kadar başarılı olduğunu ölçmek için bulanık, olasılıksal ve ağırlıklı yarı halka modelleri kullanılmıştır. Optimizasyon için ise genetik algoritmalardan faydalanılmıştır. Bahsi geçen işlemlerin gerçekleştirilmesinde kullanılmak üzere Java programlama dili kullanılarak bir araç geliştirilmiştir. Geliştirilen araç esnek kısıtların tanımlanması, öbekleme algoritmalarının çalıştırılması, veri kümeleri ve öbeklemelerin görsel olarak gösterilmesi, sonuçların hesaplanması ve öbek doğrulama yöntemlerinin kullanılmasını sağlamaktadır. Bu araçtan faydalanılarak seçilen veri kümeleri üzerinde kullanıcı tanımlı esnek kısıtlarına göre anlamlı öbekler oluşturmaya çalışan deneysel çalışmalar da yapılmıştır. Deney sonuçları kapsamlı olarak sunulmuş ve sonuçlar analiz edilmiştir. Clustering is an important human activity. Object groups sharing the same characteristics have a significant role in human perception of the world. Clustering has many application areas. Real world applications demand for cluster analysis which satisfies various user/domain constraints. But, it becomes an important challenge to obtain meaningful clusters by solely tuning clustering parameters, especially when high dimensional and/or high volume data sets are considered. As a result, in many of such applications, user preferences and domain constraints should be taken into consideration. The objective with this work is to obtain disjoint partial clusterings by employing soft constraints. Fuzzy, probabilistic and weighted semi-rings are used to do the clustering and as well to assess the degree of soft constraints satisfaction. Genetic algorithms are used for optimization purposes. A tool, written in Java, is developed to implement what is considered. The tool has the capability of accepting/exploiting user defined soft constraints, executing clustering algorithms, displaying data sets and resulting clusterings, and calculating the clustering metrics and validity indices. The tool is experimentally evaluated on select datasets to obtain soft constraints based clusterings. To assess the performance, extensive experimental results are presented and analyzed.
Collections