K-boyutlu ağaç, uyarlanabilir yarıçap ve öznitelik seçme (KD-ARFS stream) tabanlı gerçek zamanlı akan veri kümeleme
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Klasik kümeleme yaklaşımlarında veri statiktir. Veri, bir yere kaydedilerek tekrar tekrar işlenebilmektedir. Oysa günümüz teknolojisinde, verinin çok hızlı olduğu dünyada, artık veriyi akarken kümeleyecek, kullanıcıya istediği zaman sonuç verebilecek uygulamalara ihtiyaç vardır. Bu anlamda ihtiyacı karşılayan akan veri kümeleme yaklaşımlarına olan talep gün geçtikçe artmaktadır. Çünkü akan veri kümeleme yaklaşımları veriyi bir defa okumalı, hızlı ve kendisini yeni gelen veriye uyarlama özelliğine sahiptir. Yani bir yandan veri akarken, bir yandan kullanıcıya sonuç üretilebilmektedir. Bu tez çalışmasında akan veri üzerinde gerçek zamanlı kümeleme yapan KD-ARFS Stream algoritması önerilmiştir. Önerdiğimiz yaklaşım gücünü çok boyutluluğu destekleyen k-boyutlu ağaç (kd-tree), uyarlanabilir yarıçap ve standart sapma tabanlı öznitelik seçme özelliklerinden almaktadır. KD-ARFS Stream algoritmasının başarısını ölçmek için SE-Stream, CEDAS, pcStream ve DPStream algoritmaları ile toplam harcanan süre ve kümeleme başarısı açılarından karşılaştırılmıştır. Deneysel çalışmalar KD-ARFS Stream algoritmasının daha iyi kümeleme başarısını makul bir sürede verdiğini göstermiştir. In classical data clustering approaches, data is static. It is possible to store the data and process it again and again. However, in the today's technology, in which the data is very fast, it is needed to process the data while it is being streamed and results should be shown to the user whenever the user want. In this sense, demand for data stream clustering approaches, which meet the needs, is increasing day by day. Because data stream clustering approaches are fast, have once read ability and can adapt themselves to new data. In other words, while data is streaming on the other hand, results can be shown to the user on the one hand. In this thesis, KD-ARFS Stream algorithm, which clusters streaming data in real-time is proposed. The proposed approach takes its power from kd-tree, which supports multidimensionality, standard deviation based feature selection and adaptive radius. In order to present the success of KD-ARFS Stream algorithm, it is compared with SE-Stream, pcStream, CEDAS and DPStream algorithms in aspects of consumed time and clustering quality. Experimental results have shown that the KD-ARFS Stream algorithm provides better clustering quality in a reasonable time.
Collections