Analysis and applications of data mining algorithms
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sınıflandırma algoritmaları büyük veri setlerinden kıymetli bilginin elde edilmesi amacıyla kullanılan Veri Madenciliği modellerinden en yaygınıdır. Yıllardır, sınıflandırma algoritmalarının birbirleriyle karşılaştırılması veri madenciliği toplumunun ilgisini çekmektedir. Genel olarak modelleri karşılaştırma kriterleri modelin doğruluğu, karmaşıklığı, sağlamlığı, ölçeklenebilirliği, entegrasyonu, anlaşılabilirliği, istikrarlılığı ve ilgi çekiciliğidir. Bu çalışma sınıflandırma modellerinin doğruluk, zorluk ve sağlamlık özellikleriyle ilgilenmektedir. Veri madencisi genellikle modelini seçerken sınıflandırma doğruluk oranına göre karar verir, dolayısıyla her modelin doğruluğu önemli rol oynar. Bu çalışmada zorluk ile modelin harcadığı işlemci zamanı kastedilmektedir. Çalışma bazı sınıflandırma algoritmalarının çoklu veri setleri üzerinde 3 aşamalı deney sonuçlarını sunmaktadır: 1. Algoritmaların ham veri setleri üzerinde uygulanması, 2. Aynı algoritmaların veri setlerindeki sürekli sayıların münferit aralıklara dönüştürülmesinden sonra tekrar edilmesi, 3.Aynı algoritmaların veri setlerinde Ana Bileşenler Çözümlemesi yapılmasından sonra tekrar edilmesidir. Ortaya çıkan sonuçlara göre algoritmaların farklı deney aşamalarındaki doğruluk ve karmaşıklık dereceleri karşılaştırılmıştır. Ayrıca veri setlerinin karakteristikleri, ya da uygulama detayları ile doğruluk ya da zorluk arasındaki ilişkiler de incelenmiş ve son olarak da veri seti ve uygulama özellikleri ışığında bir sınıflandıma algoritmasının doğruluk ve karmaşıklık derecesini tahmin edebilecek bir regresyon modeli kurulmaya çalışılmıştır. Son olarak tez çalışması temizlenmiş ve temizlenmemiş veri setleri üzerinde tekrarlı deneylerle ölçülebilen sınıflayıcıların sağlamlığı kriteriyle de ilgilenmiştir. Classification algorithms are the most commonly used Data Mining models that are widely used to extract valuable knowledge from hu ge amounts of data. Comparing the classification algorithms has been interesting the data mining community for many years. The criteria to evaluate the classifiers are mostly the accuracy, complexity, robustness, scalability, integration, comprehensibility, stability and interestingness abilities of it. This thesis study is concerned with the accuracy, complexity and robustness of the classifiers. The data miner selects the model mostly with respect to its classification accuracy; therefore, the performance of each classifier plays a very crucial role. As complexity, the cpu time consumed by each classifier is implied in the study. The study firstly discusses the application of some classification models on multiple datasets in 3 stages: firstly implementing the algorithms on pure datasets, secondly implementing the algorithms on the same datasets where continuous numerical variables are discretised, thirdly implementing the algorithms on the same datasets where Principal Component Analysis is applied. On the results, the accuracies and complexities are compared. The relationship of dataset characteristics and implementation attributes between accuracy and complexity is also debated, and finally, a regression model is introduced for predicting the classifier accuracy and complexity with given dataset and implementation conditions. Finally, the study is also concerned with the robustness of the classifiers which is measured by repetitive experiments on noisy and cleaned datasets.
Collections