Veri madenciliği algoritmaları karşılaştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezde veri madenciliğinin genel bir tanımı yapılmış; veri madenciliği metotları ve algoritmaları hakkında bilgi verilmiş, model oluşturma basamakları ve oluşturulan modellerin karşılaştırılması için kullanılan metriklerden bahsedilmiş ve bu teorik bilgiler ışığında bir veri kaynağı üzerinde veri madenciliğinde yaygın olarak kullanılan birkaç algoritmanın karşılaştırmalı değerlendirmesi yapılmıştır.Çalışmanın teorik kısmında veri madenciliği uygulamasının bir veri kaynağı üzerinde hangi aşamalardan geçtiği üzerinde durulmuş, kullanılmakta olan metotlar ve bu metotlara ait algoritmalar anlatılmış ve oluşturulan modeli değerlendirme kriterleri hakkında bilgi verilmiştir.Çalışmanın uygulama kısmında ise, teorik kısımda anlatılmış olan bilgiler ışığında; J48, NaiveBayes, Lojistik Regresyon ve KStar algoritmalarının karşılaştırması yapılmıştır. Karşılaştırma yapılırken veri önişlemeden başlamak üzere, hangi bilgilerin kullanıldığı, nasıl bir metot izlendiği, algoritmaların oluşturduğu modellerin istatistiksel sonuçları ve bu sonuçların nasıl değerlendirildiği detaylı bir şekilde anlatılmıştır.Yapılan karşılaştırma sonucuna göre eldeki veri üzerinde çalıştırılan dört farklı algoritmadan J48 algoritmasının ürettiği modelin en iyi karşılaştırma ölçütlerine sahip olduğu sonucuna ulaşılmış, ancak modeller arasında belirgin bir farklılık oluşmadığı sonucu da vurgulanmıştır. In this thesis, a theoretical study of metrics and methods of data mining algorithm comparison is documented and a comparison of several well known data mining algorithms is studied. Different kinds of data mining algorithms exist for different methodologies such as association, classification, clustering methods. A comparison of classification algorithms was performed using a breast cancer data including 204,949 records as a case study.In the theoretical phase of the study, a general information about data mining, methodologies used as part of data mining process, preprocessing of the data, and description of comparison metrics is given. Since the main aim of this study is related to the comparison of algorithms, information about data mining and the methods is briefly mentioned and not detailed. The information given is just an overview of the whole process in order to enlighten how the comparison proceeds and on what basics it holds on.In the application phase, a comparison of classification algorithms including J48, NaiveBayes, Logistic Regression and KStar is performed. It starts with the description of the tool, Weka, used for the application of algorithms on the data. Then, data source that was used to train and test the models is described. Structure and semantics of the source is studied in detail. Preprocess of the data and related work is mentioned that includes both the introduction of Arff format and data cleansing and restructuring. At the end, algorithms are applied and results of those algortihms in terms of statistical figures are given and a comparison is performed using those metrics mentioned in the theoretical phase.
Collections