Cost sensitive learning algorithms
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez, maliyet duyarlılık öğrenme algoritmalarını içermektedir. Algoritmalarkullanılarak sınıf öğrenme hataları ve yanlış tahmin edilen sınıfların maliyetleri hesaplanmaktadır. Veri madenciliğinde elimizde hangi sınıfta olduğunu bildiğimiz verileri kullanarak, hangi sınıfta olduğunu bilmediğimiz verinin hangi sınıftan olduğunu algoritmaları kullanarak tahmin edebiliriz. Sınıflandırmadaki amaç farklı sınıflardan oluşan bilgileri doğru sınıflandırmak için doğru modeller kurmak. Verinin dağılımına gore bir model bulunur. Bulunan model, başarımı belirlendikten sonra niteliğin gelecekteki ya da bilinmeyen değerini tahmin etmek için kullanılır. Bazı veri grupları için iyi sınıflandırma sağlayan algoritma başka veri grupları için iyi sınıf tahmin edemeyebilir. Hangi tip algoritma hangi tip verilerde sınıf tahmin etme hatası düşük onları elde ettik.Tezde değişik sayıda özellikleri, sınıfları ve veri grupları kullanıldı. Bu veri grupları 5 değişik algoritma kullanılarak eğitildi, doğrulandı ve test edildi. Sınıflandırma için kullanılan algoritmalar Logistic Discrimination, K-Nearest Neighbor, Multilayer Perceptron, C4.5 Decision Tree ve Nearest Mean algoritması. Bu methodlar çok büyük, orta derecede büyük sayıda ve küçük sayıda veri gruplarına uygulandı. Deneylerden pekçok sonuçlar elde edildi. Grafikler çizildi. Bu sonuçlar gösteriyorki her durumda en iyi sonucu veren algoritma yok. Degişik algoritmalar değişik veri gruplarının sınıflarını iyi tahmin edebiliyor. Algoritmalarda değişik yüzdelerde veri kullanıldı ve yüzdesine göre eşit sayıda sınıflar kullanıldı. Herbir veri grupları için hatalar ve maliyetler hesaplandı. Algoritmaların sınıflandırılma performansı hata oranlarına göre değerlendirildi. Pekçok uygulamada yanlış sınıflandırma aynı değerde değil. Bunun için çok sınıflı ağırlık maliyet algoritmaları kullanıldı. Maliyet modelleri maliyet matrikslerini oluşturmak için kullanıldı. Maliyet hesaplamak icin kullanılan maliyet algoritmaları Class Frequency, MaxCost ve AvgCost. This thesis studies the cost sensitive learning algorithms that calculate the class learning algorithms errors and costs. Data mining is the automated extraction of hidden predictive information from databases that can be applied to predict and diagnose many illnesses. Specifically, accurate classification of illnesses is a very important issue for the treatment of illnesses. The goal of classification is to build a set of models that can correctly predict the class of the different objects. Some algorithms produce better results than others. It is necessary to analyze systematically the performance of classifiers using a variety of datasets.In this thesis, many features were explored and 10 datasets were classified by using 5 classification algorithms. Logistic Discrimination Algorithm (LD), K-Nearest Neighbor Algorithm (KNN), Multilayer Perceptron Algorithm (MLP) and Nearest Mean algorithm and Decision Tree (C4.5) algorithms have been used for classification. These methods are applied to large and small datasets and then a large number of experiment results were obtained. The results show that there is no single algorithm that performs well in all domains. K-Nearest Neighbor Algorithm (KNN), Multilayer Perceptron (MLP), and Decision Tree (C4.5) algorithms had three steps: train, validate and test. Nearest Mean and Logistic Discrimination algorithms only had train and test steps. In these algorithms, each set had different percentage of data and had equal percentage of classes. The algorithms errors and costs were calculated for each dataset. The error rate is calculated based on the misclassified classes. The algorithms? classification performance is quantified by their error rate. In many applications, not all misclassifications have the same value. Within this thesis, multi-class weighting cost methods are also discussed. Cost models are used for composing cost matrix and experiments. Class Frequency, MaxCost and AvgCost methods were used to calculate costs.
Collections