Comparison of machine learning algorithms on consumer credit classification
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Diğer tahmin modelleri gibi, kredi değerlendirme de başvuru sahipleriyle veya müşterilerle ilişkili olan risk miktarını değerlendirmek için kullanılan bir araçtır. Değerlendirme modelleri müşterileri bireysel olarak iyi ya da kötü başvuranlar olarak tanımlar. Başvuru yapanların gelecekte temerrüde düşüp düşmeyecekleri için istatistiksel olasılıklar veya tahmin olanakları sunarlar. İstatistiksel olarak test edilmiş bir algoritma kullanarak kredinin geri ödenmeme riskinin ölçülmesi bankaların ve kredi analistlerinin iş yükünün ve değerlendirme sürecinin azaltılması gibi birçok açıdan faydalıdır. Ayrıca, sadece kredi geri ödemesinde anlamlı etkisi olan değişkenlerin kredi talebinde bulunan kişilerden istenmesi daha açıklayıcı sonuçlar alınması açısından bahsedilen yararların etkinliğini artırmaktadır. Günümüzde Makine Öğrenimi (ML) algoritmalarıyla yaygın olarak çeşitli alanlarda veri analizi yapılmaktadır. Bu lagoritmalar doğrudan programlama yapmadan örnek veri setine bağlı olarak oluşturulan matematiksel bir model ile karmaşık ilişkilerin nasıl belirleneceğini ve akıllı seçimler yaratmayı öğrenirler.Bu tezinde, Lojistik Regresyon (LR), Destek Vektör Makinesi (SVM), Gaussian Naïve Bayes (GNB), Karar Ağaçları (DT), Rasgele Karar Ormanları (RF), XGBoost (XGB), K-En Yakın Komşu (KNN) ve Çok Katmanlı Algılayıcı Sinir Ağları (MLP) algoritmaları kullanılarak kapsamlı bir çalışma yapılmaktadır. Bunlara ek olarak, Wrapper Özellik Seçilimi (WFS) ile boyutluluk açısından daha açıklayıcı sonuçlara ulaşmayı amaçlıyoruz ve bunun önemli özellikleri belirleme yönünden kabiliyetini araştırıyoruz. Biz ayrıca hiper-parametere optimizasyon yöntemi olan Kare Arama'nın etkinliğini ve dört farklı veri dönüşümü tekniği olan Doğal Logaritma (LN), Standard, Box-Cox ve Min-Max'un bu algoritma ve metotlara olan etkilerini analiz ediyoruz. Biz kredi sınıflandırması için en uygun yolu belirlemek için doğruluk, AUC, tip I ve tip II hata oranlarını göz önünde bulundurarak bu durumları karşılaştırıyoruz. Tüm ölçümler literatürde yaygın olarak kullanılan Alman ve Australya gerçek dünya tüketici kredisi verileri üzerinde gerçekleştirilmektedir. Like other prediction models, credit scoring is a tool used to evaluate the amount of risk associated with applicants or customers. Scoring models identify clients individually as good or bad applicants. They offer statistical odds or probabilities for prediction either the applicant will be default or not in the future. It is beneficial for banks and credit analysts to measure customers' non-payment risk by statistically tested algorithms in many aspects such as reduction in workload and evaluation time. Also, only demanding features that have the most significant impact on credit assessment process in terms of obtaining more explanatory outcomes, emphasizes the benefits mentioned formerly. Today, Machine Learning (ML) algorithms are commonly applied for data analysis in various areas. The algorithms learn how to determine complicated patterns and create smart choices by generating a mathematical model depending on sample dataset without direct programming. In this thesis, a comparative study is performed using Logistic Regression (LR), Support Vector Machine (SVM), Gaussian Naïve Bayes (GNB), Decision Trees (DT), Random Forest (DT), XGBoost (XGB), K-Nearest Neighbors (KNN) and Multilayer Perceptron Neural Network (MLP) algorithms. In addition to these, we strive to achieve more explanatory outcomes in terms of dimentionality with Wrapper Feature Selection (WFS), and investigate its performance in a way of important attributes detection capacity. We also analyze the impact of Grid Search (GS) hyper-parameters optimizing method, and effect of four data transformation techniques Natural Logarithm (LN), Standard, Box-Cox and Min-Max to these algorithms and methods. We compare these cases to determine the most appropriate way for credit classification by considering accuracy, AUC, type I and type II error rates. All measurements are conducted on German and Australian real world consumer credit datasets commonly used in literature.
Collections