Comparison of machine learning algorithms on consumer credit classification

Koç, Oğuz

dc.contributor.advisor	Kestel, Ayşe Sevtap
dc.contributor.advisor	Uğur, Ömür
dc.contributor.author	Koç, Oğuz
dc.date.accessioned	2020-12-10T09:05:17Z
dc.date.available	2020-12-10T09:05:17Z
dc.date.submitted	2019
dc.date.issued	2019-12-10
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/223508
dc.description.abstract	Diğer tahmin modelleri gibi, kredi değerlendirme de başvuru sahipleriyle veya müşterilerle ilişkili olan risk miktarını değerlendirmek için kullanılan bir araçtır. Değerlendirme modelleri müşterileri bireysel olarak iyi ya da kötü başvuranlar olarak tanımlar. Başvuru yapanların gelecekte temerrüde düşüp düşmeyecekleri için istatistiksel olasılıklar veya tahmin olanakları sunarlar. İstatistiksel olarak test edilmiş bir algoritma kullanarak kredinin geri ödenmeme riskinin ölçülmesi bankaların ve kredi analistlerinin iş yükünün ve değerlendirme sürecinin azaltılması gibi birçok açıdan faydalıdır. Ayrıca, sadece kredi geri ödemesinde anlamlı etkisi olan değişkenlerin kredi talebinde bulunan kişilerden istenmesi daha açıklayıcı sonuçlar alınması açısından bahsedilen yararların etkinliğini artırmaktadır. Günümüzde Makine Öğrenimi (ML) algoritmalarıyla yaygın olarak çeşitli alanlarda veri analizi yapılmaktadır. Bu lagoritmalar doğrudan programlama yapmadan örnek veri setine bağlı olarak oluşturulan matematiksel bir model ile karmaşık ilişkilerin nasıl belirleneceğini ve akıllı seçimler yaratmayı öğrenirler.Bu tezinde, Lojistik Regresyon (LR), Destek Vektör Makinesi (SVM), Gaussian Naïve Bayes (GNB), Karar Ağaçları (DT), Rasgele Karar Ormanları (RF), XGBoost (XGB), K-En Yakın Komşu (KNN) ve Çok Katmanlı Algılayıcı Sinir Ağları (MLP) algoritmaları kullanılarak kapsamlı bir çalışma yapılmaktadır. Bunlara ek olarak, Wrapper Özellik Seçilimi (WFS) ile boyutluluk açısından daha açıklayıcı sonuçlara ulaşmayı amaçlıyoruz ve bunun önemli özellikleri belirleme yönünden kabiliyetini araştırıyoruz. Biz ayrıca hiper-parametere optimizasyon yöntemi olan Kare Arama'nın etkinliğini ve dört farklı veri dönüşümü tekniği olan Doğal Logaritma (LN), Standard, Box-Cox ve Min-Max'un bu algoritma ve metotlara olan etkilerini analiz ediyoruz. Biz kredi sınıflandırması için en uygun yolu belirlemek için doğruluk, AUC, tip I ve tip II hata oranlarını göz önünde bulundurarak bu durumları karşılaştırıyoruz. Tüm ölçümler literatürde yaygın olarak kullanılan Alman ve Australya gerçek dünya tüketici kredisi verileri üzerinde gerçekleştirilmektedir.
dc.description.abstract	Like other prediction models, credit scoring is a tool used to evaluate the amount of risk associated with applicants or customers. Scoring models identify clients individually as good or bad applicants. They offer statistical odds or probabilities for prediction either the applicant will be default or not in the future. It is beneficial for banks and credit analysts to measure customers' non-payment risk by statistically tested algorithms in many aspects such as reduction in workload and evaluation time. Also, only demanding features that have the most significant impact on credit assessment process in terms of obtaining more explanatory outcomes, emphasizes the benefits mentioned formerly. Today, Machine Learning (ML) algorithms are commonly applied for data analysis in various areas. The algorithms learn how to determine complicated patterns and create smart choices by generating a mathematical model depending on sample dataset without direct programming. In this thesis, a comparative study is performed using Logistic Regression (LR), Support Vector Machine (SVM), Gaussian Naïve Bayes (GNB), Decision Trees (DT), Random Forest (DT), XGBoost (XGB), K-Nearest Neighbors (KNN) and Multilayer Perceptron Neural Network (MLP) algorithms. In addition to these, we strive to achieve more explanatory outcomes in terms of dimentionality with Wrapper Feature Selection (WFS), and investigate its performance in a way of important attributes detection capacity. We also analyze the impact of Grid Search (GS) hyper-parameters optimizing method, and effect of four data transformation techniques Natural Logarithm (LN), Standard, Box-Cox and Min-Max to these algorithms and methods. We compare these cases to determine the most appropriate way for credit classification by considering accuracy, AUC, type I and type II error rates. All measurements are conducted on German and Australian real world consumer credit datasets commonly used in literature.	en_US
dc.language	English
dc.language.iso	en
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	İstatistik	tr_TR
dc.subject	Statistics	en_US
dc.title	Comparison of machine learning algorithms on consumer credit classification
dc.title.alternative	Tüketici kredilerinin sınıflandırması üzerinde makineöğrenimi algoritmalarının karşılaştırması
dc.type	masterThesis
dc.date.updated	2019-12-10
dc.contributor.department	Finansal Matematik Anabilim Dalı
dc.identifier.yokid	10279782
dc.publisher.institute	Uygulamalı Matematik Enstitüsü
dc.publisher.university	ORTA DOĞU TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid	591010
dc.description.pages	134
dc.publisher.discipline	Diğer

Files in this item

Name:: yokAcikBilim_10279782.pdf
Size:: 2.248Mb
Format:: PDF
Description:: File_10279782

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess