Four classification methods Naïve Bayesian, support vector machine, K-nearest neighbors and random forest are tested for credit card fraud detection

Hazim, Layth Rafea

dc.contributor.advisor	Ata, Oğuz
dc.contributor.author	Hazim, Layth Rafea
dc.date.accessioned	2021-05-06T12:26:06Z
dc.date.available	2021-05-06T12:26:06Z
dc.date.submitted	2018
dc.date.issued	2018-09-21
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/588574
dc.description.abstract	Bankalar, her yıl birkaç nedenden dolayı milyonlarca para kaybına maruz kalmaktadır; bunların en önemlisi kredi kartı sahtekarlığıdır. Aslında, mesele, bu tür bir sahtekârlıkla karşılaştığımız zorluklarla nasıl başa çıkılacağından ibarettir. Yönelimli `sınıf dengesizliği` bu tür sahtekarlık konusunda çok önemli bir sorun oluşturmaktadır. Bu nedenle, bu çalışmada, Avrupalı kart sahiplerine ilişken gerçek kredi kartı işlemleri üzerine dört veri madenciliği tekniğini araştırıyoruz, bunlar: NAİVE BAYESİAN (NB), DESTEK VEKTÖR MAKİNESİ (SVM), K-EN YAKIN KOMŞU (KNN) ve RASTGELE ORMAN (RF). Bu makale dört önemli nokta sunmaktadır. İlk olarak, çarpık dağılımı gösteren yüksek dengesizlik sınıfı nedeniyle veri kümesini dengelemek için alt örneklemeyi kullandık. İkinci adımda, işlemlerin sahte ve gerçek olarak sınıflandırılması için alt örneklenmiş sınıflarımıza iyi bilinen modeller uyguladık, ardından bir `karışıklık matrisi` kullanarak performans ölçümlerini test ettik ve bunları karşılaştırdık. Üçüncüsü, Modellerimizin doğruluğunu standart sapma ile test etmek ve sonuçları tüm modellerimiz ile karşılaştırmak için 10 katlamayla çapraz validasyonu (CV) uyguladık. Daha sonra, belirli bir dolandırıcılık türü ile hangi modelin kullanılmasının en iyi model olacağını belirlemek için sonuçların sonuçlandırılması amacıyla karışıklık matrisi ve AUC (ROC eğrisinin altındaki alan) sıralama hatası kullanılarak tüm veri kümesine (çarpık) karşı dört model incelendi. Araştırmamızda Python programlama dilli kullandık. Dört sınıflandırma yöntemi (NB, SVM, KNN ve DF) için en iyi doğruluğu gösteren sonuçlar sırasıyla, %97,46, %95.04, %97,55 ve %97,7'dir. Karşılaştırmalı sonuçlar RF'nin NB, SVM ve KNN'den daha iyi performans gösterdiğini göstermekte ve bu sonuçlar, tüm veri seti (çarpık) üzerinde önerilen çalışmamızı kullandığımızda, örneklenmiş veri kümesinden daha iyi sonuçlar elde etmiştir.
dc.description.abstract	Banks suffer multimillion money losses each year for several reasons, the most important of which is due to credit card fraud. In actuality, the issue is how to cope the challenges we face with this kind of fraud. Skewed `class imbalance` is a very important challenge with regard to this kind of fraud. Therefore, in this study, we explore four data mining techniques, namely 'naïve Bayesian (NB)', 'Support Vector Machine (SVM)', 'K-Nearest Neighbor (KNN)' and Random 'Forest (RF)', on actual credit card transactions from European cardholders. This paper offers four major contributions. First, we used under-sampling to balance the dataset because of the high imbalance class, implying skewed distribution. Second, we applied well-known models (NB, SVM, KNN and RF) to our under-sampled class to classify the transactions into fraudulent and genuine followed by testing the performance measures using a `confusion matrix` and comparing them. Third, we adopted cross validation (CV) with 10 folds to test the accuracy of our models with a standard deviation followed by comparing the results for all our models. Next, we examined four models against the entire dataset (skewed) using the confusion matrix and AUC ('Area Under the ROC Curve') ranking measure in order to conclude the final results to determine which would be the best model for us to use with a particular type of fraud. In our work, is used the Python programming language. The results showing the best accuracy for the NB, SVM, KNN and RF classifiers are 97.46%, 95.04%, 97.55% and 97.7%, respectively. The comparative results display that RF performs better than NB, SVM and KNN, and the results, when utilized our proposed study on the entire dataset ('skewed'), achieved preferable outcomes than the undersampled dataset.	en_US
dc.language	English
dc.language.iso	en
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr_TR
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.title	Four classification methods Naïve Bayesian, support vector machine, K-nearest neighbors and random forest are tested for credit card fraud detection
dc.title.alternative	Kredi kartı dolandırıcılık tespiti için dört sınıflandırma yöntemi test edilmiştir: (Naive Bayesian, destek vektör makinesi, K-en yakın komşu ve rastgele orman)
dc.type	masterThesis
dc.date.updated	2018-09-21
dc.contributor.department	Bilişim Teknolojileri Ana Bilim Dalı
dc.identifier.yokid	10185962
dc.publisher.institute	Fen Bilimleri Enstitüsü
dc.publisher.university	ALTINBAŞ ÜNİVERSİTESİ
dc.identifier.thesisid	507937
dc.description.pages	97
dc.publisher.discipline	Bilişim Teknolojileri Bilim Dalı

Files in this item

Name:: yokAcikBilim_10185962.pdf
Size:: 3.384Mb
Format:: PDF
Description:: File_10185962

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess