Four classification methods Naïve Bayesian, support vector machine, K-nearest neighbors and random forest are tested for credit card fraud detection
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bankalar, her yıl birkaç nedenden dolayı milyonlarca para kaybına maruz kalmaktadır; bunların en önemlisi kredi kartı sahtekarlığıdır. Aslında, mesele, bu tür bir sahtekârlıkla karşılaştığımız zorluklarla nasıl başa çıkılacağından ibarettir. Yönelimli `sınıf dengesizliği` bu tür sahtekarlık konusunda çok önemli bir sorun oluşturmaktadır. Bu nedenle, bu çalışmada, Avrupalı kart sahiplerine ilişken gerçek kredi kartı işlemleri üzerine dört veri madenciliği tekniğini araştırıyoruz, bunlar: NAİVE BAYESİAN (NB), DESTEK VEKTÖR MAKİNESİ (SVM), K-EN YAKIN KOMŞU (KNN) ve RASTGELE ORMAN (RF). Bu makale dört önemli nokta sunmaktadır. İlk olarak, çarpık dağılımı gösteren yüksek dengesizlik sınıfı nedeniyle veri kümesini dengelemek için alt örneklemeyi kullandık. İkinci adımda, işlemlerin sahte ve gerçek olarak sınıflandırılması için alt örneklenmiş sınıflarımıza iyi bilinen modeller uyguladık, ardından bir `karışıklık matrisi` kullanarak performans ölçümlerini test ettik ve bunları karşılaştırdık. Üçüncüsü, Modellerimizin doğruluğunu standart sapma ile test etmek ve sonuçları tüm modellerimiz ile karşılaştırmak için 10 katlamayla çapraz validasyonu (CV) uyguladık. Daha sonra, belirli bir dolandırıcılık türü ile hangi modelin kullanılmasının en iyi model olacağını belirlemek için sonuçların sonuçlandırılması amacıyla karışıklık matrisi ve AUC (ROC eğrisinin altındaki alan) sıralama hatası kullanılarak tüm veri kümesine (çarpık) karşı dört model incelendi. Araştırmamızda Python programlama dilli kullandık. Dört sınıflandırma yöntemi (NB, SVM, KNN ve DF) için en iyi doğruluğu gösteren sonuçlar sırasıyla, %97,46, %95.04, %97,55 ve %97,7'dir. Karşılaştırmalı sonuçlar RF'nin NB, SVM ve KNN'den daha iyi performans gösterdiğini göstermekte ve bu sonuçlar, tüm veri seti (çarpık) üzerinde önerilen çalışmamızı kullandığımızda, örneklenmiş veri kümesinden daha iyi sonuçlar elde etmiştir. Banks suffer multimillion money losses each year for several reasons, the most important of which is due to credit card fraud. In actuality, the issue is how to cope the challenges we face with this kind of fraud. Skewed `class imbalance` is a very important challenge with regard to this kind of fraud. Therefore, in this study, we explore four data mining techniques, namely 'naïve Bayesian (NB)', 'Support Vector Machine (SVM)', 'K-Nearest Neighbor (KNN)' and Random 'Forest (RF)', on actual credit card transactions from European cardholders. This paper offers four major contributions. First, we used under-sampling to balance the dataset because of the high imbalance class, implying skewed distribution. Second, we applied well-known models (NB, SVM, KNN and RF) to our under-sampled class to classify the transactions into fraudulent and genuine followed by testing the performance measures using a `confusion matrix` and comparing them. Third, we adopted cross validation (CV) with 10 folds to test the accuracy of our models with a standard deviation followed by comparing the results for all our models. Next, we examined four models against the entire dataset (skewed) using the confusion matrix and AUC ('Area Under the ROC Curve') ranking measure in order to conclude the final results to determine which would be the best model for us to use with a particular type of fraud. In our work, is used the Python programming language. The results showing the best accuracy for the NB, SVM, KNN and RF classifiers are 97.46%, 95.04%, 97.55% and 97.7%, respectively. The comparative results display that RF performs better than NB, SVM and KNN, and the results, when utilized our proposed study on the entire dataset ('skewed'), achieved preferable outcomes than the undersampled dataset.
Collections