A comparison of the performance of ensemble classification methods in telecom costumer churn analysis
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Veri madenciliği, saklı bilgiyi ortaya çıkarmak için büyük veri kümelerini analiz etme sürecidir. Sınıflandırmaya dayanarak yapılan müşteri ayrılma analizi veri madenciliğinin en yaygın uygulama alanlarından biridir. Bu analiz, telekomünikasyon servis sağlayıcılarını değiştirme eğilimi gösteren müşterilerin tutumunu tahmin etmekte kullanılır. Böylelikle, bu müşteriler için özel kampanyalar oluşturulabilir. Günümüzde, ayrılacak müşteriler iş hayatını etkileyen en önemli problemlerden biridir. Müşteri ayrılma analizinin esas amacı müşterileri iki tipte sınıflandırmaktır. Bu iki tip müşteri; şirketten ayrılanlar ve şirketle işlerini yürütmeye devam edenlerdir. Gelecekte şirketten ayrılma eğilimi olan müşterileri saptamak için geçmiş verilere dayalı tahmin edici modeller geliştirilebilir. Bununla birlikte, sınıflandırma yöntemlerinin sayısı arttığından dolayı müşteri ayrılma analizi tahmini uygulamaları için uygun sınıflandırma yöntemlerini belirlemek daha da zor bir hal aldı. Telekomünikasyon sektöründe müşteri ayrılma analizi tahmininde, geleneksel istatistiksel tahmin yöntemleri çoğunlukla kullanılmaktadır. Bu tez, çoklu makine öğrenmesi algoritmalarının, birleştirmeli sınıflandırma yöntemlerini mevcut tahmin etme metotlarının ölçü doğruluğunu artırmak için kullanarak birleştirilmesini inceler. Başlıca amaç, bagging, boosting ve random forest birleştirmeli sınıflandırma yöntemlerini kullanarak telekomünikasyon sektöründe müşteri ayrılma yönetimi sınıflandırma sonuçlarının değerlendirmeye alınmasıdır. Yaygın bagging, boosting ve random forest tekniklerinin performansını değerlendirmek için Weka yazılım aracı kullanılmıştır. Sonuçlar sınıflandırma doğrulukları ve diğer ölçülerde makul iyileşmelere işaret etmektedir. Sonuçlara dayanarak, iyi bir sınıflandırma tabanı ile kullanılan birleştirmeli sınıflandırma yöntemlerinin müşteri ayrılma analizi tespitinde etkili olduğunu söylemek mümkündür. Bu tez; bu konuları, uygulamalarını ve sonuçlarını içeren sekiz bölümden oluşmaktadır. Anahtar sözcükler: Veri Madenciliği, Müşteri Ayrılma Analizi, Telekomünikasyon Sektöründe Müşteri Ayrılma Analizi, Sınıflandırma, Birleştirmeli Sınıflandırma Yöntemleri, Bagging, Boosting, Random Forest Data mining is used to analyze mass databases in order to discover hidden information. Churn analysis based on classification is one of the most common applications of data mining. It is used to predict the behavior of customers who are most likely to change the provided telecom service. In this way, specific campaigns can be created for them. Customer churn is one of the most significant problems that affect business nowadays. The main purpose of churn prediction is to classify the customers into two types. These two types are customers who leave the company and customers who continue doing their business with the company. In order to identify future churners, predictive models based on past data can be developed. However, it has become more difficult to assess the proper classification methods for churn prediction applications since the number of classification models have also increased. In the area of telecom churn prediction, conventional statistical prediction methods are used mostly. This thesis examines combining multiple machine learning algorithms using ensemble methods to increase the accuracy measures of the existing prediction methods. The major aim is to evaluate classification results in telecom customer churn management using bagging, boosting, and random forest ensemble classification methods. Weka software tool has been used to evaluate the performance of common bagging, boosting, and random forest techniques. The results indicate moderate improvements in classification accuracies and other measures. Based on the results, it can be said that ensemble methods with a good base learner are efficient in churn classification. This thesis comprises of eight sections which include these subjects, their applications, and the results. Keywords: Data Mining, Churn Analysis, Telecom Churn, Classification, Ensemble Methods, Bagging, Boosting, Random Forest
Collections