Customer churn prediction for telecommunications industry

Yabaş, Utku

View/Open

File_10028359 (1.357Mb)

Date

2014

Author

Yabaş, Utku

Metadata

Show full item record

Abstract

Müşteri kaybetmek, telekom firmaları açısından kaybettirdiği para bakımından önemli bir endişedir. Bu tez çalışmasında, en son veri madenciliği yöntemlerini analiz ederek, servislerden ayrılacak veya başka bir firmanın servisini kullanmayı düşünen müşterileri tahmin etmek için yeni metotlar geliştirdik. Önerdiğimiz yaklaşımın performansını yoğun bir şekilde değerlendirdik. Bu değerlendirmeyi yapmak için Orange Telecom tarafından `Knowledge Discovery and Data Mining 2009`(KDD) yarışması için sunduğu gerçek ve kullanıma açık bir veri kümesi kullandık. Bu veri kümesinde toplam 100.000 örnek ve 230 değişken bulunmaktadır. Bu yüzden veri kümesi `büyük veri` kapsamına girmektedir. IBM bu yarışmada birinci olmuştur, ancak önemli ölçüde bilişimsel kaynak kullanmaktadır. Biz alternatif metotlar ve daha uygun kaynaklar kullanarak, yarışmadaki en yüksek skorlara ulaşmayı hedefledik. Bu çalışmada, toplu sınıflandırıcı teknikleri üzerine yoğunlaştık. Tek ve güçlü sınıflandırıcılar ile en son toplu sınıflandırıcıları `müşteri ayrılma` problemi için karşılaştırdık. Ayrıca, bu metotların performanslarını arttırmak için iyi performans gösteren sınıflandırıcıları seçerek; bunları oylayıcı sınıflandırıcı ile birleştirdik. Genel olarak, elde ettiğimiz sonuçlar, yarışmanın en yüksek sonuç alan resmi yarışmacıları ile yakındı. Önerdiğimiz yaklaşımın, `müşteri ayrılması tahmini` dışındaki başka zorlayıcı otomatik öğrenme problem alanları için de değerli olabileceğine inanıyoruz. Yöntemimizin doğruluğunu onaylamak için, UCI Machine Learning kütüphanesinden topladığımız veri kümeleri ile deneyler yaptık. Bu deneyler sonucunda çoğu veri kümesinde yöntemimiz, içinde bulunan toplu sınıflandırıcıdaki bütün algoritmalardan daha iyi sonuçlar elde etmiştir.Anahtar Kelimeler: m¨u¸steri kayıp tahmini, ¸coklu sınıﬂandırıcı, oylayan sınıﬂandırıcı, otomatik ¨o˘grenme, veri madencili˘gi.

Customer churn is a concern for telecommunication service providers due to its associated costs. In this thesis, we analysed state-of-the-art data mining algorithms and developed novel methods to accurately predict customers who will change and turn to another provider for the same or similar service. We extensively evaluated performance of our proposed approach using a public and real dataset compiled by Orange Telecom for the Knowledge Discovery and Data Mining (KDD) 2009 Competition. This dataset has $100,000$ instances with $230$ attributes, which makes it a ``big data''. IBM achieved the highest score on this dataset requiring significant amount of computational resources. We aimed to find alternative methods that can match or improve the recorded highest score with more efficient use of resources. In our study, we focus on ensemble of classifiers techniques. We compared performance of single, powerful classifiers to state-of-the-art ensemble methods for churn detection problem. Additionally, we showed that these results can be further improved by combining selected subset of well performing classifiers by a voting classifier. Overall, the results with our proposed approach were similar to the official top scorers of the competition. We believe that our proposed approach can be valuable for solving other challenging machine learning problem domains (such as ``big data'' problems) rather than churn prediction.Also, we performed experiments using the selected datasets from the UCI Machine Learning repository. Our proposed approach outperforms the single powerful algorithms contained in the ensemble for most of the datasets tested.Keywords: churn prediction, ensemble classiﬁer, voting classiﬁer, data mining,machine learning.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/635813

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess