Sınıflandırma ağacı analizi ile bulut depo kullanımı yapan bireylerin profillerinin incelenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Büyük veri, gelişen ve değişen teknoloji ile birlikte günümüzde sıkça kullanılan bir kavram haline gelmiştir. Büyük verilerin işlenebilmesi ve bilgiye dönüştürülebilmesi için, veri madenciliği ve makine öğrenimi gibi alanlar verinin analiz edilebilmesi için yöntemler sunmakta ve algoritmalar geliştirmektedir. Veri madenciliği ve makine öğrenimi içerisinde, sıkça kullanılan yöntem karar ağaçlarıdır. Karar ağaçları, parametrik olmayan yöntemdir ve bu nedenle istatistiksel anlamda kısa sürede analiz olanağı sağlamaktadır. Karar ağacı algoritmaları içerisinde en yaygın kullanıma sahip algoritma, sınıflandırma ve regresyon ağacı (CART) algoritmasıdır. Bağımlı değişkenin kategorik yapıda olması durumunda sınıflandırma ağacı, bağımlı değişkenin sürekli olması durumunda ise regresyon ağacı oluşmaktadır. Bu çalışmada, uygulama olarak bulut depo kullanımı yapan bireylerin kişisel olarak internette yaptıkları faaliyetleri, demografik özellikleri ve yazılım faaliyetleri incelenmiştir. Çalışmada kullanılan bağımlı değişken kategorik yapıda olduğu için, farklı eğitim verileriyle sınıflandırma ağaçları oluşturulmuştur. Dolayısıyla, ağaçlar arasındaki farklılıklar ile hatalı sınıflandırma oranından yararlanarak optimum ağaca karar verilmiştir. Big data, together with developing and changing technology nowadays has become a commonly used concept. Machine learning and Data mining provides methods and algorithms for analyzing data, so that big data can be processed and information can be transformed. In data mining and machine learning, decision trees are frequently used. Decision trees are non-parametric methods and therefore provide statistical analysis in a short time. Among the decision tree algorithms, classification and regression tree (CART) algorithm is the most widely used. If the dependent variable is a categorical structure, it is a classification tree. If the dependent variable is continuous, a regression tree is formed.This study focuses on cloud computing and cloud storage, which has become a cost-reducing concept in the analysis of large data sets. Individuals who use cloud storage over the Internet; their personal activities on the Internet, their demographic characteristics and software activities has been examined. Since the dependent variable used in the study is categorical, classification trees have been created with different training data. Therefore, optimum tree size was determined by taking advantage of the differences between the trees and the faulty classification ratio.
Collections