Sınıflama ve regresyon ağaçları ve bir uygulama
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
ÖZET Sınıflama ve Regresyon Ağaçlan, her bir orta düğümünde sadece iki dala sahip, ikili karar ağacı algoritmasıdır. Sınıflama ağaçlan herhangi bir durumun veya nesnenin sınıf üyeliğini, bir veya daha fazla bağımsız değişkenden yararlanarak bulmaya çalışan istatistiksel bir süreçtir. Sınıflama ağaçlarında bağımsız değişken kategorik olmak zorundadır. Regresyon ağaçlarında ise bağımlı değişken sürekli olmalıdır. Regresyon ağaçlan sürekli bir bağımlı değişken için farklı aralıklar bulmaya çalışır. Bağımsız değişkenlerden yararlanarak, kişilerin veya nesnelerin bu aralıklardan hangisine düşeceğini bulmaya çalışır. Sınıflama ve Regresyon Ağaçlan algoritmasının amacı kategorik veya sürekli bir bağımlı değişken için tahmin yapmak ve bu tahminin açıklamasını bağımsız değişkenlerle yapmaktır. Bu yönüyle geleneksel istatistiksel yöntemler olarak bilinen, Diskriminant Analizi, Lojistik Regresyon, Kümeleme Analizi gibi yöntemlerle aynı işi yapmaktadır. Fakat Sınıflama ve Regresyon Ağaçlan Analizinin avantajı, veri yapısı hakkında hiçbir varsayımda bulunmamasıdır. Bu tezin amacı, Sınıflama ve Regresyon Ağaçlan hakkındaki teorik bilgileri vermek ve analizin performansım Diskriminant Analizi ile karşılaştırmaktır. Tezin taslağı şu şekildedir: Birinci ve ikinci bölümde ağaç yapısı hakkında bilgi ve formül verilmiştir ; Üçüncü bölümde Doğru boyutlandınlmış ağaçlar ve güvenilir tahminler hakkında bilgi verilmiştir ; Dördüncü bölümde Ayırma kurallan anlatılmıştır; Beşinci bölümde Regresyon ağaçlan anlatılmıştır ; Altıncı bölümde Bayes kurallan ve dağılımı anlatılmıştır ; Yedinci bölümde Optimal budama anlatılmıştır, Sekizinci bölümde Herhangi bir örnekten bir ağacın yapılandınlması anlatılmıştır ; Dokuzuncu bölümde yapılan uygulama ve sonuçlarından bahsedilmiştir ; Onuncu bölümde ise uygulamalardan çıkan sonuçların yorumu yapılmış ve uygulamada kullanılan iki yöntem olan CART ve Diskriminant Analizi sonuçlan karşılaştınlmıştır. Uygulama için ortaokul öğrencileri ile anket yapılmış ve öğrencilerin not ortalamalan bağımlı değişken olarak kullanılmıştır. Sonuçta CART, Diskriminant analizinden daha başarılı sonuçlar vermiştir. Anahtar Kelimeler : Sınıflama ve Regresyon Ağaçlan, CART, Çapraz-geçerlilik, Ayırma IV ABSTRACT Classification and Regression Tree, CART, is a binary decision tree algorithm, which has exactly two branches at each internal node. Classification trees are statistical procedures that produce prediction algorithms for dichotomous outcomes (i.e., presence or absence of a condition). Classification trees are used to predict membership of cases or objects in the classes of a categorical dependent variable from their measurements on one or more predictor variables. Classification tree analysis is one of the main techniques used in so-called Data Mining. Since dependent variable is continious, classification trees algorithm is called Regression Trees. Regression Trees finds several intervals for dependent variable. The goal of Classification and Regression Trees is to predict or explain responses on categorical or continious dependent variable, and as such, the available techniques have much in common with the techniques used in the more traditional methods of Discriminant Analysis, Cluster Analysis, Nonparametric Statistics and Nonlinear Estimation. The flexibility of classification trees make them a very attractive analysis option, but this is not to say that their use is recommended to the exclusion of more traditional methods. The purpose of this thesis is to give theoretical informations about Classification and Regression Trees and compare their performance with Discriminant Analysis. The layout of this thesis is, as follows in Chapters 1 and 2; Tree structured methodology in classification, in Chapter 3 ; Right sized trees and honest estimates, in Chapter 4 ; Splitting Rules, in Chapter 5 ; Regression Trees, in Chapter 6 ; Bayes rules and partitions, in Chapter 7 ; Optimal pruning,, in Chapter 8 ; Construction of trees from a learning sample, in Chapter 9 ; Application, in Chapter 10 ; Conclusion and Discussion. As an application, A survey has been made on secondory school students. The survey results have been used to compare CART and Discriminant Analysis. Keywords: Classification and Regression Trees, CART, Cross-validation, Splitting Rules.
Collections