Show simple item record

dc.contributor.advisorSüt, Necdet
dc.contributor.authorKaradağ, Mehmet
dc.date.accessioned2020-12-29T11:24:51Z
dc.date.available2020-12-29T11:24:51Z
dc.date.submitted2014
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/400770
dc.description.abstractÇalışmamızın amacı karar ağacı yöntemlerinden olan CART, CHAID ve C4.5 (Java uygulaması J48) ile Lojistik Regresyon analizinin performanslarını simülasyon verileri kullanarak karşılaştırılmasıdır. Simülasyon verileri oluşturulurken bağımsız değişkenler tümü kategorik, tümü sürekli ve hem sürekli hem kategorik şekilde oluşturulmuş ve her bir yapıdan 30'lu, 100' lük ve 1000'li denemeler şeklinde simülasyonlar yapılmıştır. Yapılan simülasyonlar R programı ile CART, CHAID, J48 ve Lojistik Regresyon yöntemleri ile analiz edilmiştir. Performans değerlendirmemizde duyarlılık, özgüllük, pozitif kestirim değeri, negatif kestirim değeri, doğruluk oranı ve ROC eğrisi altında kalan alan değeri esas alınmıştır. Yapılan simülasyon çalışmalarında; tümü kategorik yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışmasına göre, dört algoritma arasında en düşük duyarlılık oranı (%79.92) CART yönteminde gözlenirken diğer üç yöntemin duyarlılık oranlarının birbirine yakın değerler (J48-%85.89, CHAID-%85.00, Lojistik Regresyon-%82.50) aldığı bulunmuştur. 5 kategorik, 5 sürekli yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışması sonuçlarına göre, dört yöntem arasında sürekli değişkenlerden 3 değişkenin F dağılımından, 2 değişkenin normal dağılımdan türetilen bağımsız olan değişkenler göz önüne alındığında en düşük duyarlılık oranı Lojistik Regresyon yönteminde (%79,19) gözlenirken, CART yönteminde (%81,94), CHAID yönteminde (%84,85), en yüksek değer ise J48 yönteminde (%91,80) gözlenmiştir. Sürekli yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışması sonuçlarına göre, dört yöntem arasında sürekli değişkenlerden 3 değişkenin F dağılımından, 2 değişkenin normal dağılımdan türetilen bağımsız olan değişkenler göz önüne alındığında en düşük duyarlılık oranı Lojistik Regresyon yönteminde (%75,64) gözlenirken, CART yönteminde (%79,67), CHAID yönteminde (%84,75), en yüksek değer ise J48 yönteminde (%93,17) gözlenmiştir. Sonuç olarak bağımsız değişkenin yapısı ve simülasyon deneme sayısı değişse de sonuçlarda dikkat çekici bir farkla J48 (C4.5 java uygulaması) yöntemi diğer yöntemlerden daha yüksek bir performans göstermiştir. Anahtar Kelimler: CART, CHAID, C4.5 (J48), Lojistik Regresyon (LR), Simülasyon
dc.description.abstractThe aim of the study is to compare performances of CART, CHAID and C4.5 (java application J48) decision tree methods with Logistic Regression (LR) analysis by simulation data. In the simulation processes, independent variables were classified as all categorical, all continuous, both continuous and categorical, and they were simulated 30, 100 and 1000 trials. The simulations and analysis (CART, CHAID, J48 and LR methods) were done using the R program. Sensitivity, specificity, positive predictive value, negative predictive value, accuracy rate, and area under the ROC curve were used for performance evaluation. In accordance with simulations consisting of 1000 trials, while the lowest sensitivity rate among the four methods was observed in CART (79.92%), it was found that the sensitivity rates of the other three methods had closer rates to each other (J48-85.89%, CHAID-85.00%, Logistic Regression-82,50%) for all independent variables in categorical forms in simulation studies. According to the results of simulation of 1000 trials for 5 categorical and 5 continuous independent variables, it was observed that the lowest sensitivity ratio belonged to Logistic Regression (79,19%), CART method (81,94%), CHAID method (84,85%) and the highest ratio was in J48 (91,80%) when among four methods 3 variables of continuous variables derived from F distribution and 2 variables derived from normal distribution were taken into account. According to the results of simulation of 1000 trials for continuous independent variables, it was observed that the lowest sensitivity ratio belonged to Logistic Regression (75,64%), CART method (79,67%), CHAID method (84,75%) and the highest ratio was in J48 (93,17%) when among four methods 3 variables of continuous variables derived from F distribution and 2 variables derived from normal distribution were taken into account. As a result, though the structure of independent variable and the number of trials changed, J48 (C4.5 java application) turned out to perform considerably higher than the other methods in the results.Key Words: CART, CHAID, C4.5 (J48), Logistic Regression (LR), Simulation.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBiyoistatistiktr_TR
dc.subjectBiostatisticsen_US
dc.titleKarar ağaçları ile lojistik regresyon analizinin performanslarının simülasyon çalışması ile karşılaştırılması
dc.title.alternativeComparison of decision trees and logistic regression analysis performances by a simulation study
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBiyoistatistik Anabilim Dalı
dc.subject.ytmBioistatistics
dc.subject.ytmDecision tree
dc.subject.ytmDecision making
dc.subject.ytmLogistic regression analysis
dc.subject.ytmSimulation
dc.subject.ytmRegression trees
dc.subject.ytmRegression analysis
dc.subject.ytmClassification
dc.subject.ytmChi-square test
dc.identifier.yokid10042815
dc.publisher.instituteSağlık Bilimleri Enstitüsü
dc.publisher.universityTRAKYA ÜNİVERSİTESİ
dc.identifier.thesisid365151
dc.description.pages78
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess