dc.contributor.advisor | Süt, Necdet | |
dc.contributor.author | Karadağ, Mehmet | |
dc.date.accessioned | 2020-12-29T11:24:51Z | |
dc.date.available | 2020-12-29T11:24:51Z | |
dc.date.submitted | 2014 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/400770 | |
dc.description.abstract | Çalışmamızın amacı karar ağacı yöntemlerinden olan CART, CHAID ve C4.5 (Java uygulaması J48) ile Lojistik Regresyon analizinin performanslarını simülasyon verileri kullanarak karşılaştırılmasıdır. Simülasyon verileri oluşturulurken bağımsız değişkenler tümü kategorik, tümü sürekli ve hem sürekli hem kategorik şekilde oluşturulmuş ve her bir yapıdan 30'lu, 100' lük ve 1000'li denemeler şeklinde simülasyonlar yapılmıştır. Yapılan simülasyonlar R programı ile CART, CHAID, J48 ve Lojistik Regresyon yöntemleri ile analiz edilmiştir. Performans değerlendirmemizde duyarlılık, özgüllük, pozitif kestirim değeri, negatif kestirim değeri, doğruluk oranı ve ROC eğrisi altında kalan alan değeri esas alınmıştır. Yapılan simülasyon çalışmalarında; tümü kategorik yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışmasına göre, dört algoritma arasında en düşük duyarlılık oranı (%79.92) CART yönteminde gözlenirken diğer üç yöntemin duyarlılık oranlarının birbirine yakın değerler (J48-%85.89, CHAID-%85.00, Lojistik Regresyon-%82.50) aldığı bulunmuştur. 5 kategorik, 5 sürekli yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışması sonuçlarına göre, dört yöntem arasında sürekli değişkenlerden 3 değişkenin F dağılımından, 2 değişkenin normal dağılımdan türetilen bağımsız olan değişkenler göz önüne alındığında en düşük duyarlılık oranı Lojistik Regresyon yönteminde (%79,19) gözlenirken, CART yönteminde (%81,94), CHAID yönteminde (%84,85), en yüksek değer ise J48 yönteminde (%91,80) gözlenmiştir. Sürekli yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışması sonuçlarına göre, dört yöntem arasında sürekli değişkenlerden 3 değişkenin F dağılımından, 2 değişkenin normal dağılımdan türetilen bağımsız olan değişkenler göz önüne alındığında en düşük duyarlılık oranı Lojistik Regresyon yönteminde (%75,64) gözlenirken, CART yönteminde (%79,67), CHAID yönteminde (%84,75), en yüksek değer ise J48 yönteminde (%93,17) gözlenmiştir. Sonuç olarak bağımsız değişkenin yapısı ve simülasyon deneme sayısı değişse de sonuçlarda dikkat çekici bir farkla J48 (C4.5 java uygulaması) yöntemi diğer yöntemlerden daha yüksek bir performans göstermiştir. Anahtar Kelimler: CART, CHAID, C4.5 (J48), Lojistik Regresyon (LR), Simülasyon | |
dc.description.abstract | The aim of the study is to compare performances of CART, CHAID and C4.5 (java application J48) decision tree methods with Logistic Regression (LR) analysis by simulation data. In the simulation processes, independent variables were classified as all categorical, all continuous, both continuous and categorical, and they were simulated 30, 100 and 1000 trials. The simulations and analysis (CART, CHAID, J48 and LR methods) were done using the R program. Sensitivity, specificity, positive predictive value, negative predictive value, accuracy rate, and area under the ROC curve were used for performance evaluation. In accordance with simulations consisting of 1000 trials, while the lowest sensitivity rate among the four methods was observed in CART (79.92%), it was found that the sensitivity rates of the other three methods had closer rates to each other (J48-85.89%, CHAID-85.00%, Logistic Regression-82,50%) for all independent variables in categorical forms in simulation studies. According to the results of simulation of 1000 trials for 5 categorical and 5 continuous independent variables, it was observed that the lowest sensitivity ratio belonged to Logistic Regression (79,19%), CART method (81,94%), CHAID method (84,85%) and the highest ratio was in J48 (91,80%) when among four methods 3 variables of continuous variables derived from F distribution and 2 variables derived from normal distribution were taken into account. According to the results of simulation of 1000 trials for continuous independent variables, it was observed that the lowest sensitivity ratio belonged to Logistic Regression (75,64%), CART method (79,67%), CHAID method (84,75%) and the highest ratio was in J48 (93,17%) when among four methods 3 variables of continuous variables derived from F distribution and 2 variables derived from normal distribution were taken into account. As a result, though the structure of independent variable and the number of trials changed, J48 (C4.5 java application) turned out to perform considerably higher than the other methods in the results.Key Words: CART, CHAID, C4.5 (J48), Logistic Regression (LR), Simulation. | en_US |
dc.language | Turkish | |
dc.language.iso | tr | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Biyoistatistik | tr_TR |
dc.subject | Biostatistics | en_US |
dc.title | Karar ağaçları ile lojistik regresyon analizinin performanslarının simülasyon çalışması ile karşılaştırılması | |
dc.title.alternative | Comparison of decision trees and logistic regression analysis performances by a simulation study | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Biyoistatistik Anabilim Dalı | |
dc.subject.ytm | Bioistatistics | |
dc.subject.ytm | Decision tree | |
dc.subject.ytm | Decision making | |
dc.subject.ytm | Logistic regression analysis | |
dc.subject.ytm | Simulation | |
dc.subject.ytm | Regression trees | |
dc.subject.ytm | Regression analysis | |
dc.subject.ytm | Classification | |
dc.subject.ytm | Chi-square test | |
dc.identifier.yokid | 10042815 | |
dc.publisher.institute | Sağlık Bilimleri Enstitüsü | |
dc.publisher.university | TRAKYA ÜNİVERSİTESİ | |
dc.identifier.thesisid | 365151 | |
dc.description.pages | 78 | |
dc.publisher.discipline | Diğer | |