Türetilmiş ikili heterojen veri yapılarında genel, sağlam ve kesin lojistik regresyon yöntemlerinin karşılaştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sağlık alanında yapılan araştırmalarda ikili şekilde gözlenen bağımlı değişkeniçeren veri setleri ile sıklıkla karşılaşılmaktadır. Örneğin bazı fenomenler var-yok, ölü-sağ, başarılı-başarısız gibi ikili biçimde sonuçlanabilmektedir. Bu sonuçların ortayaçıkmasında birçok faktör söz konusudur. Bu ilişkinin incelenmesinde bağımlı değişkenkategorik yapıda olduğu için lojistik regresyon yöntemi en çok kullanılan yöntemlerdenbiridir.Lojistik regresyon yönteminde kullanılan model oluşturma tekniği, istatistikalanında kullanılan diğer model yapılandırma teknikleri ile benzerdir ve lojistikregresyon analizinin amacı en az sayıda bağımsız değişken kullanarak en iyi uyumasahip olacak şekilde bağımlı ile bağımsız değişkenler arasındaki ilişkiyi tanımlayabilenbir model kurmaktır.Sağlık alanında yapılan çalışmalarda ikili yapıda gözlenen veri setlerininanalizlerinde en yaygın kullanılan genel lojistik regresyon yöntemlerininuygulanabilmesi, büyük örnek hacmine ve koşulsuz olabilirlik fonksiyonununkullanılmasına bağlıdır. Ancak genel lojistik regresyon yöntemleri, örnek hacmi küçük,çarpık, seyrek ya da bağımlı değişkenin beklenenin dışında sapan değerler almasıdurumunda (heterojen veri seti) geçerli ve güvenilir sonuçlar vermeyebilirler. Budurumda alternatif yöntemlerin kullanılması güvenilir sonuçların elde edilmesi içingereklidir. Alternatif yöntemler arasında en yaygın olarak kullanılan lojistik regresyonyöntemi kesin lojistik regresyon analizidir. Ancak son yıllarda sağlam lojistik regresyonyöntemleri de alternatif yöntemler arasında yerini almaktadır. Yapılan literatürtaramaları sonucunda çok sayıda sağlam lojistik regresyon yöntemine rastlanılmıştır.Croux ve Haesbroeck, Bianco ve Yohai tarafından ortaya atılan sağlam lojistikregresyon yöntemini modifiye ederek diğer sağlam lojistik regresyon yöntemlerine görehızlı ve stabil sonuç veren bir algoritma geliştirmişlerdir. Bu nedenle sağlam lojistikregresyon yöntemi olarak Croux ve Haesbroeck tarafından geliştirilen yöntem bu tezçalışmasına dahil edilmiştir.Bu çalışmanın amacı, ikili yapıda bağımlı değişken içeren heterojen verisetlerinin analizlerinde Genel lojistik regresyon, Sağlam lojistik regresyon ve Kesinlojistik regresyon yöntemlerinin performanslarını karşılaştırmaktır.Yöntemler; parametre tahminlerinin yanlılıkları ve standart hataları kullanılarakve farklı örnek büyüklüğünde, farklı bozulma oranında simülasyon çalışmaları yapılarakkarşılaştırıldı. Yöntemlerin karşılaştırılmasında Monte Carlo simülasyon yöntemikullanıldı ve analizler R v2.13.2 ve SAS 9.0 paket programlarında yapıldı. GrafiklerMinitab 15.0 programında oluşturuldu.Simülasyon analizleri sonucunda; bozulma oranının %0 olduğu homojen verisetlerinde üç yöntemin de benzer sonuçlar verdiği gözlendi. Bozulmanın var olduğu verisetlerinde sağlam lojistik regresyon yönteminin, genel lojistik regresyon yöntemi vekesin lojistik regresyon yöntemine göre daha yansız parametre tahminleri verdiği vesağlam lojistik regresyon yönteminin parametre tahminlerine ilişkin standart hatalarıdüzelterek daha güvenilir sonuçlar verdiği belirlendi. The data sets that contain binary dependent variable often encountered inresearch in the field of health. For example, there are some phenomena such as yes-no,alive - dead and successful - unsuccessful. There are many factors that affect theobservation of these results. For certain categories of the dependent variable is the studyof this relationship, the logistic regression method is one of the most widely usedmethods.Model building technique used in logistic regression analysis is similar to othermodel building techniques used in statistical field. The purpose of logistic regressionanalysis is to establish model that can define the relationship between dependent andindependent variables by using a minimum number of independent variables having thebest fit.Asymptotic logistic regression is the most common methods used in binary datasets in the field of health studies. The application of this method depends on the use oflarge sample volume and the unconditional likelihood function. However, theasymptotic logistic regression methods may not release reliable results when the samplesize is small, skewed, sparse or contaminated. In this case, the use of alternativemethods is required to achieve reliable results. Exact logistic regression analysis is themost widely used method among alternative methods. On the other hand, robust logisticregression methods have become one of the alternative methods in recent years. Crouxand Haesbroeck developed an algorithm that works fast and stable than other robustregression methods for the robust logistic regression method proposed by Bianco andYohai. For this reason, the method improved by Croux and Haesbroeck included in thisstudy.The purpose of this study, compare the performance of asymptotic logisticregression, robust logistic regression and exact logistic regression on homogeneouscontaminated data sets that contains binary dependent variable.The methods were compared using biases of the parameter estimation andstandard errors in different sample size and contamination rate and the comparisonswere performed using Monte Carlo simulation method. The simulations were achievedusing R v2.13.2 and SAS 9.0 package programs. The graphs were drawn on Minitab15.0 program.As a result of simulation analyses, it was observed that there were no significantdifferences among the three methods in the homogeneous data sets having 0%contamination rate. In contaminated data sets, it was observed that robust logisticregression methods yielded less biased parameter estimates than asymptotic and exactlogistic regression methods, also robust logistic regression methods released morereliable results by adjusting the standard errors for the parameter estimates.
Collections