Bayesian semiparametric models for nonignorable missing data mechanisms in logistic regression
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez çalışmasında, lojistik regresyonda ihmal edilemeyen kayıp veriye sahip ortak değişken- lerin kayıp veri mekanizmaları için Bayesci yarı-parametrik modeller geliştirilmiştir. Kayıp veri literatüründe, ihmal edilemeyen kayıp veri mekanizması tam parametrik yaklaşım ile modellenmiştir. Bu yaklaşımda, ortak değişkendeki verinin kayıp olma koşullu olasılığının probit veya logit bağlantısı, kayıp veri olan ortak değişken dâhil tüm değişkenlerin doğrusal birleşimi ile modellenir. Ancak, bu koşullu olasılığın probit (veya logit) bağlantısı ile ihmal edilemeyen kayıp veriye sahip ortak değişkenler arasındaki ilişki doğrusal olmayabilir. Bizim çalışmamızda, kayıp verili ortak değişkenin kendisi ile bu değişkende kayıp veri olma olasılığının probit bağlantısı arasındaki ilişki, yarı-parametrik bir yaklaşım kullanılarak cezalı yiv regresyonu ile modellenmiştir. Parametreleri tahmin etmek için etkili Markov zinciri Monte Carlo (MZMC) örnekleme algoritması kurulmuştur. Gibbs örnekleyicisi kullanılarak parametrelerin tam koşullu sonsal dağılımlarından örneklem çekilebilmesi için WinBUGS kodu oluşturulmuştur. Farklı gerçek kayıp veri mekanizmaları altında, önerilen tahmin edicileri yanlılık ve etkinlik özellikleri açısından tam-parametrik yaklaşımla elde edilen tahmin edicilerle karşılaştırabilmek için Monte Carlo benzetim denemeleri yapılmıştır. Bu benzetim denemeleri şu sonuçları vermektedir. Kayıp veriye sahip ortak değişken ile bu değişkendeki verinin kayıp olması arasındaki gerçek ilişkinin doğrusal olmayan formda olduğu durumlarda, yarı-parametrik kayıp veri modelleri kullanılarak elde edilen lojistik regresyon tahmin edicileri yanlılık ve etkinlik özellikleri açısından tam parametrik kayıp veri modelleri kullanılarak elde edilen tahmin edicilere göre daha iyidir. Bu ilişkinin doğrusal formda olduğu durumlarda ise tahmin edicilerin yanlılık ve etkinlik özellikleri benzerdir. In this thesis, Bayesian semiparametric models for the missing data mechanisms of nonignorably missing covariates in logistic regression are developed. In the missing data literature, fully parametric approach is used to model the nonignorable missing data mechanisms. In that approach, a probit or a logit link of the conditional probability of the covariate being missing is modeled as a linear combination of all variables including the missing covariate itself. However, nonignorably missing covariates may not be linearly related with the probit (or logit) of this conditional probability. In our study, the relationship between the probit of the probability of the covariate being missing and the missing covariate itself is modeled by using a penalized spline regression based semiparametric approach. An efficient Markov chain Monte Carlo (MCMC) sampling algorithm to estimate the parameters is established. A WinBUGS code is constructed to sample from the full conditional posterior distributions of the parameters by using Gibbs sampling. Monte Carlo simulation experiments under different true missing data mechanisms are applied to compare the bias and efficiency properties of the resulting estimators with the ones from the fully parametric approach. These simulations show that estimators for logistic regression using semiparametric missing data models maintain better bias and efficiency properties than the ones using fully parametric missing data models when the true relationship between the missingness and the missing covariate has a nonlinear form. They are comparable when this relationship has a linear form.
Collections