Çok gruplu veri setlerinde eksik gözlem sorununun çözümlenmesi ve sağlık alanında bir uygulama
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
ÖZET Eksik veri problemi, yıllardır araştırmacıların bilimsel bilgiyi üretmelerinde önlerindeki en büyük engellerden biri olmuştur. Özellikle sağlık alanında toplanan verilerde eksik gözlem değerleri, analiz aşamasında ve sonuçların genellenmesi aşamasında karar verirken, araştırmacıya zor anlar yaşatmakta ve hatalı kararlar vermesine neden olabilmektedir. Eksik veriler, gerek saha araştırmalarında gerekse laboratuar koşullarında yapılan çalışmalarda araştırmacının karşısına çıkabilmektedir. Araştırmacılar öncelikle eksik veriyi ortaya çıkartan nedenleri ve eksik verinin araştırma içerisindeki önem derecesini belirlemelidirler. Bu araştırma bir benzetim çalışmasıdır ve farklı birim sayılarına sahip türetilmiş veri setleri yardımıyla, eksik veri atama yöntemleri karşılaştınlmıştır. Türetilen veri setleri, sırasıyla; 50, 100, 200, 300, 400 ve 500 birim içerecek şekilde, çok değişkenli standartlaştınlmış normal dağılım varsayımından yararlanılarak ve düşük ve yüksek korelasyonlu değişkenleri içerecek şekilde türetilmiştir. Rasgele koşullar altında %5, %10, %15 ve %20 eksiltilen veri setleri TROK (MCAR) yapıya sahiptir. Elde edilen veri setlerinin analizleri sonucunda Listwise, Pairwise, Ortalama, Regresyon ve EM atama yöntemleri düşük hacimli örneklerde tutarsız sonuçlar vermişlerdir (n<200). Fakat tam veri setine en yakın sonuçlar, EM atama yönteminden elde edilmiştir. Benzer şekilde, yüksek hacimli örneklerden elde edilen sonuçlarda da, EM atama yöntemi tam veri setlerine oldukça yakın sonuçlar vermiştir. EM atama yöntemi özelikle 200 birim ve üzerindeki veri setlerinde, %5-%20 arasındaki eksik veri yapılarında diğer atama yöntemlerine göre daha iyi sonuçlar vermiştir. Türetilmiş veri setlerinden elde edilen sonuçlara göre, bazı değişkenlerinde yaklaşık %20 gözlem değeri eksik olan sağlık alanındaki gerçek bir veri seti EM atama yöntemi ile tamamlanmış ve analizler eksik veri seti ile karşılaştırmalı olarak sunulmuştur. Anahtar Kelimeler: Atama yöntemleri, EM, Regresyon atama, Listwise, Pairwise, Ortalama atama. V SUMMARY The problem of missing values has been a big difficulty to produce scientific information. Especially missing observations create difficulties for the analysis and for the generalization of the results in health sciences and could make one give wrong decisions. Missing values can come up in either survey research or in laboratory conditions. Researchers, first of all, should investigate the reasons for missing value and the importance of missing values in data set. In this thesis, simulation study is done, using simulated data sets having different sample sizes, and also some imputation methods are compared. Simulated data is taken from multivariate Normal distribution in which either high correlation matrix or low correlaton matrix is assumed, and the sample sizes are set to 50, 100, 200, 300, 400, and 500. 5%, 10%, 15%, and 20% of simulated samples are randomly set missing, and MCAR (TROK) property is observed on the reduced samples. It is seen that Listwise, Pairwise, Mean, Regression, and EM imputation methods have consistency problems for small sample sizes (n<200). However, the closest results to the results of full data set are produced by EM method. Similarly, for large sample sizes, EM produced the closest results to the full data set. Also, EM imputation produced better results for large samples (n>200) with missing value percentages between 5-20. Based on the information gained by the simulation study, a case data set on which some variables having 20% missing value is completed using EM imputation method, and the results are given in detail. Key Words : Imputation Methods, EM, Regression, Listwise, Pairwise, Mean Imputation. VI
Collections