Kayıp veri durumunda sağlam kestirim
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu çalışmadaki amaç, hem aykırı değer hem de kayıp veri bulunduran veri kümesinin kayıp değerlerine ve parametre kestirimlerine aykırı değerlerden en az etkilenecek şekilde ulaşabilmektir.Çalışmada kayıp veri ile ilgili tanımlamalar, kayıp veri yükleme yöntemleri ve kayıp verinin tarihsel gelişimi ile ilgili bilgiler verilmiştir. Sağlam istatistik ve sağlam kestirim ile ilgili bilgiler verilerek çalışmada kullanılan sağlam kestirimler açıklanmıştır. Kayıp veri durumunda sağlam kestirim için yapılan çalışmalar aktarılmıştır.Uygulamada iki veri kümesi ele alınmıştır. İlk örnekte belli oranda bozuluma sahip veri kümelerinin rasgele olacak şekilde silinmiş kayıp değerleri klasik ve sağlam yöntemlerle elde edilmiştir. Kayıp değerleri yüklenen veri kümesinin ortalama vektörü ve kovaryans matris kestirimleri için sağlam yöntemlerle çözümleme yapılmıştır. İkinci uygulamada ise regresyon veri kümesinden rasgele şekilde silinmiş kayıp değerler için klasik ve sağlam veri yükleme (imputasyon) yöntemleri kullanılarak kayıp veri kestirimleri karşılaştırılmıştır.Sonuç olarak, veri kümesinin dağılımında bozulumların olması, aykırı değerlerin bulunması kayıp değerlerin ve parametrelerin kestirimlerinde sorun yarattığı görülmüştür. Bu sorunu çözmek için sağlam yöntemler kullanılan kayıp veri yükleme yöntemlerin kullanılmasının daha etkin sonuçlar getirdiği gösterilmiştir. The aim of this study is to find missing values and parameter estimations, which both have been least-influenced by outliers when the data sets have missing values and outliers at the same time. In this study, definitions and historical developments of missing data and missing data imputation methods have been explained. Robust approach and robust estimators have been introduced briefly and then robust estimators which are utilized in this study have been explained. The most significant papers in the literature about robust estimators, missing data imputation methods and parameter estimations in the case of missing data and outliers have been given.For the application, two data sets have been debated. In the first example, randomly removed missing values from contaminated data sets have been obtained by employing classical and robust methods. After imputating the missing parts of the data sets, mean vectors and covariance matrices of these sets have been estimated by using robust methods. For the second example, estimations of randomly removed missing values from contaminated regression data sets, have been obtained by using classical and robust imputation methods and thus, these missing value estimations have been compared.In conclusion, it has been shown that contaminations or the existence of the outliers in the data sets affects the reliability of the estimation of missing values and parameters. It has been shown that robust imputations methods give more consistent results than classical ones.
Collections