Random forests yönteminde kayıp veri probleminin incelenmesi ve sağlık alanında bir uygulama
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez çalışmasında, kayıp verili sınıflandırma probleminde kullanılan Random Forests (RF) yönteminin kayıp değer atama algoritmasıyla, K En Yakın Komşu (KNN) ile kayıp değer atama yönteminin karşılaştırılması amaçlanmaktadır. Karşılaştırmalar iki aşamada gerçekleştirilmiştir. İlk aşamada benzetim çalışmaları yapılmıştır. (100000/n) Monte Carlo benzetim tekniği örneklem hacimlerine (n=100, 200, 500, 1000) ve tekrar sayılarına (s=1000, 500, 200, 100) karar vermek için kullanılmıştır. Çok değişkenli standart normal dağılımdan, önemli değişkenlerinin birbirleri ile düşük, orta ve yüksek (r=0.1, 0.5, 0.9) derecede ilişkili olduğu veri setleri türetilmiştir. Bu veri setlerinin iki değişkeni üzerinde aynı anda ve aynı yüzdeliklerde ( %5, %10, %15, %20, %25) kayıp değerler oluşturulmuştur. Kayıp değerler RF'nin atama algoritması ve farklı komşuluk değerli (k=5, 10, 15, 20) KNN ile kayıp değer atama yöntemleri tarafından ayrı ayrı tamamlandıktan sonra farklı veri setleri elde edilmiştir. Atanmış farklı veri setleri aynı RF algoritmasına ayrı ayrı yerleştirilerek sınıflandırma sonuçları gözlemlenmiştir. Doğru sınıflandırma oranları (DSO) kullanılarak atama yöntemleri karşılaştırılmıştır. İkinci aşamada ise sağlık alanına ait kayıp değerli bir veri seti, atama yöntemlerini uygulamak ve elde edilen sonuçları benzetim çalışmalarıyla ilişkilendirmek için kullanılmıştır.Benzetim çalışmalarında atama yöntemleri benzer DSO sonuçları sunmaktadır. Örneklem hacimleri ve değişkenler arasındaki ilişki arttıkça DSO artmakta, ama kayıp değer yüzdesi arttıkça DSO azalmaktadır. Orta ve düşük derecede ilişkili veri setlerinde KNN ile kayıp değer atama yöntemi, yüksek derecede ilişkili veri setlerinde ise RF'nin kayıp değer atama algoritması üstün sonuçlar vermiştir. En yüksek DSO tahmin değeri örneklem hacminin 1000'e eşit olduğu %5 kayıp değerli yüksek derecede ilişkili (r=0.9) veri setlerinde RF'nin atama algoritması tarafından %95.66 olarak bulunmuştur. En düşük DSO tahmin değeri ise örneklem hacminin 100'e eşit olduğu %25 kayıp değerli düşük derecede ilişkili (r=0.1) veri setlerinde RF'nin atama algoritması tarafından %78.27 olarak bulunmuştur. Sağlık alanına yönelik yapılan uygulama, benzetim çalışması ile uyumlu sonuçlar vermiştir.Bu çalışma; bir sınıflandırma probleminde, kayıp değerli veri setlerine atama yapmak için her iki yöntemin de kullanılabileceğini göstermektedir; ancak veri setinin ilişki yapısına göre en uygun atama yönteminin seçilmesi önerilmektedir. Düşük ve orta derecede ilişkili veri setlerinde komşuluk değerinin k=10, 15 ya da 20'e eşit olduğu KNN ile kayıp değer atama yöntemi kullanılmalıdır. Yüksek derecede ilişkili veri setlerinde ise RF'nin atama algoritması tercih edilmelidir.Anahtar Kelimeler: Random Forests, Kayıp veri analizi, K en yakın komşu ile kayıp değer atama yöntem In this thesis study, it's aimed to compare the missing data imputation algorithm of Random Forests (RF) and the K Nearest Neighbourhood (KNN) imputation method in a classification problem with missing data.Comparisons were made in two steps. At the first step simulation studies were done. (100000/n) Monte Carlo Simulation Technique was used to determine sample sizes (n=100, 200, 500, 1000) and the number of repetitions (s=1000, 500, 200, 100). Data sets, whose important variables are low, middle, and high (r=0.1, 0.5, 0.9) correlated with each other, were generated from multivariate standard normal distribution. Missing values were created on two important variables with using same percentage (5%, 10%, 15%, 20%, 25%) simultaneously. Different datasets were obtained after having imputed the missing values seperately by RF's imputation algorithm and KNN imputation method with different neighbourhood values (k=5, 10, 15, 20). Classification results were observed by putting the different imputed datasets in the same RF model one by one. Imputation methods were compared by their true classification rates (TCR). At the second step, a dataset with missing values in health field was used to apply the imputation methods and associate the obtained results with simulation studies.In simulation studies, imputation methods present simular TCR results. As the sample sizes and the correlation between variables increase, TCR increases, but as the percentage of missing value increases, TCR decreases. In low and middle correlated datasets KNN imputation, in high correlated datasets RF's imputation algorithm gave better results. The highest TCR value was found 95.66% by RF's imputation algorithm in high corralated (r=0.9) datasets with 5% missing value when the sample size is equal to 1000. The lowest TCR was found found 78.27% by RF's imputation algorithm in low (r=0.1) corralated datasets with 25% missing value when the sample size is equal to 100. The application in health field gave matching results with simulation studies.This study shows both methods can be used to impute a dataset with missing values in a classification problem, but it is suggested to choose the most suitable imputation method according to the the correlation structure of the dataset. In low and middle correlated datasets, KNN imputation method with the neighbourhood value is equal to 10, 15 or 20 should be used. In high correlated data sets RF's imputation algorithm should be prefered.Keywords: Random Forests, Missing data analysis, KNN imputation method
Collections