Aykırı değerlerin tespiti için kullanılan dayanıklı uzaklık yöntemlerinin karşılaştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Aykırı değer konusu, en eski istatistiksel ilgi alanlarından biridir ve birçok veri kümesi değişen miktarlarda aykırı değerler içerdiğinden, güncel konulardan biri olmaya devam etmektedir. Veride aykırı değerler olması istatistiksel analizleri olumsuz yönde etkilemektedir. Bu nedenle aykırı değerlerin tespiti istatistikte önemli bir yere sahiptir. Aykırı değerlerin tespitinde sıklıkla kullanılan yöntemlerden biri Mahalanobis uzaklığıdır. Ancak bu uzaklık aykırı değerleri tespit ederken aykırı değerlerin varlığından oldukça fazla etkilenen klasik konum ve ölçek parametrelerinin tahmin edicilerini kullanır. Aykırı değerlerin tespitini daha güvenilir yapmak için Mahalanobis uzaklıklarının hesaplanmasında klasik tahmin ediciler yerine dayanıklı konum ve ölçek parametrelerinin tahmin edicileri kullanılabilir. Bu amaçla, bu tez çalışmasında, dayanıklı tahmin edicilerden hızlı-en küçük kovaryans determinant (FMCD), en küçük hacimli elipsoit (MVE), M-tahmin edicileri (MEST), Stahel-Donoho tahmin edicisi (SDE), dikey gnanadesikan-kettenring (OGK) ve parçalı uyarlanabilir hesaplama yönünden etkin aykırı gözlem belirleyicisi (BACON) yöntemleri kullanılmıştır. Bu yöntemler normal dağılıma sahip veriler ve aykırı değerler içeren verileri modellemede sıklıkla kullanılan bir dağılım olan uzun kuyruklu simetrik (LTS) dağılıma sahip veriler için Monte-Carlo benzetim çalışması ile karşılaştırılmıştır. Karşılaştırma için performans kriteri olarak bu yöntemlerin aykırı değerleri tespit etmedeki başarı oranları kullanılmıştır. Ayrıca, tüm yöntemler için yanlış tespit sayıları ve aykırı değerleri tespit etme hızları da hesaplanmıştır. Hem normal dağılıma sahip veriler için hem de LTS dağılımına sahip veriler için dayanıklı yöntemlerin klasik yöntemden daha iyi başarı oranına sahip olduğu görülmüştür. Dayanıklı yöntemler arasında birçok durumda en yüksek başarı oranını ise OGK yöntemi vermektedir. The issue of an outlier is one of the oldest statistical interests, and since many data sets contain varying amounts of the outliers, they remain one of the current issues. Outliers in the data adversely affect the statistical analysis. Therefore, the detection of outliers have an important place in statistics. Mahalanobis distance is one of the methods commonly used in the detection of outliers. However, this distance uses the estimators of classical location and scale parameters, which are highly influenced by the presence of outliers, when detection of outliers. To make the detection of outliers more reliable, estimators of robust location and scale parameters can be used instead of classical estimators to calculate Mahalanobis distances. For this purpose, in this thesis, Fast-Minimum Covariance Determinant (FMCD), Minimun Volume Ellipsoid (MVE), M-Estimators (MEST), Stahel-Donoho Estimator (SDE), Orthogonalized Gnanadesikan-Kettenring (OGK) and Blocked Adaptive Computationally Efficient Outlier Nominators (BACON) methods have used. These methods have been compared with the Monte-Carlo simulation study for data with normal distribution and data with Long-Tailed Symmetric (LTS) distribution which is a distribution commonly used in modeling data including outliers. For comparison, the success rates of these methods in determining outliers have used as performance criteria. In addition, false detection rates and the time to detect outliers have been calculated. For both normal distribution data and LTS distribution data, robust methods have been found to have a better success rate than the classical method. Among the robust methods, OGK method has given the highest success rate in many cases.
Collections