A new outlier detection method based on probabilistic outputs of support vector machines in binary classification

Ceesay, Habib

View/Open

File_10270181 (1.971Mb)

Date

2019

Author

Ceesay, Habib

Metadata

Show full item record

Abstract

Hızla büyüyen veri teknolojisi ile, belirli özelliklere sahip bir gözlemin doğru sınıfa atanması bağlamında sınıflandırma Makine Öğrenmesi ve Uygulamalı istatistik alanlarında en önemli ve etkin araçlardan biri haline gelmiştir. Sınıflandırma, biyomedikal çalışmalar, genetik, sosyal bilimler, pazarlama gibi pek çok alanda kullanılmaktadır. Her bir gözlemin sağ-ölü, pozitif-negatif gibi iki kategoriden birine ait olduğu veriye ikili very denir. Destek Vektör Makineleri ilk olarak 1960'ların ortasında Vladimir Vapnik tarafından geliştirilen doğrusal olarak ayrılamayan veriyi sınıflandırmaya yardımcı Kernel fonksiyonlarının da kullanımı ile oldukça esnek bir istatistiksel modeller sınıfıdır. Ancak SVM verinin aykırı gözlem veya yanlış veri gibi kirlenmiş gözlem içermesinden olumsuz yönde etkilenebilir. Bu tez çalışmasında amaç, SVM'nin temiz ve kirli veri için sınıflandırma kesinliğini karşılaştırmak olup, çalışmada Destek Vektör Makinelerinin olasılıksal çıktılarına dayanan (PoC) yeni bir aykırı değer tespit yöntemi önerilmiştir. Önerilen yöntem ile Sağlam Mahalanobis uzaklığı (MCD) yönteminin aykırı gözlem tespit oranları karşılaştırılmıştır. Sonuçlar, önerilen yöntemin daha iyi performans gösterdiğini göstermiştir.

With data growing so rapidly, classification has become one of the most important and effective tools in Machine Learning and Applied Statistics, in which a given observation can be predicted in the right class given some features. Classification is used in most sectors such as; Biomedical Studies, Genetics, Social Science, Marketing, etc. Data are said to be binary when each observation falls into one of two categories, such as: alive or dead, positive or negative, etc. Support Vector Machines are a class of statistical models first developed in the mid-1960s by Vladimir Vapnik and they are very flexible due to the incorporation of Kernel Functions which can help separate and classify data that are not linearly separable. However, Support Vector Machines can suffer a lot from unclean data containing, for example, outliers or mislabeled observations. The goal of this thesis is to compare the classification accuracy of the SVM on both clean and contaminated data and also a new method based on the probabilistic outputs of SVM (PoC) is proposed. The outlier detection rate for this new method and the Robust Mahalanobis distance (MCD) are compared. The results show that PoC performs better than MCD at detecting outliers.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/295430

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess