Show simple item record

dc.contributor.advisorKardiyen, Filiz
dc.contributor.authorCeesay, Habib
dc.date.accessioned2020-12-10T12:49:33Z
dc.date.available2020-12-10T12:49:33Z
dc.date.submitted2019
dc.date.issued2019-10-18
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/295430
dc.description.abstractHızla büyüyen veri teknolojisi ile, belirli özelliklere sahip bir gözlemin doğru sınıfa atanması bağlamında sınıflandırma Makine Öğrenmesi ve Uygulamalı istatistik alanlarında en önemli ve etkin araçlardan biri haline gelmiştir. Sınıflandırma, biyomedikal çalışmalar, genetik, sosyal bilimler, pazarlama gibi pek çok alanda kullanılmaktadır. Her bir gözlemin sağ-ölü, pozitif-negatif gibi iki kategoriden birine ait olduğu veriye ikili very denir. Destek Vektör Makineleri ilk olarak 1960'ların ortasında Vladimir Vapnik tarafından geliştirilen doğrusal olarak ayrılamayan veriyi sınıflandırmaya yardımcı Kernel fonksiyonlarının da kullanımı ile oldukça esnek bir istatistiksel modeller sınıfıdır. Ancak SVM verinin aykırı gözlem veya yanlış veri gibi kirlenmiş gözlem içermesinden olumsuz yönde etkilenebilir. Bu tez çalışmasında amaç, SVM'nin temiz ve kirli veri için sınıflandırma kesinliğini karşılaştırmak olup, çalışmada Destek Vektör Makinelerinin olasılıksal çıktılarına dayanan (PoC) yeni bir aykırı değer tespit yöntemi önerilmiştir. Önerilen yöntem ile Sağlam Mahalanobis uzaklığı (MCD) yönteminin aykırı gözlem tespit oranları karşılaştırılmıştır. Sonuçlar, önerilen yöntemin daha iyi performans gösterdiğini göstermiştir.
dc.description.abstractWith data growing so rapidly, classification has become one of the most important and effective tools in Machine Learning and Applied Statistics, in which a given observation can be predicted in the right class given some features. Classification is used in most sectors such as; Biomedical Studies, Genetics, Social Science, Marketing, etc. Data are said to be binary when each observation falls into one of two categories, such as: alive or dead, positive or negative, etc. Support Vector Machines are a class of statistical models first developed in the mid-1960s by Vladimir Vapnik and they are very flexible due to the incorporation of Kernel Functions which can help separate and classify data that are not linearly separable. However, Support Vector Machines can suffer a lot from unclean data containing, for example, outliers or mislabeled observations. The goal of this thesis is to compare the classification accuracy of the SVM on both clean and contaminated data and also a new method based on the probabilistic outputs of SVM (PoC) is proposed. The outlier detection rate for this new method and the Robust Mahalanobis distance (MCD) are compared. The results show that PoC performs better than MCD at detecting outliers.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectİstatistiktr_TR
dc.subjectStatisticsen_US
dc.titleA new outlier detection method based on probabilistic outputs of support vector machines in binary classification
dc.title.alternativeİkili sınıflama probleminde aykırı gözlem tespiti için destek vektör makineleri olasılıksal çıktılarına dayalı yeni bir yöntem
dc.typemasterThesis
dc.date.updated2019-10-18
dc.contributor.departmentİstatistik Anabilim Dalı
dc.identifier.yokid10270181
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityGAZİ ÜNİVERSİTESİ
dc.identifier.thesisid569846
dc.description.pages91
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess