Show simple item record

dc.contributor.advisorTaşkaya Temizel, Tuğba
dc.contributor.authorBelen, Rahime
dc.date.accessioned2020-12-10T09:15:34Z
dc.date.available2020-12-10T09:15:34Z
dc.date.submitted2009
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/225825
dc.description.abstractBazı uygulamalarda kayıp veriler NA gibi özel kodlarla belirgin bir biçimde ifade edilirken, bir çok uygulamada veri aslında kayıpken veri tabanına geçerli ya da geçersiz veriler olarak kaydedilir. Bu tür kayıp verilere gizli kayıp veri denilir. Gizli kayıp veriler veri analizinin kalitesini etkiler. Örnegin, KDD-Cup-98`de kullanılan verilerde bulunan birliktelik kurallarında analiz öncesi veri kalitesi yönetim uygulaması ihtiyacı açıkca gösterilmiştir. Bu tezde, gizli kayıp veri sorununu çözmek için gömülü yansız örneklem buluşsali (YÖB) incelenmiş, kusurları gösterilmiş ve Ki-kare iki örneklem testi üzerine kurulu yeni bir yöntem önerilmiştir. Bu yöntem hiç bir alan bilgisine ihtiyaç duymamaktadır ve YÖB'den daha iyi performans göstermektedir.
dc.description.abstractIn some applications, explicit codes are provided for missing data such as NA (not available) however many applications do not provide such explicit codes and valid or invalid data codes are recorded as legitimate data values. Such missing values are known as disguised missing data. Disguised missing data may affect the quality of data analysis negatively, for example the results of discovered association rules in KDD-Cup-98 data sets have clearly shown the need of applying data quality management prior to analysis. In this thesis, to tackle the problem of disguised missing data, we analyzed embedded unbiased sample heuristic (EUSH), demonstrated the methods drawbacks and proposed a new methodology based on Chi Square Two Sample Test. The proposed method does not require any domain background knowledge and compares favorably with EUSH.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleDetecting disguised missing data
dc.title.alternativeGizli kayıp verilerin bulunması
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilişim Sistemleri Anabilim Dalı
dc.subject.ytmData mining
dc.subject.ytmData processing
dc.identifier.yokid333464
dc.publisher.instituteEnformatik Enstitüsü
dc.publisher.universityORTA DOĞU TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid233565
dc.description.pages71
dc.publisher.disciplineBilişim Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess