Show simple item record

dc.contributor.advisorSaygın, Yücel
dc.contributor.authorUğurlu, Kerem
dc.date.accessioned2020-12-10T07:37:18Z
dc.date.available2020-12-10T07:37:18Z
dc.date.submitted2009
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/217474
dc.description.abstractKayıt bağlama (ya da kayıt eşleştirme) veri setlerindeki aynı nesneyi kasteden kayıtları belirlemeye çalışır. Bu nesneler kişi veya ilgilenilen her hangi bir nesne olabilir. Bu çalışmada, kayıt eşleştirmelerinde kullanılan öbekleştirme algoritmalarının bir performans kıyaslaması yerine getirildi. Bu ilginin sebebi şuydu, makine öğrenmesinin yükselmesi ile kayıt eşleştirme uyan ve uymayan diye iki sınıflı bir sınıflandırma olarak düşünülmeye başladı. Karşılaştırılacak çiftler, ikinci dereceden zorluğu önlemek için olası bir karşılaştırmaların azaltılması ile veri setindeki kayıtlardır. Performans kıyaslama ihtiyacı sebebi deneylerin sınıflandırma işlemi için elde yeterince eğitme verisinin bulunması nedeniyle deneycinin denetlenen şekilde ilerleyebildiği varsayımıdır. Ancak, gerçek hayat senaryolarında durum genelde bu değildir. Bu sebeple, bu kıyaslama çalışmasında, üç ana öbekleştirme algoritması üç kasten farklı karakteristikte seçilmiş veri seti üzerinde uygulanmıştır.
dc.description.abstractRecord linkage (or record matching) tries to identify the records in datasets which represent the same entity. These entities could be people or any other entity of interest. In this study, there has been processed a benchmark of clustering algorithms used in record linkage was conducted. The reason for the interest was that with the rise of the machine learning, record linkage has been considered as a classification problem with two classes of matched and unmatched pairs. The pairs to be compared are the entries in the dataset with a possible reduction of comparisons to avoid the quadratic complexity. The reason for the need for the clustering benchmark is that the experiments are processed by assuming that the experimenter has substantial training data for the classification procedure so that he can proceed in a supervised fashion. However, this is usually not the case in real life scenarios. For that reason, in this benchmarking study, the main three clustering algorithms are applied on three different datasets which are selected with different characteristics on purpose.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleA benchmark study of clustering based record linkage methods
dc.title.alternativeÖbekleştirme temelli kayıt eşleştirme yöntemlerinin karşılaştırmalı değerlendirmesi
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Bilimleri ve Mühendisliği Anabilim Dalı
dc.subject.ytmRecord
dc.identifier.yokid347306
dc.publisher.instituteMühendislik ve Fen Bilimleri Enstitüsü
dc.publisher.universitySABANCI ÜNİVERSİTESİ
dc.identifier.thesisid259012
dc.description.pages65
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess