Show simple item record

dc.contributor.advisorArslan, Ahmet
dc.contributor.authorYilmazel, İbrahim Bariş
dc.date.accessioned2021-05-06T12:41:29Z
dc.date.available2021-05-06T12:41:29Z
dc.date.submitted2018
dc.date.issued2019-03-15
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/588897
dc.description.abstractClueWeb09 ve ClueWeb12, Web sayfalarından oluşan en büyük iki veri kümesidir ve 2009'dan 2017'ye kadar birçok TREC görevinde kullanılmıştır. Her yıl yaklaşık 50 yeni sorgu yayınlanmış, bu sorgulara karşılık gelen Web sayfaları havuzu ilgili, ilgisiz ve spam olarak değerlendiriciler tarafından etiketlenmiştir. ClueWeb korpora için önemli miktarda sorgu uygunluk yargısı toplanmıştır. Ticari arama motorlarını kasten kandırmak için tasarlanan spam sayfaları, gerçek Web'in olduğu gibi ClueWeb korporanın da bir parçasıdır ve Web bilgi erişim sistemlerinin spam sayfalarla başa çıkması gerekir. ClueWeb09 veri kümesindeki her sayfanın spam olma değerini belirleyen dört farklı (Fusion, Britney, GroupX, UK2006) spam sıralaması yayınlanmıştır. Bu spam sıralamalarını kullanarak, belirlenen bir eşik değeri için ClueWeb09'daki dokümanları spam ya da non-spam olarak sınıflandırmak mümkündür. Bu tezde, birçok TREC Web Tracks ve Tasks Tracks sorgu uygunluk yargıları kullanılarak, ClueWeb korpora spam sıralamalarının `intrinsic` ve retrospektif değerlendirmesi sunulmuştur. Herhangi bir sorgu için ilgili olarak etiketlenen Web sayfalarının spam olamayacağı varsayılarak, ikili sınıflandırma için spam ya da ilgili olarak etiketlenen dokümanlardan bir eğitim seti oluşturulmuştur. Evrensel sınıflandırma ölçüm metrikleri kullanılarak yapılan deneylerde elde edilen `intrinsic` değerlendirme sonuçlarının, önceki araştırmacılarca gerçekleştirilen `extrinsic` değerlendirme sonuçlarıyla uyumlu olduğu bulunmuştur. Yapılan analizler, GroupX'in ilgili dokümanlar ile spam dokümanları ayırt etmede en güçlü yöntem olduğunu ortaya koymuştur. Ayrıca, ClueWeb12 spam sıralamasının ClueWeb09 kadar iyi performans göstermediği tespit edilmiştir.
dc.description.abstractClueWeb09 and ClueWeb12, are the two largest collection of Web pages that are used in various tracks of TREC ran through 2009 to 2017. For each year, approximately 50 new queries are released and a pool of Web pages are judged against these queries by human assessors as relevant, non-relevant, or spam/junk. Thus, a considerable amount of query relevance judgments is collected for the ClueWeb corpora. Spam pages, which are designed deliberately deceive the commercial search engines, are part of the real Web, so of ClueWeb corpora. Thus, a Web retrieval system has to cope with spam pages. In this direction, four different (Fusion, Britney, GroupX, UK2006) spam rankings that quantify `spamminess` of every page in the ClueWeb09 dataset are released in 2009. For a given threshold, it is possible to classify documents in the ClueWeb09 dataset as spam or non-spam using these spam rankings. This thesis presents an intrinsic and retrospective evaluation of spam rankings of the ClueWeb corpora using the query relevance judgments of several TREC tracks. A ground truth for binary classification task is created by using documents that are judged as junk/spam or relevant. It is assumed that Web pages judged as relevant for any query cannot be spam. The experimental results of intrinsic evaluation using the universal binary classification evaluation measures are found to be aligned with extrinsic evaluations of spam rankings performed by previous researches. The analysis of the distribution of relevant documents over spam percentile score intervals reveal that GroupX is the most powerful at discriminating relevant documents from spam documents. It is also found that the spam ranking of the ClueWeb12 does not perform as good as ClueWeb09's.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleClueweb09 ve clueweb12 veri kümelerinin waterloo spam sıralamalarinin retrospektif olarak değerlendirilmesi
dc.title.alternativeRetrospective evaluation of waterloo spam rankings of the ClueWeb09 and ClueWeb12 datasets
dc.typemasterThesis
dc.date.updated2019-03-15
dc.contributor.departmentBilgisayar Mühendisliği Ana Bilim Dalı
dc.subject.ytmInformation access
dc.identifier.yokid10208211
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityANADOLU ÜNİVERSİTESİ
dc.identifier.thesisid535576
dc.description.pages92
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess