Web mining issues: Topic finding and focused crawling evaluation

Uluhan, Eray

View/Open

File_152558 (425.8Kb)

Date

2006

Author

Uluhan, Eray

Metadata

Show full item record

Abstract

Örün madenciliği, veri madenciliği ve düzyazı madenciliği teknikleri kullanılarak yarıyapılanmış ya da hiç yapılanmamış örün dökümanları ve servislerinden otomatik olarak bilgiortaya çıkarmak ve elde etmektir. Örün madenciliği hakındaki bu çalışma iki bölümdenoluşmaktadır; örün yapı madenciliği ve örün içerik madenciliği. lk bölümde, en çok kabulgörmüş olan odaklanmış arama algoritmaları ile basit ağaç izleme algoritmaları, sayfa ilgililikderecelerine, anahtar kelime içermelerine ve isabet oranlarına göre karşılaştırılmışlardır. URLiçerikleri girdi olarak kullanıldıklarında tüm kriterler için en yüksek performans değerlerineulaşılmıştır. kinci bölümde, örün sayfaları üzerinden bir otomatik konu bulma metodolojisiönerilmiştir. Bir ara motorundan dönen HTML sayfalarındaki sadece liste maddelerininişlenmesiyle, kullanıcı tarafından belirlenmiş olan bir konu ile ilgili önemli başlıklarbulunabilir Bu metodoloji farklı parametreler-sayfa sayısı, farklı konular, kök bulmauygulaması, vb.- kullanılarak test edilmiştir. Bulunan aday kelimeler ilgililik puanlamalarınagöre sıralandıklarında kullanıcının belirlediği kelime ile yüksek doğruluk oranlarıgöstermişlerdir.

Web mining is defined as the process of using data mining techniques to automaticallydiscover and extract information from semi- or unstructured Web documents and services.This study on Web mining consists of two sections, covering Web structure mining and Webcontent mining. In the first section, most widely accepted focused crawling algorithms andsimple tree traversing algorithms are compared based on their page relevance, keywordpredicate satisfaction and hit ratio criteria. Using the URL tokens as an input resulted inhigher performances for all criteria. In the second part, an automatic topic findingmethodology through Web pages is proposed. Processing only list items on HTML pagesreturned from a search engine, it is expected to find related key concepts on a user-definedtopic. The methodology is experimented using different parameters, such as number of pages,different keywords, stemming implementations, etc. The candidate concepts ordered inrelevancy scores represent a high precision on user-defined topic.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/324773

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess