Concept based semantic web mining

Özişik, Alper

View/Open

File_319156 (1.387Mb)

Date

2008

Author

Özişik, Alper

Metadata

Show full item record

Abstract

Şimdiki web arama teknolojileri, benzer sayfaları içerikleri ve bağlantı yapıları ile bulma konusunda iyiler. Buna rağmen, benzer sayfaları sözlük kelime ve çapraz dil karşılıklarının alakadarlıklarını bulma konusunda iyi değiller.Bu tez benzer sayfaların bulunmasına bilinen yöntemlerin kombinasyonu ile yoğunlaşıyor. Bağlantı toplama, anlamsal tanımlayıcı veri algılanması web içerik ve yapısal madenciliği için gereklidir. Bu tez, diğer web madenciliği tekniklerinden sözlük anlamları ve çapraz dildeki anlamlarını da içererek ayrılıyor. Web robotları tarafından toplanan tüm bu veriler, web madenciliği için veri tabanında dizinlenir.Dizinlenmiş veri, içindeki anlamsız kelimelerden ve yanlış yönlendirici sitelerden, mesela reklam sitelerinden, arındırılır. Temiz veri kümeleme veri madenciliği için işlenir. Bu işleme sırasında, sayfa ilişkilerine sayfa bağlantı seviye bilgisi ve içeriklerindeki kelimelerin kesişim değerlerini eklenir.Web madenciliği işlemi için, kümeleme algoritmalarının K-means ve EM metotları, hangisi daha iyi sonuç verecek diye karşılaştırıldı. Seçilen metot, kullanıcının başta seçmiş olduğu sayfa ile benzer sayfaları listeledi.

Current web search technologies are good to find similar pages with their content and link structures. However they are not enough to find similar pages including word dictionary or cross-linguistic meaning relevance.This thesis focuses finding similar pages on web with combination of known techniques. Link gatherings, semantic web metadata parsing are required for Web content and structural mining. This thesis differs from other web mining methods with word dictionary meaning and cross-linguistic meanings. All of that information is processed by web crawlers and indexed on data for web mining.Indexed data is purified from non-useful words and misleading web sites, such as advertisement sites. Clean data is processed in clustering data mining. Data processing contains adding more information to page relations with link distance levels and content word joint values.For the web mining process, K-means and EM methods of clustering algorithms are compared to decide which one will have better results. Chosen method enlists similar pages to the page of the user selected at starting point of the process.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/550783

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess