Show simple item record

dc.contributor.advisorKarahoca, Adem
dc.contributor.authorÖzişik, Alper
dc.date.accessioned2021-05-01T07:15:56Z
dc.date.available2021-05-01T07:15:56Z
dc.date.submitted2008
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/550783
dc.description.abstractŞimdiki web arama teknolojileri, benzer sayfaları içerikleri ve bağlantı yapıları ile bulma konusunda iyiler. Buna rağmen, benzer sayfaları sözlük kelime ve çapraz dil karşılıklarının alakadarlıklarını bulma konusunda iyi değiller.Bu tez benzer sayfaların bulunmasına bilinen yöntemlerin kombinasyonu ile yoğunlaşıyor. Bağlantı toplama, anlamsal tanımlayıcı veri algılanması web içerik ve yapısal madenciliği için gereklidir. Bu tez, diğer web madenciliği tekniklerinden sözlük anlamları ve çapraz dildeki anlamlarını da içererek ayrılıyor. Web robotları tarafından toplanan tüm bu veriler, web madenciliği için veri tabanında dizinlenir.Dizinlenmiş veri, içindeki anlamsız kelimelerden ve yanlış yönlendirici sitelerden, mesela reklam sitelerinden, arındırılır. Temiz veri kümeleme veri madenciliği için işlenir. Bu işleme sırasında, sayfa ilişkilerine sayfa bağlantı seviye bilgisi ve içeriklerindeki kelimelerin kesişim değerlerini eklenir.Web madenciliği işlemi için, kümeleme algoritmalarının K-means ve EM metotları, hangisi daha iyi sonuç verecek diye karşılaştırıldı. Seçilen metot, kullanıcının başta seçmiş olduğu sayfa ile benzer sayfaları listeledi.
dc.description.abstractCurrent web search technologies are good to find similar pages with their content and link structures. However they are not enough to find similar pages including word dictionary or cross-linguistic meaning relevance.This thesis focuses finding similar pages on web with combination of known techniques. Link gatherings, semantic web metadata parsing are required for Web content and structural mining. This thesis differs from other web mining methods with word dictionary meaning and cross-linguistic meanings. All of that information is processed by web crawlers and indexed on data for web mining.Indexed data is purified from non-useful words and misleading web sites, such as advertisement sites. Clean data is processed in clustering data mining. Data processing contains adding more information to page relations with link distance levels and content word joint values.For the web mining process, K-means and EM methods of clustering algorithms are compared to decide which one will have better results. Chosen method enlists similar pages to the page of the user selected at starting point of the process.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleConcept based semantic web mining
dc.title.alternativeKavrama dayalı anlamsal web madenciliği
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Mühendisliği Ana Bilim Dalı
dc.subject.ytmData mining
dc.subject.ytmClustering
dc.subject.ytmMultilingualism
dc.subject.ytmDictionary
dc.identifier.yokid319156
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityBAHÇEŞEHİR ÜNİVERSİTESİ
dc.identifier.thesisid216277
dc.description.pages42
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess