Show simple item record

dc.contributor.advisorBoyacı, Aytuğ
dc.contributor.authorAli, Mashhood Ali
dc.date.accessioned2020-12-29T12:11:18Z
dc.date.available2020-12-29T12:11:18Z
dc.date.submitted2018
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/409131
dc.description.abstractWeb belge kümelemesi, benzer web belgelerini, aynı kümedeki belgelerin diğer kümelerdeki belgelere göre semantik olarak daha yakın kategorize edildiği gruplar halinde bir araya getirmek için veri kümeleme tekniklerini kullanmaktadır. Belgeleri kümeleme yöntemlerinden biri, bu belgelerin içerdikleri konulara göre gruplandırılmasına dayanmaktadır. Konu tabanlı web belge kümeleme yönteminde kullanılan temel teknik, veri setinde bulunan terimler ve belgeler gibi her öğe için veri seti düzeyinde bir semantik (ör. konular) türeten ve LSA (Latent Semantic Analysis) olarak bilinen semantik analiz modelidir. LSA modeli literatürde, farklı şekillerde, varyasyonlarda ve farklı amaçlarda kullanılmıştır.Mevcut durumda LSA modelinin birçok kullanımı bulunduğundan, bu çalışmada, metin dokümanlarını semantik olarak kümelemede LSA modelinin en iyi şekilde kullanımı incelenmiştir. Bu sebeple, web belgelerinin kümelenmesinde en iyi performansı gösteren varyasyonu bulmak amacıyla LSA modelinin altı farklı semantik-benzerlik ölçümü ile kombinasyonları incelenmiştir. Metin kümelemesinde LSA modelini kullanımının en iyi varyasyonu, yine bu varyasyonun en çok kullanılan iki web dokümanı veri setine uygulanmasından sonra bulunmuştur. Sonuçlar aynı zamanda, web belge kümelemesi için LSA modelinin kullanımındaki her varyasyonun performansını göstermektedir.
dc.description.abstractWeb document clustering uses data clustering techniques to group similar web documents into groups, where the documents from the same cluster are more semantically similar than the documents in the other clusters. One of the methods of clustering the documents is based on the topics they contain. The main technique used for topic-based web document clustering is the using of a semantic-analysis model called Latent Semantic Analysis (LSA), which derives a corpus-level semantics (i.e. topics) for every element in the corpus such as, terms and documents. The LSA model has been used in the literature in different ways, variations and for different applications. In this study, we experimentally investigate the best use of the LSA model in semantically clustering the text documents, as there is more than one possible variation when one uses and implements the LSA model. To do so, we examined the LSA model in different combinations with six different semantic-similarity measures to find the best possible variation, which performs best in clustering web documents. The best variation of using the LSA model in text clustering was found after applying it to two commonly used web document datasets. The results also demonstrate the performance of each variation of using LSA model for the task of web document clustering.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleInvestigation of using the LSA model with similarity metrics for semantic-based web document clustering
dc.title.alternativeSemantik bazlı web dokümanı kümelenmesi için benzeri metrikli LSA modelinin kullanımının incelenmesi
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentYazılım Mühendisliği Anabilim Dalı
dc.subject.ytmText mining
dc.subject.ytmWeb based applications
dc.identifier.yokid10179921
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityFIRAT ÜNİVERSİTESİ
dc.identifier.thesisid492756
dc.description.pages65
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/embargoedAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/embargoedAccess