Searching documents with semantically related keyphrases
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezde, arama terimleriyle anlamsal olarak ilişkilendirilmiş anahtar kelime öbeklerini kullanarakarama yapmayı sağlayan SemKPSearch aracını geliştirdik. Dokümanların kelime öbeklerinianlamsal olarak ilişkilendirmekle kullanıcılara döküman kümesi üzerinde genişletilmişbir arama yeteneği sağlamayı ve elde edilen alakalı sonuçların artırılmasını hedefledik. Anahtarkelime öbekleri dokümanların içeriklerinin kısa bir özetini sunar. Anahtar kelime öbekleriyazarlar tarafından atanmış veya otomatik olarak üretilmiş olabilir. SemKPSearch dokümanlarınanahtar kelime öbeklerinden oluşturulmuş olan bir SemKPIndex dizini kullanmaktadır.SemKPIndex içerisinde anahtar kelime öbeklerinden anahtar kelime öbeklerine olan anlamsalilişki skorunun kaydedildiği bir dizin de içerecek şekilde genişletilmiş bir anahtar kelimeöbeği dizinidir. Anahtar kelime öbekleri arasındaki anlamsal ilişki skoru, öbekler içindekikelimeler arasındaki anlamsal benzerlik kullanılarak hesaplanır. İki kelime arasındaki anlamsalilişki skorunu hesaplamak için ise Wu ve Palmer kelime benzerliği ölçütü ile Li kelimebenzerliği ölçütü, iki farklı kelime tabanlı anlamsal benzerlik ölçüsü olarak kullanılmıştır.SemKPSearch bir grup bilgisayar mühendisi tarafından değerlendirilmiştir. Değerlendirmeiçin yazarların tavsiye ettiği anahtar kelime öbeklerinin yanı sıra, kelime öbeği üretimi içinbaşarılı bir algoritma olan KEA ile otomatik olarak çıkarılmış kelime öbekleri de kullanılarakoluşturulan kelime öbeği dizinleri kullanılmıştır. In this thesis, we developed SemKPSearch which is a tool for searching documents by thekeyphrases that are semantically related with the given query phrase. By relating the keyphrasessemantically, we aim to provide users an extended search and browsing capabilityover a document collection and to increase the number of related results returned for a keyphrasequery. Keyphrases provide a brief summary of the content of documents. They canbe either author assigned or automatically extracted from the documents. SemKPSearch usesSemKPIndexes which are generated with the keyphrases of the documents. SemKPIndex isa keyphrase index extended with a keyphrase to keyphrase index which stores the semanticrelation score between the keyphrases in the document collection. Semantic relation scorebetween keyphrases is calculated using a metric which considers the similarity score betweenwords of the keyphrases. The semantic similarity score between two words is determined withthe help of two word-to-word semantic similarity metrics, namely the metric of Wu&Palmerand the metric of Li et al. SemKPSearch is evaluated by the human evaluators which are allcomputer engineers. For the evaluation, in addition to the author assigned keyphrases, thekeyphrases automatically extracted by employing the state-of-the-art algorithm KEA are usedto create keyphrase indexes.
Collections