Web sayfalarının görsel ve yapısal benzerliklerinin incelendiği ve indekslendiği bir arama motorunun tasarımı ve gerçekleştirimi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Web sayfaları gelişen teknolojiyle birlikte çağımızın en önemli döküman türü haline gelmiştir. Son yıllarda yaşanan web sayfası tasarım anlayışındaki gelişmeler ve eğilimler, içeriğin sunum şekline ve görsel iletişime verilen değeri arttırmıştır. Bunun bir sonucu olarak web sayfası tasarımlarının özgünlüğü yükselen bir değer olmaya başlamıştır. Öte yandan web sayfası içeriği erişiminde birçok başarılı içerik tabanlı arama motoru geliştirilmiş ve kullanıma sunulmuştur. Ancak kompleks görsel uyarıcılar olan web sayfalarının görsel benzerliğini konu alan bir arama motoru bugüne kadar geliştirilmemiştir.Bu tez çalışmasında web sayfalarının görsel benzerliği üzerinde durulmuş, görü ve yapısal niteliklerden yararlanarak bir arama motoru tasarlanmış ve geliştirilmiştir. Geliştirilen arama motorunun temel benzerlik yaklaşımı yerleşim benzerliği üzerine kurulmuştur. Önerilen yaklaşımda, literatürde çoğunlukla rastlanan ve zaman alıcı bir ara işlem olan web sayfası bölütlemesi işlemine olan gereksinim, konumsal bilginin saklandığı çok katmanlı bir nitelik öbeği temsil yöntemi olan uzam piramiti eşleşimi (spatial pyramid match) yardımıyla kaldırılmıştır. Web sayfalarına ait HTML öğeleri 5 türe nicemlenerek yerleşim bileşeni kavramı önerilmiştir. Yerleşim bişenleri, DOM (Document Object Model) ağacından yararlanılarak çıkarılmış ve sonrasnda web sayfaları arasındaki yerleşimsel benzerliklerin tespiti için uzam eşleşim piramitine haritalanmıştır. Böylece web sayfalarındaki yapısal bilgiye dayalı, karşılaştırılabilir görsel yerleşim imzaları çıkarılmıştır. İkinci aşamada, yapısal analizin birtakım kaçınılmaz yetersizlikleri yüzünden web sayfalarına ait görsel hatları çıkarmak için görü tabanlı bir yöntem olan yönlü düşüm dağılımlarından (Histogram of Oriented Gradients) yararlanılmıştır. Elde edilen düşüm dağılımları yine uzam piramitine haritalanarak görü tabanlı yerleşim imzaları çıkarılmıştır. Literatürde web sayfası görsel benzerliğine dayalı sıralama başarımını ölçmek için uygun bir veri kümesi bulunmamaktadır. Bu sebeple bir anket çalışması yapılarak insan benzerlik yargısının da ölçüldüğü 40 web sayfasına sahip bir derlem oluşturulmuştur. Oluşturulmuş derleme dayalı yürütülen deneylerde görüldüğü üzere önerilen yaklaşım web sayfalarında insan benzerlik yargısına yakın biçimde başarılı ve umut verici sonuçlar ortaya koymaktadır. Bu kazanımla, web sayfaları artık görsel bir sorgu unsuru olarak kullanılabilecek ve görsel anlamda benzer web sayfaları aranabilecektir. Ayrıca önerilen yaklaşım, oltalama amaçlı sahte sayfaların tespitinde de kullanılabilecektir. With the advent of developing technologies, web pages have become the most important document type in current era. In recent years, the trends and progress in web page design have increased the value of visual communication and the way of content presentation. As a result of this, novelty of web page design has particularly become a rising value. On the other side, several content based search engines in the field of web page content retrieval have been developed and served to be used. However, to date, there exists no search engine dealing with the visual similarity of web pages which are being assumed as complex stimuli.In this thesis, a search engine which investigates and indexes visual similarities of web pages by use of vision and structural based features has been designed and implemented. The fundamental similarity approach of developed search engine is built on layout similarity. The proposed approach avoids the time consuming intermediate process of visual segmentation by employing spatial information preserving, multilevel bag of features representation method named spatial pyramid matching (SPM). The concept of layout components is proposed by quantizing HTML elements into 5 type of features. By utilizing structural information embedded in Document Object Model (DOM) tree, `layout components` were extracted and embedded into spatial pyramid scheme in order to detect layout similarities between web pages. Hence, structure based comparable visual layout signatures of web pages were generated. At the second phase, due to the indispensable shortcomings of DOM tree analysis, a vision based method named histogram of oriented gradients (HOG) was also employed to capture local visual cues. Vision based layout signatures were obtained by embedding the extracted histogram of orientation bins into SPM.There exists no well-known and suitable benchmark dataset in literature for visual similarity based web page ranking evaluation. Therefore, a questionnaire covering 40 web pages has been established in order to capture human similarity judgment over the corpus. According to the findings of conducted experiments based on the built corpus, the proposed approach acts in concordance with human perception and shows promising and successful results in retrieving visually similar web pages. With this achievement, it is being enabled to use a web page as a query item to find the similar web pages. Moreover, the proposed approach could be used fighting against with phishing web pages.
Collections