Classification using XSLT
dc.contributor.advisor | Kurt, Atakan | |
dc.contributor.author | Tozal, Mehmet Engin | |
dc.date.accessioned | 2021-05-07T11:40:21Z | |
dc.date.available | 2021-05-07T11:40:21Z | |
dc.date.submitted | 2005 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/616146 | |
dc.description.abstract | XSLT sınıflandırma; yarı-yapılandırılmış (XML) ve web dökümanı (HTML) sınıflandırma tekniklerinin avantajlı yönlerini birleştiren melez bir sınıflandırma yöntemidir. Birçok organizasyonun belirli alanlara yönelik biçimlendirme dili oluşturma çalışmalarına rağmen XML biçimlendirme dili HTML biçimlendirme dili gibi herhangi bir standart sözlüğe bağlı değildir. Yinede farklı kaynaklar tarafından hazırlanan XML dökümanlarında, içeriği biçimlendirmek için kullanılan eleman yada özellik isimleri aynı alanlar içerisinde benzerlik göstermektedir. Bu çalışmada sunulan XSLT sınıflandırma tekniği, bileşen etiketlemek ?içerikte geçen her kelimenin kendisini çevreleyen eleman/özellik etiketleriyle öneklendirilmesi- üzerine bina edilmiştir. Ayrıca her her ata-eleman kendisinin ata elemanlarıyla öneklendirilmiştir. HTML dökümanında geçen fakat XML dökümanında geçmeyen meta, title, anchor, img gibi etiketlerin içeriği ve yalın söz dizimleri sınıflandırma sürecinde terim sıklık dizisine eklenir. İki farklı deney veri kümesi üzerinde çalıştırılmıştır. Birinci deneyde birbirinden farklı XML bileşen etiketleme yöntemleri karşılaştırılmıştır. Deneyde, gevşek-ata-hiyerarşisine dayanan modellerin, sıkı-ata-hiyerarşisine dayanan modellerden daha iyi olduğu ispatlanmıştır. İkinci deneyde, HTML, XML, ve XSLT sınıflandırma teknikleri karşılaştırılmış ve XSLT yönteminin diğerlerinden daha iyi doğruluk oranı verdiği görülmüştür.Anahtar Kelimeler: XML, XSLT, Yarı-Yapılandırılmış döküman, Sınıflandırma, Bilşen | |
dc.description.abstract | XSLT classification is a hybrid technique that takes advantages of both web page (HTML) and semi-structured document (XML) classification. Although a number of organizations are working on standardizing XML markup for specific domains on behalf of electronic data interchange, XML doesn?t force any predefined vocabulary like HTML. Nevertheless, XML markups generated by different sources for a specific domain usually have similarities in terms used as tag or attribute names and in structure used to represent content. Proposed XSLT classification is based on component tagging; each occurring word is prefixed with elements in ancestor hierarchy. Additionally, each ancestor element is prefixed with its ancestors as well. Furthermore; terms exist in HTML markups like meta, title, anchor, img and literal strings exist in HTML but not in XML are included into term frequency vector that represents document in classification process. Two different experiments are run over the dataset. The first experiment compares different component tagging models that represent XML documents. The models that are based on loose ancestor hierarchy are better than the ones based on strict ancestor hierarchy. The second experiment compares HTML, XML, and XSLT classification techniques. XSLT classification gives higher accuracy rates than XML and HTML.Keywords: XML, XSLT, Semi-Structured Document, Classification, Component Tagging | en_US |
dc.language | English | |
dc.language.iso | en | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.title | Classification using XSLT | |
dc.title.alternative | XSLT ile sınıflandırma | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Bilgisayar Mühendisliği Ana Bilim Dalı | |
dc.identifier.yokid | 330008 | |
dc.publisher.institute | Fen Bilimleri Enstitüsü | |
dc.publisher.university | FATİH ÜNİVERSİTESİ | |
dc.identifier.thesisid | 216486 | |
dc.description.pages | 56 | |
dc.publisher.discipline | Diğer |