Show simple item record

dc.contributor.advisorKöse, Cemal
dc.contributor.authorMohammadalipour Tofighi, Parham
dc.date.accessioned2020-12-30T06:56:12Z
dc.date.available2020-12-30T06:56:12Z
dc.date.submitted2012
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/480285
dc.description.abstractİnternet teknolojileri ve uygulamalarının hızlı gelişimine rağmen metinsel sayfalar hala en yaygın internet ortamlarıdır. Bunun en önemli örnekleri olarak, çoğunlukla metin tabanlı olan Twitter, Facebook, vb. sosyal ağ uygulamaları ile haber grupları, e-posta, blog, vb. gibi web uygulamaları verilebilir. Dolayısıyla, bu çalışmada, Metinsel veri Madenciliği ve Belge Sınıflandırma çerçevesinde, yazarların ana dillerini belirlemeye bir giriş çalışması yapılmıştır. Özellikle, birçok internet uygulamasında olduğu gibi İngilizcede yazılmış bir metinin yazarının ana dilini belirlemek için bir sistem geliştirilmiştir. Bu çalışmada, stylometry ve geleneksel makine öğrenmesi gibi alanlardan teknikler kullanarak bir yazarın ana dilinin belirlenmesi için bir araç geliştirilmiştir. Burada, bir yazarın tarzı, metinden çeşitli stylometric özelliklerin ölçümleri yapılarak bir örüntü (pattern) tanıma işlemine dönüştürülmektedir. Bir stilistik metnin özelliklerini dört türde (Sözcüksel, Sözdizimsel, Yapısal ve İçeriğe özgü özellikleri) ve makine öğrenme algoritmasını da üç türde (destek vektör makinesi, karar ağacı ve Naïve Bayes) ele alınmış ve daha sonra amaçlanan özelliklere dayanarak yazarın Anadilinin Tanımlaması işlemi gerçeklenmiştir. Yapılan çalışmada, dört farklı anadilden yazarlar (Türkçe, Almanca, Farsçanın ve İngilizce) tarafından yazılan çevrimiçi haber sayfalarından oluşan bir veritabanı kullanılmıştır.
dc.description.abstractIn the domain of Text Mining and Document Classification, an introduction into the field of Authorship Attribution is presented. On the other hand, with the rapid growth of Internet technologies and applications, text is still the most common Internet medium. Examples of this include social networking applications such as Twitter, Facebook, etc. and web applications such as newsgroups, email, blog, etc. are also mostly text based. We developed a framework to determine an anonymous author?s native language for short length and multi-genre writing in English such as the ones found in many Internet applications.This thesis describes the development of such a tool using techniques from the fields of stylometry and traditional machine learning techniques. An author?s style can be reduced to a pattern by making measurements of various stylometric features from the text. In this framework, four types of stylistic text features (Lexical, Syntactic, Structural, and Content-Specific Features) are extracted and two machine learning algorithms (Decision Tree, Support Vector Machine and Naïve Bayesian) are designed for author?s native language identification based on the proposed features. For this research, we used four different collections of writings online news messages by speakers of four different nationalities: native English as well as speakers of Turkish, German, and Persian.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleWeb tabanlı metinlerde yazarın anadilini tanımlama
dc.title.alternativeAuthors native language identification in web mediums
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.subject.ytmData analysis
dc.subject.ytmData mining
dc.subject.ytmSyntax
dc.subject.ytmWeb page
dc.subject.ytmClassification
dc.subject.ytmClassification methods
dc.subject.ytmText recognition
dc.subject.ytmWriting analysis
dc.identifier.yokid439988
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityKARADENİZ TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid315548
dc.description.pages74
dc.publisher.disciplineYazılım Mühendisliği Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess