Show simple item record

dc.contributor.advisorAlpkoçak, Adil
dc.contributor.authorToçoğlu, Mansur Alp
dc.date.accessioned2021-05-01T14:14:02Z
dc.date.available2021-05-01T14:14:02Z
dc.date.submitted2018
dc.date.issued2019-01-03
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/558308
dc.description.abstractBu tez, Türkçe metinlerde duygu analizi çalışmaları yapmak için yeni bir veri seti ve yeni bir sözlük ortaya koymaktadır. Bu veri setini oluşturmak için, 4,709 katılımcıdan 27,350 adet doküman toplandığı bir anket yürütülmüştür. Ardından, etiketleyicilerin her bir dokümanın duygu kategorisini birer birer doğruladıkları bir doğrulama süreci yürütülmüştür. Sonuç olarak, biri ham, biri de doğrulanmış olarak adlandırılan iki adet veri seti elde edilmiştir. İki adet köke indirgeme metodu kullanılarak bu iki veri setinden dört adet versiyonu elde edilmiş ve sonrasında bir uzay vektör modeli yardımıyla bu dört versiyon modellenmiştir. Doğruluk, kesinlik, hassasiyet ve F ölçüm değerlerini hesaplamak için makine öğrenme algoritmaları çalıştırılmıştır. Elde edilen sonuçlara dayanarak; SVM sınıflandırıcısının en yüksek performans değerini sağladığı ve doğrulanmış veri seti ile çalıştırılan modellerin, doğrulanmamış veri seti ile çalıştırılan modellerden daha doğru sonuçlar verdiği tespit edilmiştir.Tezin ikinci aşamasında, tez içinde oluşturulmuş olan veri seti kullanılarak, Türkçe metinlerde sözlük bazlı duygu analizi için bir sözlük önerilmektedir. Köke indirgeme, terim ağırlığı, sözlük zenginleştirme ve terim seçimi yaklaşımlarının etkileri araştırılmıştır. Dokümanların farklı yaklaşımlar kullanılarak işlenmesiyle her terimin kökü elde edilmiştir. Daha sonra, terim sınıf frekanslarına ve karşılıklı bilgi değerlerine dayanan iki ağırlıklandırma şeması kullanılmıştır. Sözlük zenginleştirmesi için bi-gram ve kavram hiyerarşisi kullanılmıştır. Sonrasında, verimlilik sorunları için terim seçimi uygulanmıştır. Son olarak, sözlüğün performansı ayrı bir Türkçe veri setinde anahtar kelime tespiti tekniği kullanılarak ölçülmüştür. Yapılmış olan deneyler, önerilmiş olan sözlükteki anahtar kelime tespiti tekniğinin kullanımının Türkçe metinlerden duygu çıkarımı için tatmin edici sonuçlar verdiğini göstermiştir.
dc.description.abstractThis thesis presents a new dataset and a new lexicon for emotion analysis studies in Turkish text. To gather this dataset, we conducted a survey and collected 27,350 entries from 4,709 individuals. Then, we performed a validation process in which annotators validated each entry one by one by assigning a related emotion category. As a result, we obtained two datasets, one raw and the other validated. Subsequently, we generated four versions of these two datasets using two different stemming methods and then modeled them using a vector space model. Then, we ran machine learning algorithms on the models to calculate the accuracy, precision, recall and F measure values. Based on the results we obtained, we concluded that the SVM classifier yielded the highest performance value and that the models trained with a validated dataset provide more accurate results than the models trained with a non validated dataset.In the second phase of the thesis, we propose a lexicon for the use of lexicon-based emotion analysis in Turkish text by using the dataset we constructed within the thesis. We explored the effects of stemming, term weighting, lexicon enrichment and term selection approaches for lexicon-based emotion analysis. We first pre-processed the documents (entries) to obtain stems of each term using different approaches. Afterward, we proposed two different weighting schemas based on term class frequencies and Mutual Information values. Next, we examined bi-grams and concept hierarchy for lexicon enrichment. Furthermore, we applied term selection for efficiency issues. Lastly, we evaluated the performance of the lexicon by using keyword-spotting technique on a separate Turkish dataset. The experiments showed that use of our proposed lexicon in keyword spotting technique produces a satisfactory result in emotion analysis in Turkish Text.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleLexicon-based emotion analysis in Turkish
dc.title.alternativeTürkçe metinlerde sözlük tabanlı duygu analizi
dc.typedoctoralThesis
dc.date.updated2019-01-03
dc.contributor.departmentBilgisayar Mühendisliği Ana Bilim Dalı
dc.identifier.yokid10206267
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityDOKUZ EYLÜL ÜNİVERSİTESİ
dc.identifier.thesisid524609
dc.description.pages111
dc.publisher.disciplineBilgisayar Mühendisliği Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess