Sentiment analysis of Turkish tweets
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezde, kısa ve öz şekilde duyguların belirtildiği ve kelimelerin doğrudan işlenebilecek kadar düzgün formatlı olmadığı Türkçe tweetlerin R programlama diliyle işlenebilmesi ve bu konuda bir başlangıç noktası olması açısından genel bir çerçeve önerisinde bulunulmuştur. Bunun yanı sıra özellikle Türkçe alanda yapılan çalışmaların çoğu, analiz edilecek verinin kapsamı ve data set oluşturmak üzerine hazırlanmıştır. Türkçe sentiment analizi üzerine sağlam ve kullanılabilir bir web veya istemci uygulaması henüz yoktur. Bu tez bir adım ileri safhada çalışmalar yapılabilmesi için bir başlangıç noktasıdır. Amacı da en yaygın makine (yapay) öğrenme metodları olan Destekçi Vektör Makinası, Rasgele Orman Karar Ağaçları, Boosting, Maksimum Entropi, Yapay Sinir Ağları karşılaştırmalarını yapmaktır. This thesis proposes a general frame in R programming language; to act as a gateway for the analysis of the tweets that portray emotions in a short and concentrated format. The target tweets include brief emotion descriptions and words that are not used with a proper format or grammatical structure. Majority of the work constituted in Turkish includes the data scope and the aim of preparing a data-set. There is no concrete and usable work done on Turkish Tweet sentiment analysis as a software client/web application. This thesis is a starting point on building up the next steps. The aim is to compare five different common machine learning methods: Support Vector Machines, Random Forests, Boosting, Maximum Entropy and Artificial Neural Networks.
Collections