Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Metin sınıflandırma doğal dil metinlerini önceden tanımlanmış veya mevcutkategorilerden birisiyle etiketleme işlemidir. Doküman sınıflandırma, istenmeyenmesajların filtrelenmesi ve web sorgulamaları için doğru sonuçların görüntülenebilmesigibi problemler metin sınıflandırma çalışmalarına örnek olarak verilebilir. Duyguanalizi ise kişisel blog ve sosyal medya gibi mecralardan elde edilen metinsel verilerüzerinde semantik bilginin ortaya çıkarılması amacını taşır. İşlenen veriler kısametinlerden oluştuğu için duygu analizi de bir metin sınıflandırma problemi olarak elealınır. Metin sınıflandırma ve duygu analizi problemlerinin çözümü için diğer dillerdegerekli sistemler geliştirilmiş olmakla beraber Türkçe için yapılan çalışmalar oldukçasınırlıdır. Bu tezde, Twitter'dan elde edilen Türkçe mesajlar üzerinde iki kategoriliduygu analizi çalışılmıştır. Duygu analizi bir metin sınıflandırma problemi olarakdüşünülmüş; duygu analizi tekniklerinin yanı sıra klasik metin sınıflandırma teknikleride kullanılmıştır. Twitter mesajlarında gözlenen baskın duygunun otomatik olaraktespitinde ise makine öğrenmesi yöntemleri kullanılmıştır. Hem metin sınıflandırmahem de duygu analizi deneylerinin gerçekleştirildiği bu çalışmada, asıl hedef ise duyguanalizi başarısını artırmak olmuştur. Bu amaçla Türkçe Twitter duygu analizinde farklıönişleme, etiketleme, sınıflandırma ve benzerlik yöntemlerinin etkisi incelenmiştir.Ayrıca topik bilgisine dayalı etiketleme yöntemi önerilmiş ve en yüksek %92,50oranında başarı elde edilmiştir. Böylece dil işleme ile ilgili işlemler uygulanmadanduygu analizi başarısı önceki çalışmalara kıyasla daha yüksek elde edilebilmiştir. Bununyanı sıra, metin sınıflandırma ve duygu analizi süreçlerini otomatikleştirme amacıylahem Türkçe hem de İngilizce metinsel içerikleri işleyebilen bir yazılım prototipigeliştirilmiştir. Text classification assigns one of available or predefined categories to natural languagetexts. Document classification, spam message filtering and retrieving the suitable resultsfor web inquiries are examples of text classification studies. The sentiment analysisaims extracting semantic information from textual data which mostly obtained frompersonal blogs or social media platforms. Sentiment analysis is also considered as a textclassification task due to the processed data consist of short texts. The necessarysystems have been developed to solve text classification and sentiment analysisproblems for other languages but there are quite a few studies for Turkish. In this thesis,binary sentiment analysis has been performed over Turkish feeds which are collectedfrom Twitter. The sentiment analysis has been considered as a text classification taskand classical text classification techniques have been employed in addition to thesentiment analysis techniques. While automatically detecting the dominant sentimentobserved in Twitter feeds, machine learning techniques have been used. In this study,both text classification and sentiment analysis experiments have been performed and itsmain goal has been to increase the success of sentiment analysis. For this purpose theeffect of different preprocessing, labeling, classification and similarity methods havebeen investigated in Turkish Twitter sentiment analysis. Also topic based labelingmethod has been suggested and the highest success rate has been obtained as %92,50. Inthis way, the sentiment analysis success could be obtained higher compared to theprevious works without applying language processing techniques. And also, in order toautomate text classification and sentiment analysis processes a software prototype hasbeen developed with features that can handle textual contents in both Turkish andEnglish languages.
Collections