Kelime kullanım oranları ve kullanıcı istatistikleri kullanılarak Türkçe Twitter verisi üzerinde duygu analizi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnternetin hızla gelişmesi ve mobil cihazların kullanımındaki artış ile birlikte sosyal ağların kullanımı son yıllarda büyük bir artış göstermiştir. İnsanların kişisel fikir, görüş ve önerilerini başka insanlar ile paylaşmak ve başka insanların bir konu üzerindeki görüş ve önerilerini öğrenmek istemeleri, sosyal medyayı önemli bir bilgi deposu haline getirmiştir. Bu bilgi deposu, araştırmacıların yanı sıra geleneksel yöntemlerle müşteriye ulaşmanın yeterli olmadığını gören firmaların da ilgisini büyük ölçüde çekmektedir. Bu bilgi deposunda yapılan çalışmalar sonucunda firmalar, müşterilerinin ürün ve hizmetleri hakkındaki görüş ve düşüncelerini öğrenebilmekte, elde edilen verileri sınıflandırarak ürün ve hizmetlerini geliştirmede kullanabilmektedirler. Sosyal ağlardan elde edilecek veriler ile yapılacak çalışmalarda en etkili yöntemlerden biri duygu analizidir. Duygu analizi, bu bilgi deposundan elde edilen metinsel verilerin yansıttığı duyguların, bilgisayar yardımıyla otomatik olarak tespit edilmesini amaçlamaktadır. Günümüzde Facebook, Instagram, Tumblr, Twitter gibi birçok popüler sosyal ağ bulunmaktadır. Mesajların 140 karakter ile sınırlanmış olması, bu sınırlandırma sayesinde paylaşılmak istenen bilginin etkin ve hızlı bir şekilde anlatılması Twitter'ı sosyal ağlar arasında popüler bir hale getirmiştir. Duygu analizi konusunda İngilizce için yapılmış birçok çalışma olmasına karşın Türkçe için yapılan çalışma sayısı sınırlıdır. Türkçe duygu analizi konusunda yeterli çalışma olmamasından dolayı bu tez çalışmasında Türkçe metinler için duygu analizi çalışması yapılmıştır. Bu tez kapsamında yapılacak çalışmada kullanılacak Türkçe mesajlar, popülaritesi, etkin kullanımı ve sağladığı API'den dolayı Twitter sosyal ağından toplanmıştır. Twitter sosyal ağından toplanan tweetler pozitif, negatif ve nötr olmak üzere 3 sınıfa ayrılmıştır. Bu etiketli veriler kullanılarak dengesiz ve dengeli veri kümeleri oluşturulmuştur. Çalışmanın başarısını arttırmak için yeni özellikler veri kümelerine eklenmiştir. Oluşan veri kümeleri makine öğrenmesi (MÖ) yöntemlerinden denetimli öğrenme (supervised) ve yarı-denetimli öğrenme (semi-supervised) yöntemleri ile analiz edilmiştir. Elde edilen sonuçlar karşılaştırılmış ve yeni eklenen özelliklerin deney sonuçlarına etkileri incelenmiştir. With the rapid growth of the Internet and the increase in the use of mobile devices, the use of social networks has increased significantly in recent years. The sharing of people's personal ideas, opinions and suggestions with other people and the desire of other people to learn opinions and suggestions on a topic have made social media an important information repository. This information repository attracts a great deal of interest from companies that see that it is not enough to reach customers with traditional methods as well as researchers. As a result of the studies conducted in this information warehouse, companies can learn opinions and thoughts about customers' products and services, classify the obtained data and use them to improve their products and services. Sentiment analysis is one of the most effective methods to work with data obtained from social networks. Sentiment analysis aims to automatically detect emotions reflected by textual data obtained from this information repository by computer.Today, there are many popular social networks like Facebook, Instagram, Tumblr, Twitter. By limiting the number of messages to 140 characters, this limitation makes Twitter efficient and fast to share information popular with social networks. Despite the fact that there are many works on English for sentiment analysis, the number of works done for Turkish is limited. Since there is not sufficient study on Turkish sentiment analysis, sentiment analysis study was done for Turkish texts in this thesis study. In this thesis, the Turkish messages to be used in the study are gathered from the Twitter social network because of the popularity, the effective use and the Application Programming Interface (API) that it provides. Tweets collected from Twitter social network are divided into 3 classes as positive, negative and neutral. Using these labeled data, unbalanced and balanced data sets were created. New features have been added to the data sets to enhance the performance of the work. The resulting data sets were analyzed by supervised learning and semi-supervised methods of machine learning methods. The results obtained were compared and the effects of the newly added properties on the test results were examined.
Collections