Sare: a sentiment analysis research environment
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Duygu analizi geniş kapsamlı uygulama alanı olan önemli bir öğrenme problemidir. Online sosyal medyanın hızlı yükselişi ve burada ifade edilen kamuoyunun artan önemi, pek çok zorluğun yanı sıra bu araştırma için fırsat kapılarını açmaktadır. Zorluklar gittikçe büyüyen duygu analizi problemlerinin ve görevlerinin yer aldığı bir listeye eklenerek literatürde ifade edilirken, fırsatlar bu zorlukları çözmek için önerilen yeni algoritmalar ve teknikler ile avantaja dönüştürülmektedir. Ancak bu yaklaşımlar çoğunlukla diğer araştırmacıların doğrudan erişimine uzak omaktadır. Bu araştırmacılar ya her zaman mevcut olmayan kıyaslama veri setlerine dayanmak zorunda kalmakta veya karşılaştırma yaparken yaratıcı olmak durumundadırlar. Bu tezde genişletilebilir, temel ve modern yaklaşımları entegre ederek duygu analiz problemlerini çözmek için tasarlanmış ve kamuya açık bir sistem olan Duygu Analizi Araştırma Ortamı (SARE) sunulmaktadır. Araştırma alanını tüm genişliğiyle ele almak bu çalışmanın kapsamı dışında olduğu için, bu ortamın yararlılığı bir kısım görüş tabanlı duygu analizi problemlerinin çözümlerinin ortama entegrasyonuyla gösterilmektedir. Şu anda sistem, altın standardında bir sözlük oluşturulmasını sağlayan yarı otomatik bir yöntem, görüş ifadelerini otomatik çıkarmak için bir yöntem, ve önceden varolan temel bir duygu analiz motoru içermektedir. Kullanıcılara bizim önerdiğimiz set kaplama yaklaştırımı algoritması kullanılarak altın standardında bir sözlük oluşturmak için yardım edilmektedir. Önerilen bu algoritma, sözlüğü oluşturmak için gerekli olan belgeler setinin eleman sayısını ciddi miktarda düşürmektedir. Ayrıca, görüş ifadelerini ayıklamak için yarı denetimli ve Destekçi Vektör Makinası (SVM) sınıflandırıcı tabanlı otomatik bir algoritma önerilmiştir. Sentiment analysis is an important learning problem with a broad scope of applications. The meteoric rise of online social media and the increasing significance of public opinion expressed therein have opened doors to many challenges as well as opportunities for this research. The challenges have been articulated in the literature through a growing list of sentiment analysis problems and tasks, while the opportunities are constantly being availed with the introduction of new algorithms and techniques for solving them. However, these approaches often remain out of the direct reach of other researchers, who have to either rely on benchmark datasets, which are not always available, or be inventive with their comparisons. This thesis presents Sentiment Analysis Research Environment (SARE), an extendable and publicly-accessible system designed with the goal of integrating baseline and stateof-the-art approaches to solving sentiment analysis problems. Since covering the entire breadth of the field is beyond the scope of this work, the usefulness of this environment is demonstrated by integrating solutions for certain facets of the aspect-based sentiment analysis problem. Currently, the system provides a semi-automatic method to support building gold-standard lexica, an automatic baseline method for extracting aspect expressions, and a pre-existing baseline sentiment analysis engine. Users are assisted in creating gold-standard lexica by applying our proposed set cover approximation algorithm, which finds a significantly reduced set of documents needed to create a lexicon. We also suggest a baseline semi-supervised aspect expression extraction algorithm based on a Support Vector Machine (SVM) classifier to automatically extract aspect expressions
Collections