Classification of emotions in vocal responses
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Duygu, yoğun zihinsel aktivite ve yüksek derecede zevk veya hoşnutsuzluk ile karakterize edilen nispeten kısa süreli bilinçli bir deneyimdir. Kişi diyalog sırasında karşısındakinin sesindeki duyguyu hisseder ve nasıl tepki vereceğini ona göre seçer. Bu tez kapsamında, insanlarda gerçekleşen bu yeteneğin makine öğrenme yöntemleri kullanarak sınıflandırılıp sınıflandırılamayacağı araştırılmıştır. Bu doğrultuda katılımcılara, altı temel ve nötr duyguyu ayrı ayrı içeren ses kayıtları dinletilmiştir. Cümlenin anlamsal bütünlüğündense akustik değerlerin etkisinin ölçümü istenildiğinden, Berlin duygusal konuşma veri tabanından alınan Almanca ses kayıtları dikkate alınmıştır. Nötr kelimeler içeren anlamlı Türkçe cümlelerden rastgele bir tanesi deneyin sonraki adımı olarak ekrana yansıtılmıştır. Katılımcılardan bu cümleleri, bir önceki ses kaydına karşı duydukları tepkiyle okumaları beklenmiştir. Bu sırada katılımcıların ses kaydı alınmıştır. Böylece, yapay bir diyalog ortaya konmaktadır. Bildiğimiz kadarıyla, çalışmamız duygusal konuşmalara verilen cevapların duygusal niteliğini sınıflandıran ilk çalışmadır. Çalışmada 21 katılımcıya uygulanan deneylerin ses kayıtlarından 30 temel öznitelik çıkarımı yapılmış ve yapay sinir ağı kullanılarak duygusal seslere tepkiler sınıflandırılmıştır. Bu yolla kişilerin belli duygular karşısındaki akustik tepkilerinin ölçümü yapılabilmiştir. Yapılan istatiksel analizlerin sonunda kızgınlık için verilen tepkinin makul oranda sınıflandırılabileceği gösterilmiştir. Çalışmamız, duygusal seslere verilen tepkilerin sınıflandırılmasına ek olarak verilen tepkilerin sınıflandırma başarısını arttırabileceğini öngörmektedir. Emotion is a relatively short-term conscious experience characterized by intense mental activity and high level of pleasure or dissatisfaction. During a dialogue, a person feels the emotion in the other person voice and chooses accordingly how to react. Within the scope of this thesis, it is investigated whether we can distinguish the emotional content of a response from the speech signals regardless of the semantics. Accordingly, audio recordings containing six basic and neutral emotions were played to the participants severally. Since the aim is to measure the effect of the acoustic structure rather than semantic structure we took account of German voice recordings from the Berlin emotional speech database. In this respect, meaningful Turkish sentences comprising neutral words were shown on the screen randomly as the next step of the experiment. Participants were expected to read these sentences with their emotional reaction to the previous voice record. Audio recordings of the participants were taken. Thus, an artificial dialogue was reproduced. To our knowledge, this is the first research of classification of emotional responses to an emotional audio record. In our study, 30 basic features were extracted from speech records of 21 subjects who participated in our experiment and their emotional responses to audio records were classified using an artificial neural network. By this way, it is considered that the measurement of the acoustic response to a particular emotion can be classified. After the statistical analysis, it has been shown that the response given for the anger can be classified in reasonable rate. In addition to classifying the responses to emotional audio records, we foresee that classification performance for emotional responses can be increased.
Collections