New spectral features and classifier architectures for emotion recognition from spontaneous speech
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezde doğal konuşmadan duygu tanıma problemi için biçimlendirici konumu ağırlıklı Mel frekans kepstral katsayısı (AMFKK) özniteliklerini sunuyoruz ve başarım sonuçlarını sıkça kullanılan Mel frekans kepstral katsayıları (MFKK), Doğru Spektral frekans (DSF) katsayıları, biçimlendiriciler ve bürün öznitelikleri başarımları ile karşılaştırıyoruz. DSF öznitelikleri biçimlendirici frekansları çevresinde birbirine yakın konumlandığından, MFKK özniteliklerinin çıkarımında kritik bant enerji değerlerini normalleştirilmiş ters harmonik ortalama fonksiyonu ile ağırlıklandırıyoruz. Beş sınıflı duygu tanıma problemi için hem standart hem de ağırlıklı MFKK öznitelik vektörlerini sol-sağ yapılı saklı Markov modeller (SMM) ile eğitiyoruz. FAU Aibo duygu yüklü konuşma veritabanı üzerindeki deney sonuçları AMFKK özniteliklerinin standart spektral özniteliklerden daha iyi başarım sağladığını ortaya koyuyor. Standart MFKK öznitelikleri % 39.43 başarım sağlarken, AMFKK özniteliklerinin SMM ile sınıflandırılması başarımda % 1.92 değerinde bir artış sağlıyor. Bu tezde ayrıca AMFKK, MFKK ve DSF öznitelikleri kullanılarak eğitilen farklı SMM sınıflandırıcılarının karar kaynaşımı da inceleniyor. In this thesis, we propose formant position based weighted Mel Frequency Cepstral Coefficient (WMFCC) features for spontaneous emotion recognition from speech problem and compare performance results with commonly used feature sets such as Mel FrequencyCepstral Coefficients (MFCC), Line Spectral Frequency (LSF) features, formants and prosody. Since, the LSF features are positioned close to each other around formant frequencies, we propose normalized inverse harmonic mean function to weight critical band energies for the extraction of MFCC features. We evaluate both the standard and weighted MFCC feature sets with left-to-right Hidden Markov Model (HMM) structures for the five class emotion recognition task. Experimental results on the spontaneous FAU Aibo emotional corpus indicate that WMFCC features perform significantly better than standard spectral features. The HMM classifier with the standard MFCC features attain 39.43 % unweighted recall rate, whereas proposed WMFCC features based HMM classification brings 1.92 % improvement. Another contribution of this thesis is the fusion of classifiers using WMFCC, MFCC and LSF features.
Collections