Affect recognition based on key frame selection from video
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günlük yaşantımızda yüz ifadelerimiz duygusal ve zihinsel durumumuz hakkında sözlü olmayan mesajlar taşırlar. Yüz ve ses ifadelerinden duygu tanıma sağlık, eğitim, psikoloji ve güvenlik gibi çok farklı alanlarda kullanılabilmektedir. Yakın gelecekte insan-makine etkileşiminde duygusal durumun daha başarılı olarak tespiti ve buna göre etkileşimin yönlendirilmesi ile daha doğal uygulamaların gerçekleşmesi mümkün olacaktır.Bu tezde, video dizilerindeki yüz ifadelerini ve konuşma sinyalini kullanarak anahtar video karesi seçimine dayalı duygu tanımaya dayanan bir yöntem öneriyoruz. Duygusal bir ifadenin bulunduğu bir video göz önüne alındığında videoda bulunan her çerçeve genellikle farklı şiddetlerde duygu yansıtmaktadır. Ayrıca videonun bazı bölümlerindeki ardışık karelerin birbirine çok benzer olmasından dolayı yüzde küçük hareketler olmaktadır. Etkili anahtar çerçeve seçimiyle tüm videoyu en az çerçeve ile ve en etkili biçimde özetlemeyi hedefledik. Bunun için en az seyrek geriçatıma dayalı bir yöntem kullandık. Seçilen anahtar çerçevelere ait özniteliklerin ortalamasını alarak tüm videoya ait duygu içeriğini temsil etmek için kullandık. Ayrıca videodaki zamansal değişimleri de değerlendirmek için zamansal-uzamsal özniteliklerden yararlandık. Görsel özelliklerin yanında ses verisine ait spektral ve doğrusal kestirime dayalı öznitelikleri kullanarak görsel duygu tanımaya sonuç seviyesinde birleştirdik. Önerdiğimiz sistemi çeşitli veri tabanları üzerinde denedik ve önerilen bu sistemle ACM International Conference on Multimodal Interaction (ICMI) Emotion Recognition in the Wild (Emotiw 2015) yarışmasına katılarak olumlu sonuçlar elde ettik. In daily human-to-human interactions, our facial expressions convey non-verbal messages about our emotions and mental states that complement our verbal messages. In the future, human-computer interaction scenarios are also expected to have the ability to recognize emotions to provide more natural man-machine interaction and ubiquitous computing applications such as health care, education, psychology and security.In this dissertation, we present a multimodal affect recognition method using facial expressions and the speech signal. Given a video with an emotional expression, the frames in the video generally reflect the emotion with different intensities. Moreover, some parts of the video might have little motion, which makes consecutive frames to be very similar to each other. Therefore, we aim to summarize the content of the video by selecting key frames effectively by adopting a recent video summarization method based in minimum sparse reconstruction. We extract static appearance-based features from the selected facial key frames and average them to summarize the visual content of the whole video. We also capture the temporal variations of facial expressions using spatio-temporal appearance based features. Along with visual features, we employ spectral and linear prediction based audio features and fuse them with the video-based features at the score (decision) level. We tested the proposed framework on several databases and also obtained promising results in the ACM International Conference on Multimodal Interaction (ICMI) Emotion Recognition in the Wild (Emotiw 2015) challenge using the proposed method.
Collections