Facial expression recognition in the wild using improved trajectories and fisher vector encoding

Afsharsavojbolaghi, Sadaf

View/Open

File_10121756 (3.303Mb)

Date

2016

Author

Afsharsavojbolaghi, Sadaf

Metadata

Show full item record

Abstract

Otomatik video görüntüsü işleme yöntemleri özellikle insan bilgisayar etkileşimini iyileştirme amacı ile öncem kazanmıştır. Video görüntülerinin analizinde özellikle zor bir problem görüntüdeki kişilerin duygu durumunu kestirebilmektir. Yüz ifadesi sınıflandırmanın uzaktan eğitim sistemlerinden Asperger sendromlu kişilerin kullanacağı uygulamalara ve güvenlik uygulamalarına uzanan geniş uygulama alanı mevcuttur. Bu tez çalışması kapsamında kontrollü ve gerçekçi koşullar altında toplanmış video görüntülerinden yüz ifadesi tanıma problemini ele alıyoruz. Yakın zamanda yapılan yüz bulma, hizalama, video öznitelik çıkartma ve sınıflandırma yaklaşımlarını inceledikten sonra yeni bir yöntem öneriyoruz. Bu yöntemde iyileştirilmiş yoğun izlekler yaklaşımını yüz hizalama sonrası uyguluyor, geometrik öznitelikler ve LGBT-TOP özniteliklerini Fisher vektörleri ile kodlayarak ekstrem öğrenme makineleri sınıflandırıcılarına veriyoruz. İyileştirilmiş yoğun izlekler yaklaşımı bu çalışma ile ilk defa yüz ifadesi tanıma problemine uygulanmıştır. Yaklaşımın her aşamasını karşılaştırmalı deneylerle, CK+ ve EmotiW 2015 veritabanları üzerinde sınıyoruz. Bu veritabanlarından birincisi kontrollü kayıt koşullarında toplanmış, nötr yüzden ifadeli yüzlere geçişleri içermektedir. İkinci veritabanı ise gerçekçi koşullarda, doğal ifadeler, zor ışıklandırma ve karmaşık arkaplan görüntüleri içeren film klipleridir. CK+ veritabanında 94.80/% (aşağılama ifadesi olmadan 95.79/%) ile en iyi sonuçlardan birini elde ediyoruz. EmotiW 2015 veritabanında elde ettiğimiz 43.39/% sınıflandırma başarısı ise yarışma temel sonucundan oldukça yüksektir. İki veritabanında da elde ettiğimiz iyi sonuçlar kullandığımız hizalama ve öznitelik çıkartma yöntemlerinin başarılı bir sistem ortaya koyduğunu göstermiştir.

Automatic video data analysis has been a growing interest in order to improve human computer interaction. One of the most challenging parts in video analysis is the ability of evaluating human emotion robustly. Vast applications of human facial expression recognition can be seen everywhere from educational systems to treatment of Asperger's and surveillance. In this thesis, we explore facial expression recognition on both laboratory and realistic videos. After studying recent works about face detection, facial alignment, video description and classification, we present our novel approach in, which our proposed pipeline including facial alignment in combination with improved dense trajectory, geometric, encoded with Fisher vector encoding and LGBP-TOP features are fed to extreme learning machine. It is the first time that improved dense trajectory features are used in facial expression recognition. Furthermore, we extensively study each step of our pipeline in a comparative manner. We evaluate our approach on CK+ and EmotiW 2015 challenge datasets. Videos in first dataset are captured in laboratory settings and start from neutral state and end with peak expression while the second one is selected from movies with realistic conditions, spontaneous emotions, complicated background and challenging illumination variations. On Ck+ dataset, we obtained 94.80/% and 95.79/% (without contempt) accuracy, which is among the best results obtained on the CK+. On EmotiW 2015 challenge dataset, we got 43.39/% accuracy, which is higher than the baseline of the challenge considerably. In both datasets we were able to obtain the state-of-the-art results. Our results show that using appropriate pipeline of face alignment combined with efficient visual descriptors can result in a robust system with high ability of recognition.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/73332

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess