Recognition of non-manual signs in sign language
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İşaret dilinde yüz ifadeleri ve kafa hareketlerinin tanınması konusu ihmal edilmektedir. Bu ihmalin nedenlerinden biri olarak etiketlenmiş veri seti eksikliği gösterilebilir. Bu çalışmada, yüz ifadeleri ve kafa hareketlerinin yer aldığı, manuel olmayan işaretleri içeren bir Türk İşaret Dili (TİD) veriseti toplanıp, video kareleri seviyesinde işaretleme yapılmıştır. Bu tezde Türk İşaret Dili kafa hareketleri ve yüz ifadeleri veri seti sunulmakta ve manuel olmayan işaretler için bir temel tanıma sistemi önerilmektedir. Derin öğrenmeye dayalı tanıma sisteminde, önceden eğitilmiş ResNet konvolüsyonel sinir ağı kullanılarak soru, olumsuzluk, tasdik etme ve acı hareket ve ifadeleri tanınmaya çalışılmıştır. Ana dili Türk İşaret Dili olan beş öznenin işaretleri yaptığı 483 video zamansal olarak işaretlenmiştir. Deney testleri, bir özneyi dışarda bırakma tekniği kullanılarak yapılmıştır. Doğru sınıflandırılan işaretlemelere göre başarım, soru, olumsuz-sağ-sol, olumsuz-yukarı-aşağı, acı ve tasdik sınıfları için sırasıyla % 55.77, % 14.63, % 72.83, % 10 ve % 11.67 olarak ölçülmüştür.Sırasıyla farklı özneleri dışarda bırakarak eğitilen beş farklı model ve yeni bir verisetinden alınan işaret dili videoları ile çapraz veriseti deneyleri yapılmıştır. Etiketlenen 87 kısa klipten, acı sınıfı dışındaki dört sınıfa ait işaretlemeler elde edilmiştir. En iyi performans gösteren model soru işaretlemelerinin % 66.67'sini ve olumsuz-yukarı-aşağı işaretlemelerinin % 42.31'ini doğru sınıflandırmakta, geri kalan sınıflara ait tahmin yapamamaktadır. Recognition of non-manual components in sign language has been a neglected topic, partly due to the absence of annotated non-manual sign datasets. We have collected a dataset of videos with non-manual signs, displaying facial expressions and head movements and prepared frame-level annotations. In this thesis, we present the Turkish Sign Language (TSL) non-manual signs dataset and provide a baseline system for non-manual sign recognition. A deep learning based recognition system is proposed, in which the pre-trained ResNet Convolutional Neural Network (CNN) is employed to recognize the question, negation side to side and negation up-down, affirmation and pain movements and expressions. 483 TSL videos performed by five subjects, who are native TSL signers were temporally annotated. We employ a leave-one-subject-out approach for performance evaluation on the test videos. We have obtained annotation-level accuracy values of 55.77%, 14.63%, 72.83%, 10% and 11.67% for question, negation-side, negation-up-down, pain and affirmation classes respectively in the BosphorusSign-HospiSign non-manual sign datasets. Question, negation-side, negation-up-down and affirmation movements and expressions in 87 clips from the TSL translation video of a Turkish movie are temporally annotated for cross-database experiments. The models that are fine-tuned on BosphorusSign-HospiSign set are tested with the clip frames. The best performing model classifies 66.67 /% of question annotations and 42.31% of negation-up-down annotations correctly, while the remaining class labels could not be predicted.
Collections