Tandem approach for information fusion in audio visual speech recognition
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnsanların çevresiyle etkileşiminde en çok tercih ettiği araçların başında ses ve konuşma gelir. Bu durum, konuşma tanıma sistemlerini gelecekteki insan-bilgisayar arayüzlerinin vazgeçilmez bir parçası haline getirmektedir. Ancak, konuşma tanıma sistemlerinin gerçek hayatta uygulanabilir olması için çevresel gürültüden etkilenmeden yüksek tanıma oranlarına ulaşabilir olması gerekmektedir. Görsel ? İşitsel Konuşma Tanıma Sistemleri, işitsel gürültünün olumsuz etkilerini en aza indirgemek için dudak hareketlerinden elde edilen görsel konuşma bilgisini kullanmaktadır.Görsel bilginin sisteme dahil edilmesinin sebebi, konuşma tanımada görsel bilginin işitsel bilgiyi bütünleyici bir bilgi kaynağı olması ve işitsel gürültüden etkilenmemesidir. Bu avantaj ile birlikte sistem tasarımı açısından iki yeni husus doğmaktadır.Bu hususlardan ilki, görsel öznitelik çıkarımı, diğeri ise görsel ve işitsel bilginin kaynaştırılmasıdır. Bu çalışma, görsel ve işitsel bilginin kaynaştırılması problemine odaklanmakta ve özgün bir görsel-işitsel konuşma tanıma sistemi önermektedir.Önerilen yöntemde, her iki bilgi akımı için ayrı olarak Gauss karışımı modeli eğitilmektedir. Eğitilen Gauss karışımı modelinden elde edilen her iki akıma ait sonsal olasılık vektörleri birleştirilmekte ve birleştirilmiş sonsal olasılık vektörleriyle Doğrusal Ayırtaç Sınıflandırıcısı eğitilmektedir. Bu şekilde, görsel ve işitsel bilgi kaynaştırılmış olmaktadır. Doğrusal Ayırtaç Sınıflandırıcısı çıktısı olan sonsal olasılık vektörleri ise Saklı Markov Modelleri için gözlem vektörleri olarak kullanılmaktadır.Önerilen yaklaşım ile tasarlanan kişiden bağımsız rakam tanıma sistemi, değişen seviyelerde araba gürültüsünün mevcut olduğu koşullarda sınanmaktadır. Yeni yöntem, şu ana dek önerilmiş en başarılı görsel-işitsel konuşma tanıma sistemlerinden biri olarak kabul edilen Çok Akımlı Saklı Markov Modeli (ÇASMM) ile tanıma oranı ve hız açısından karşılaştırılmaktadır. Deneysel sonuçlar, önerilen yöntemin MSHMM yöntemine göre daha az işlem yüküyle yakın tanıma oranlarına ulaşabildiğini göstermektedir. Speech is the most frequently preferred medium for humans to interact with their environment making it an ideal instrument for future human-computer interfaces. However, for the speech recognition systems to take part in real life applications, high recognition accuracy together with speaker independency and robustness to hostile conditions is necessary.The main preoccupation for speech recognition systems is acoustic noise. Audio Visual Speech Recognition systems intend to overcome the noise problem utilizing visual speech information generally extracted from the face or in particular the lip region. Visual speech information is known to be a complementary source for speech perception and is not impacted by acoustic noise. This advantage brings in two additional issues into the task which are visual feature extraction and information fusion.There is extensive research on both issues but an admissable level of success has not been reached yet. This work concentrates on the issue of information fusion and proposes a novel methodology. The aim of the proposed technique is to deploy a preliminary decision stage at frame level as the first base and feed the Hidden Markov Model with the output posterior probabilities derived in the preliminary decision stage. First, Gaussian Mixture Model (GMM) classification is performed for each modality separately. Sequentially the individual classifiers of each modality are combined with Linear Discriminant Classifier (LDC) to obtain posterior probability vectors corresponding to each speech frame. The purpose of using a preliminary stage is to integrate acoustic and visual data for maximum class separability. Hidden Markov Models are employed as the second stage of modelling because of their abilityto handle temporal evolutions of data.The proposed approach is investigated in a speaker independent scenario for digit recognition with the existence of diverse levels of car noise. The method is compared with a principal information fusion framework in audio visual speech recognition which is Multiple Stream Hidden Markov Models. Results on M2VTS database show that the proposed method achieves resembling performance with less processing time as compared to MSHMM.
Collections