Speaker and posture classification using instantaneous acoustic features of breath signals
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Konuşmadan çıkarılan akustik özellikler, biyometrik konuşmacı tanımlama veya birinci şahıs eylemlerinin kestirimi gibi problemlerde yaygın olarak kullanılır. Ancak, konuşma verilerinin kullanımı, konuşma içeriğinin açık bir şekilde kullanılabilir olması nedeniyle gizlilik konusundaki endişeleri artırmaktadır. Bu tezde konuşma aralarındaki nefes verilerini kullanarak konuşma ve vücut pozisyonu sınıflandırması için bir yöntem öneriyoruz.Bu yöntemde akustik anlık yan bilgi, Hilbert-Huang dönüşümü kullanılarak nefes örneklerinden çıkarılır. Anlık frekans, büyüklük ve faz özellikleri, içsel kip işlevleri kullanılarak çıkarılır ve bunların farklı kombinasyonları, sınıflandırma için CNN-RNN ağına beslenir. Ayrıca, hem bu tezdeki deneylerimiz hem de gelecekteki çalışmalarımız için genel erişime açık bir nefes veri seti, BreathBase'i oluşturduk. BreathBase, önceden hazırlanmış rastgele sözler içeren metinleri 4 farklı mikrofonla 5 farklı vücut pozisyonunda okuyan 20 katılımcının kayıtlarında tespit edilen 5000'den fazla nefes örneği içermektedir.Konuşmanın nefes bölümlerinden elde edilen yan bilgileri kullanarak, bu yöntemle 20 konuşmacı arasında /% 87 konuşmacı sınıflandırma ve /% 98 duruş sınıflandırma doğruluğu elde edilmiştir. Önerilen ağ ayrıca SVM, LSTM ve kNN-DTW tekniklerinin birleştirilmesi gibi diğer yöntemlerden daha iyi performans göstermiştir. Acoustic features extracted from speech are widely used for problems such as biometric speaker identification or first-person activity detection. However, use of speech data raises concerns about privacy due to the explicit availability of the speech content. In this thesis, we propose a method for speech and posture classification using intra-speech breathing sounds. The acoustical instantaneous side information was extracted from breath instances using the Hilbert-Huang transform. Instantaneous frequency, magnitude, and phase features were extracted using intrinsic mode functions, and different combinations of these were fed into a CNN-RNN network for classification. We also created a publicly available breath dataset, BreathBase, for both our experiments in the thesis and future work. BreathBase contains more than 5000 breath instances detected on the recordings of 20 participants reading pre-prepared random pseudo texts in 5 different postures with 4 different microphones.Using side information acquired from breath sections of speech, 87/% speaker classification and 98/% posture classification accuracy is obtained among 20 speakers with this method. The proposed method outperformed various other methods such as support vector machines, long-short term memory and combination of k-nearest neighbor and dynamic time warping techniques.
Collections