Nonlinear interactive source-filter model for voiced speech
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Doğrusal kaynak-süzgeç modeli (DKSM) Gunnar Fant tarafından önerildiği 1960 dan beri konuşma işlemede birincil model olarak kullanılmaktadır. Bu model de kaynak glottal akım ve süzgeç vokal boşluk olup bunların birbirlerinden bağımsız olduğu kabul edilir. Fakat, konuşma sisteminin fiziksel modelleri ile yapılan simülasyonlar, özellikle ses tellerinin titreşim frekansı (F0) vokal boşluğun birinci rezonans frekansına yaklaştığında, vokal boşluğun glottal akım üzerinde önemli etkileri olduğunu göstermiştir. Bu tezde klasik doğrusal kaynak-süzgeç modeline alternatif olarak sesli sesler için kaynak ve süzgecin birbirini bağlı olduğu yeni doğrusal olmayan etkileşimli kaynak-süzgeç modeli önerilmektedir. Öncelikle kaynak ve süzgecin etkileşimi için bir platform sunulmaktadır. Ardından vokal boşluktaki akustiğin doğrusal ve ses tellerindeki hava akışının durağan-benzeri Bernoulli akımı olduğu kabul edilerek, iki adet doğrusal olmayan etkileşimli kaynak-süzgeç modeli (EKSM) önerilmiştir. Bu modelde klasik modelden farklı olarak glottal alan kaynak olarak kabul edilmiş, glottal akım, glottal alan ve vokal boşluk Bernoulli denklemi ile ilişkilendirilmiştir. Teorik olarak DKSM nin bu modellerin bir yaklaşımı olduğu gösterilmiştir. Önerilen modellerin parametrelerinin sadece konuşma sinyalinden bulunması doğrusal olmayan bir ters evrişim problemidir. Bu problem konuşmanın akustik teorisinden faydalanılarak geliştirilen güçlü bir algoritma ile çözülmüştür. Yapılan deney sonuçları EKSM lerin fiziksel sistemlerde gözlenen kaynak-süzgeç etkileşimini üretebildiğini göstermiş ve aynı zamanda önerilen parametre tahmin algoritması her zaman kararlı, doğrusal modelden daha iyi doğrusal olmayan modeller üretmiştir. The linear source-filter model (LSFM) has been used as a primary model for speech processing since 1960 when G. Fant presented acoustic speech production theory. It assumes that the source of voiced speech sounds, glottal flow, is independent of the filter, vocal tract. However, acoustic simulations based on the physical speech production models show that, especially when the fundamental frequency (F0) of source harmonics approaches to the first formant frequency (F1) of vocal tract filter, the filter has significant effects on the source due to the nonlinear coupling between them. In this thesis, as an alternative to linear source-filter model, interactive nonlinear source-filter models are proposed for voiced speech. First, a framework for the coupling of the source and the filter is presented. Then two nonlinear interactive source-filter models (ISFMs) are proposed assuming that glottal flow is a quasi-steady Bernoulli flow and acoustics in the vocal tract is linear. It is theoretically shown that linear source-filter model is an approximation of the nonlinear models. Estimation of the parameters of ISMF from only speech signal is a nonlinear blind deconvolution problem. The problem is solved by a robust algorithm developed based on the acoustical interpretation of the systems. Experimental results show that ISFMs produce source-filter coupling effects seen in the physical simulations and the parameter estimation method produce always stable and better performing models than LSFM model.
Collections