Artificial bandwidth extension of speech using temporal clustering
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Analog şehir hatlarında iletilen telefon sinyali frekans bölgesinde 250-3400 Hz ile sınırlı iken(dar bant konuşma) modern dijital hatlarda bu frenaks üst sınırı 8000 Hz olarak belirlenmiştir(geniş bant konuşma). Her ne kadar dar bant konuşmanın anlaşılabilirliği yeterince yüksekolsa da insan kulağına geniş bant konuşma kadar hoş gelmediği tespit edilmiştir. Yapay Bant Genişliği Artırma, dar bant konuşmadan geniş bant konuşmaya geçişi amaçlar. Bu tezinamacı da bu probleme bir çözüm getirmektir. Problemin çözümü için Kaynak-Süzgeçmodelinden faydalanılmıştır. Bu model, ses sinyalini kaynak ve süzgeç olarak ikiye ayırır.Kaynak sinyalini spektral katlama ile genişletilirken süzgeç genişletilmesi için yeni bir yöntemönerilmektedir. Önerilen yöntem paralel yapılı Gizli Markov Modellerinden faydalanarak darbant ve geniş bant konuşma sinyalleri arasındaki ortak benzellikleri zamansal olarak gruplandırır. Bu gruplar kullanılarak dar banttan geniş banta geçişi sağlayan doğrusal süzgeçler elde edilir.Önerilen yöntem vektör nicemleme kullanan temel bir yöntemle karşılaştırılmıştır. Nesnelve öznel sınamalar önerilen yöntemin dar bant konuşmayı da vektör nicemleme kullananyöntemi de alt ettiğini göstermektedir. Historically public telephone networks operate with narrowband speech, which is ban-dlimited to (250, 3400) Hz in frequency. Even though public telephone exchanges are digitaltoday, the low bandwidth limitation is still present due to the characteristics of the tradi-tional analogue network and related standards. Although intelligibility of the narrowbandspeech is high, studies show that the perceived quality of the narrowband speech is signif-icantly degraded compared to wideband speech, which is bandlimited to (50, 7000) Hz infrequency. In this thesis, we investigate the Artificial Bandwidth Extension problem, whichaims to reconstruct the missing frequency in wideband speech from narrowband speech.To solve the problem, we utilize the well-known source-filter reproduction of the humanvoice production system. This model decomposes the speech signal into two, namely thesource signal and the filter representing spectral envelope. The source signal is extendedwith up-sampling with zero insertion (spectral folding) and we propose a new framework forthe estimation of wideband spectral envelope from narrowband. The proposed frameworkbuilds temporal clusters of the joint sub-phone patterns of the narrowband and widebandspeech signals using a parallel branch HMM structure. The joint sub-phone patterns definetemporally correlated neighborhoods, in which a linear prediction filter estimates spectralfeatures of the corresponding wideband signal from the narrowband signal. The proposedframework is compared to a benchmark vector quantization based artificial bandwidth ex-tension algorithm. Objective metrics and a subjective test shows that the reconstructedwideband speech with our method significantly outperforms the narrowband speech andwideband speech reconstructed with the benchmark system.
Collections