Dar bantlı konuşma kalitesinin izgel zarf genişletilerek iyileştirilmesi

Bulu, Gürhan

View/Open

File_307554 (2.247Mb)

Date

2008

Author

Bulu, Gürhan

Metadata

Show full item record

Abstract

İnsan sesinin 7?8 kHz'e kadar izgel bile¸senlerinin oldu?gu bilinmektedir. Öte yandan, telefon sistemlerinde insan sesi genellikle 3.4 kHz'lik bir alçak geçirgen süzgeçten geçirilip 8 kHz'te örneklenir. Kodlama ve benzeri işlemlerden kaynaklanan hiçbir kayıp olmasa bile yüksek frekans bölgesinin süzülmesinden kaynaklanan bir kalite kaybı söz konusudur. Bu kaybın düzeyi anlaşılabilirliğii pek etkilememekle beraber konuşma kalitesinde hissedilir bir bozulmaya yol açmaktadır. Bu çalışmada izgel zarfın düşük frekanslı bölgelerinden faydalanılarak, süzülen yüksek frekanslı bölgeler elde edilmeye çalışılmış ve izgel zarfın genişletilmesi olarak da nitelenebilecek bu işlem için başvuru çizelgesi ve yapay sinir ağları yöntemleri kullanılmıştır. Daha sonra genişletilen bu izgel zarfın yüksek frekanslı bölgelerinin altı, değişik yöntemler kullanılarak doldurularak konuşma kalitesi artırılmaya çalışılmıştır. Bu yöntemlerinen basiti izgel zarfın altının gürültüyle doldurulmasıdır. Bir diğer yöntem ise izgel zarfın altının sinüslerle doldurulmasıdır. Sonuncu ve en başarılı yöntemde ise kaynak-süzgeç modeliyle uyarım sinyalinin de genişletililerek konuşma kalitesinin artırılmasıdır. Bu geliştirilen yöntemlerin telefon kalitesindeki konuşmalar için kullanılacağı öngörülmekle birlikte, daha düşük bant genişliğine sahip konuşmalar (örneğin 2 kHz) için de kullanılabilecekleri gösterilmiştir.

It is known that human speech has components up to 7-8 kHz. However in telephony, speech is usually lowpass filtered at 3.4 kHz and sampled at 8 kHz. Although this filtering operation has little effect on intelligibility, it causes a perceptible degradation in speech quality. This paper deals with the reconstruction of the lost high frequency content of telephone speech using the low frequency spectral information. Reconstruction methods based on a lookup table and artificial neural networks are used to obtain high frequency region. This extended high frequency region is used for enhancement of speech quality in various methods. One of them is filling the high region with random noise, the other one is filling the high region with sinusoids, the last and the most effective method is to fill the high region by using source excitation model. These methods are developed to enhance the telephone quality speech, however they may be used for speech signals which has lower bandwidths (2 kHz).

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/480026

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess