Show simple item record

dc.contributor.advisorErzin, Engin
dc.contributor.authorYağli, Can
dc.date.accessioned2020-12-08T08:01:19Z
dc.date.available2020-12-08T08:01:19Z
dc.date.submitted2010
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/169968
dc.description.abstractAnalog şehir hatlarında iletilen telefon sinyali frekans bölgesinde 250-3400 Hz ile sınırlı iken(dar bant konuşma) modern dijital hatlarda bu frenaks üst sınırı 8000 Hz olarak belirlenmiştir(geniş bant konuşma). Her ne kadar dar bant konuşmanın anlaşılabilirliği yeterince yüksekolsa da insan kulağına geniş bant konuşma kadar hoş gelmediği tespit edilmiştir. Yapay Bant Genişliği Artırma, dar bant konuşmadan geniş bant konuşmaya geçişi amaçlar. Bu tezinamacı da bu probleme bir çözüm getirmektir. Problemin çözümü için Kaynak-Süzgeçmodelinden faydalanılmıştır. Bu model, ses sinyalini kaynak ve süzgeç olarak ikiye ayırır.Kaynak sinyalini spektral katlama ile genişletilirken süzgeç genişletilmesi için yeni bir yöntemönerilmektedir. Önerilen yöntem paralel yapılı Gizli Markov Modellerinden faydalanarak darbant ve geniş bant konuşma sinyalleri arasındaki ortak benzellikleri zamansal olarak gruplandırır. Bu gruplar kullanılarak dar banttan geniş banta geçişi sağlayan doğrusal süzgeçler elde edilir.Önerilen yöntem vektör nicemleme kullanan temel bir yöntemle karşılaştırılmıştır. Nesnelve öznel sınamalar önerilen yöntemin dar bant konuşmayı da vektör nicemleme kullananyöntemi de alt ettiğini göstermektedir.
dc.description.abstractHistorically public telephone networks operate with narrowband speech, which is ban-dlimited to (250, 3400) Hz in frequency. Even though public telephone exchanges are digitaltoday, the low bandwidth limitation is still present due to the characteristics of the tradi-tional analogue network and related standards. Although intelligibility of the narrowbandspeech is high, studies show that the perceived quality of the narrowband speech is signif-icantly degraded compared to wideband speech, which is bandlimited to (50, 7000) Hz infrequency. In this thesis, we investigate the Artificial Bandwidth Extension problem, whichaims to reconstruct the missing frequency in wideband speech from narrowband speech.To solve the problem, we utilize the well-known source-filter reproduction of the humanvoice production system. This model decomposes the speech signal into two, namely thesource signal and the filter representing spectral envelope. The source signal is extendedwith up-sampling with zero insertion (spectral folding) and we propose a new framework forthe estimation of wideband spectral envelope from narrowband. The proposed frameworkbuilds temporal clusters of the joint sub-phone patterns of the narrowband and widebandspeech signals using a parallel branch HMM structure. The joint sub-phone patterns definetemporally correlated neighborhoods, in which a linear prediction filter estimates spectralfeatures of the corresponding wideband signal from the narrowband signal. The proposedframework is compared to a benchmark vector quantization based artificial bandwidth ex-tension algorithm. Objective metrics and a subjective test shows that the reconstructedwideband speech with our method significantly outperforms the narrowband speech andwideband speech reconstructed with the benchmark system.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectElektrik ve Elektronik Mühendisliğitr_TR
dc.subjectElectrical and Electronics Engineeringen_US
dc.titleArtificial bandwidth extension of speech using temporal clustering
dc.title.alternativeZamansal gruplandırma kullanarak sesin bant genişliğinin yapay olarak artırılması
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentElektrik ve Bilgisayar Mühendisliği Anabilim Dalı
dc.subject.ytmSpeech processing
dc.identifier.yokid388057
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityKOÇ ÜNİVERSİTESİ
dc.identifier.thesisid276939
dc.description.pages85
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess