Show simple item record

dc.contributor.advisorSaraçlar, Murat
dc.contributor.advisorCemgil, Ali Taylan
dc.contributor.authorDemir, Cemil
dc.date.accessioned2020-12-04T10:31:10Z
dc.date.available2020-12-04T10:31:10Z
dc.date.submitted2014
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/73996
dc.description.abstractBu çalışmada otomatik konuşma tanıma (OKT) için tek kanalda konuşma-müzik ayrıştırma problemini inceledik. Çalışmanın motivasyonu, tanıma hatalarını arttıran arka-plan müziğinin etkisini azaltarak konuşma tanıma başarımını arttırmaktır. Bu çalışmada tek kanalda konuşma-müzik ayrıştırma metodu olarak Negatif Olmayan Matris Ayrıştırma (NOMA) karışımı modeli tabanlı bir yöntem tanımlanmıştır. Arka-plan müziklerini içeren bir katalog verildiği ve müziğin katalogdaki bir cıngıl tarafından üretildiği varsayımı altında karma konuşma ve müzik spektogramları için bir üretici model önerilmiştir. Önerilen yöntemde konuşma sinyali karma sinyalden yarı güdümlü biçimde kestirilen bir NOMA modeli ile temsil edilmektedir. Bu yöntem sırası ile Kullback-Leibler (KL) ve Itakura-Saito (IS) ıraksay ölçütlerine karşılık düşen Poisson ve karmaşık Gauss gözlem modelleri ile test edilmiştir. Deneylerimize göre önerilen karışım modeli hem konuşma-müzik ayrıştırma hem de konuşma tanıma testlerinde standart NOMA modellerinden daha iyi sonuçlar vermektedir. Daha sonra, önerilen NOMA karışım tabanlı yöntemin ayrıştırma başarımını iyileştirmek için önerilen olasılık/-sal model ve yöntem konuşma sinyali hakkındaki önsel bilgiyi kullanacak şekilde geliştiril/-miştir. Son olarak, konuşma-müzik ayrıştırma için NOMA tabanlı kelime altı konuşma modellerinin kullanılması önerilmiştir. Bu stratejinin genel bir konuşma modeline kıyasla daha iyi bir konuşma tanıma başarımı sağladığı gösterilmiştir.
dc.description.abstractIn this dissertation, we analyze the single-channel speech-music separation problem for automatic speech recognition (ASR). The motivation of the study is to increase the performance of the ASR systems by decreasing the effect of background music. We describe a single-channel speech-music separation method based on a mixture of non-negative matrix factorization (NMF) model. Given a catalog of background music material, we propose a generative model for the superposed speech and music spectrograms. The background music signal is assumed to be generated by a jingle in the catalog and it is modeled by a scaled conditional mixture model representing the jingle. The speech signal is modeled by an NMF model that is estimated in a semi-supervised manner from the mixed signal. The approach is tested with Poisson and complex Gaussian observation models that correspond respectively to Kullback-Leibler (KL) and Itakura-Saito (IS) divergence measures. Our experiments show that the proposed mixture model outperforms a standard NMF method both in speech-music separation and automatic speech recognition (ASR) tasks. Moreover, we extend the mixture of NMF based single-channel speech-music separation method such that it incorporates prior speech information to enhance the separation performance of the method. Finally, we propose to use sub-word NMF-based speech models for the separation of speech and music signals. By applying such a strategy, it is demonstrated that the recognition accuracy can be improved as compared to using a general speech model.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectElektrik ve Elektronik Mühendisliğitr_TR
dc.subjectElectrical and Electronics Engineeringen_US
dc.titleSingle-channel speech-music separation for robust ASR with mixture of NMF models
dc.title.alternativeGürbüz konuşma tanıma için NOMA karışım modelleriyle tek-kanalda konuşma-müzik ayrıştırma
dc.typedoctoralThesis
dc.date.updated2018-08-06
dc.contributor.departmentElektrik-Elektronik Mühendisliği Anabilim Dalı
dc.identifier.yokid10042585
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityBOĞAZİÇİ ÜNİVERSİTESİ
dc.identifier.thesisid371831
dc.description.pages186
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess