Single-channel speech-music separation for robust ASR with mixture of NMF models
dc.contributor.advisor | Saraçlar, Murat | |
dc.contributor.advisor | Cemgil, Ali Taylan | |
dc.contributor.author | Demir, Cemil | |
dc.date.accessioned | 2020-12-04T10:31:10Z | |
dc.date.available | 2020-12-04T10:31:10Z | |
dc.date.submitted | 2014 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/73996 | |
dc.description.abstract | Bu çalışmada otomatik konuşma tanıma (OKT) için tek kanalda konuşma-müzik ayrıştırma problemini inceledik. Çalışmanın motivasyonu, tanıma hatalarını arttıran arka-plan müziğinin etkisini azaltarak konuşma tanıma başarımını arttırmaktır. Bu çalışmada tek kanalda konuşma-müzik ayrıştırma metodu olarak Negatif Olmayan Matris Ayrıştırma (NOMA) karışımı modeli tabanlı bir yöntem tanımlanmıştır. Arka-plan müziklerini içeren bir katalog verildiği ve müziğin katalogdaki bir cıngıl tarafından üretildiği varsayımı altında karma konuşma ve müzik spektogramları için bir üretici model önerilmiştir. Önerilen yöntemde konuşma sinyali karma sinyalden yarı güdümlü biçimde kestirilen bir NOMA modeli ile temsil edilmektedir. Bu yöntem sırası ile Kullback-Leibler (KL) ve Itakura-Saito (IS) ıraksay ölçütlerine karşılık düşen Poisson ve karmaşık Gauss gözlem modelleri ile test edilmiştir. Deneylerimize göre önerilen karışım modeli hem konuşma-müzik ayrıştırma hem de konuşma tanıma testlerinde standart NOMA modellerinden daha iyi sonuçlar vermektedir. Daha sonra, önerilen NOMA karışım tabanlı yöntemin ayrıştırma başarımını iyileştirmek için önerilen olasılık/-sal model ve yöntem konuşma sinyali hakkındaki önsel bilgiyi kullanacak şekilde geliştiril/-miştir. Son olarak, konuşma-müzik ayrıştırma için NOMA tabanlı kelime altı konuşma modellerinin kullanılması önerilmiştir. Bu stratejinin genel bir konuşma modeline kıyasla daha iyi bir konuşma tanıma başarımı sağladığı gösterilmiştir. | |
dc.description.abstract | In this dissertation, we analyze the single-channel speech-music separation problem for automatic speech recognition (ASR). The motivation of the study is to increase the performance of the ASR systems by decreasing the effect of background music. We describe a single-channel speech-music separation method based on a mixture of non-negative matrix factorization (NMF) model. Given a catalog of background music material, we propose a generative model for the superposed speech and music spectrograms. The background music signal is assumed to be generated by a jingle in the catalog and it is modeled by a scaled conditional mixture model representing the jingle. The speech signal is modeled by an NMF model that is estimated in a semi-supervised manner from the mixed signal. The approach is tested with Poisson and complex Gaussian observation models that correspond respectively to Kullback-Leibler (KL) and Itakura-Saito (IS) divergence measures. Our experiments show that the proposed mixture model outperforms a standard NMF method both in speech-music separation and automatic speech recognition (ASR) tasks. Moreover, we extend the mixture of NMF based single-channel speech-music separation method such that it incorporates prior speech information to enhance the separation performance of the method. Finally, we propose to use sub-word NMF-based speech models for the separation of speech and music signals. By applying such a strategy, it is demonstrated that the recognition accuracy can be improved as compared to using a general speech model. | en_US |
dc.language | English | |
dc.language.iso | en | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Elektrik ve Elektronik Mühendisliği | tr_TR |
dc.subject | Electrical and Electronics Engineering | en_US |
dc.title | Single-channel speech-music separation for robust ASR with mixture of NMF models | |
dc.title.alternative | Gürbüz konuşma tanıma için NOMA karışım modelleriyle tek-kanalda konuşma-müzik ayrıştırma | |
dc.type | doctoralThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Elektrik-Elektronik Mühendisliği Anabilim Dalı | |
dc.identifier.yokid | 10042585 | |
dc.publisher.institute | Fen Bilimleri Enstitüsü | |
dc.publisher.university | BOĞAZİÇİ ÜNİVERSİTESİ | |
dc.identifier.thesisid | 371831 | |
dc.description.pages | 186 | |
dc.publisher.discipline | Diğer |