Keyword search for low resource languages

Gündoğdu, Mustafa Batuhan

View/Open

File_10177461 (7.575Mb)

Date

2017

Author

Gündoğdu, Mustafa Batuhan

Metadata

Show full item record

Abstract

Konuşma geri getirimi, yalnızca ilgilenilen konuşma parçalarının bulunması için değil aynı zamanda daha iyi otomatik konuşma tanıma (OKT) sistemlerinin kurulabilmesine yönelik, otomatikleştirilmiş ve kolaylaştırılmış bir konuşma madenciliği için, önemli bir problemdir. Bilhassa, anahtar sözcük arama (ASA) sistemleri, bir kullanıcının sağladığı anahtar sözcüğün telaffuz edildiği belirli kısımları bulmak suretiyle bu hedefleri gerçekleştirmeyi amaçlamaktadır. Anahtar sözcük arama için en akla yatan ve en çok kullanılan yöntem, OKT sistemleri kullanarak konuşmadan metin yazıları elde etmek ve bu OKT çıktısında metin tabanlı arama yapmaktır. Öte yandan, mevcut etiketli konuşma eğitim verilerinin yetersiz olduğu kısıtlı kaynaklı diller için güvenilir OKT sistemleri oluşturulamayacak ve kendilerine bağımlı ASA sistemleri başarısız olacaktır. Ayrıca, ilgilenilen anahtar sözcük OKT sisteminin dağarcığında yer almıyorsa, kelime düzeyi OKT çıktılarında bulunması imkansız olacaktır.Bu tezde, kısıtlı kaynaklı diller için ASA'nın yukarıda bahsedilen problemlerini ele alacağız. Tamamen farklı bir yaklaşımla, örnek ile sorgu problemlerinin benzerlik arama tekniklerinden esinlenen fikirlerle bir ASA sistemi kurmayı hedefledik. Bunun için, metin sorguları için yapay olarak ``sahte örnekler'' oluşturduktan sonra, bir alt-dizi dinamik zaman bükme araması kullanıyoruz. Ayrıca, dinamik zaman bükmede kullanılmak üzere, bu sorgu gösterimleri ile uygun bir mesafe metriğini bütünleşik ularak öğrenilmesini inceliyoruz. Önerdiğimiz bu yeni ASA sisteminin, dağarcık dışı terimlerin bulunmasında, mevcut en iyi ASA tekniklerinden daha iyi performans gösterdiğini, ve farklı yapısı nedeniyle geleneksel OKT tabanlı ASA sistemleri ile birlstirildiğinde ciddi iyileştirmeler sağladığını gördük.

Retrieval of spoken content is one key endeavor, not only for nding the speechparts of interest, but also for an automated and facilitated speech mining towardsbetter automatic speech recognition (ASR) systems. In particular, keyword search(KWS) systems aims to address these goals, by locating the specic parts of speechwhere a user provided keyword uttered. The most intuitive and convenient methodfor keyword search is to obtain text transcriptions from speech using ASR systems,and then conduct text based search on this ASR output. However, for low resourcelanguages, for which available labeled speech training data is not sucient, reliable ASRsystems cannot be built and, KWS systems that depend on them will fail. Furthermore,if the keyword of interest is not within the vocabulary of the ASR system, it can neverbe found in the word level transcriptions.In this thesis, we address the above mentioned issues of KWS for the low resourcelanguages. We aim to build a KWS system, using a completely dierent approach, withideas inspired by the similarity search techniques of the query by example retrievaltasks. For this, we utilize a subsequence dynamic time warping-based search, afterarticially modeling /pseudo examples` for text queries. Furthermore, we investigatea joint learning of these query representations and a proper distance metric for use indynamic time warping. We show that, this new KWS system, we propose, outperformsthe state of the art KWS techniques for retrieval of out-of-vocabulary terms, andprovides signicant improvements when combined with the conventional ASR-basedKWS system due to its heterogeneity.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/72741

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess