Sub-word language modeling for Turkish speech recognition

Büyük, Osman

dc.contributor.advisor	Erdoğan, Hakan
dc.contributor.author	Büyük, Osman
dc.date.accessioned	2020-12-10T07:39:12Z
dc.date.available	2020-12-10T07:39:12Z
dc.date.submitted	2005
dc.date.issued	2018-08-06
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/217937
dc.description.abstract	ÖZETTürkçe gibi eklemeli dillerdeki geniş dağarcıklı konuşma tanıma uygulamalarında, kelimelertanıma sisteminin birimi olarak seçildiğinde sınama için kullanılan kelimeleri kapsama ileilgili sorunlar çıkmaktadır. Bu sorunu ortadan kaldırabilmek için kelime altı birimlerdenyararlanılabilir. Geniş dağarcıklı konuşma tanıma uygulamasını gerçekleştirebilmek içinkelime altı birimler kullanılarak bir dil modeli geliştirilebilir. Bununla beraber kelime altıbirimlerin kısa olması nedeniyle yeteri kadar akustik bilgi içermemesi, birimler arasındakiakustik karışıklık olasılığını arttırmaktadır. Ayrıca kelime altı birimlerle elde edilen dilmodelinde kelime dil modeline göre daha kısa bir geçmiş kullanılmaktadır. Bu sorunlarnedeniyle kelime altı birimlerin kullanımı ile sistemde her zaman beklenen başarım artışısağlanamayabilmektedir. Bu problemleri ortadan kaldırabilmek için, bu çalışmada tanımasözlüğünde kullanılabilecek en büyük kelime altı birim olan yarı-kelimelerin yada tamkelimelerin kullamı önerilmiştir. Buna ek olarak istatistiksel dil modeline yarı kelimebirleşimlerindeki dilsel kısıtlamalar da dahil edilmiştir. Ağırlıklı sonlu durum makinesi ileifade edilebilecek dilsel kısıtlamalar, daha küçük ve daha iyi bir dil modeli elde edebilmekiçin istatiksel modelleriyle birleştirelebilir. Bu çalışmada önerilen sistemin, ağırlıklı sonludurum makinesi kelimelerin ekleri ve kökleri arasındaki ünlü uyumunu zorladığındakibaşarımı ölçülmüştür. Türkçe gibi eklemeli dillerdeki hata oranlarını kelime hata oranına göredaha iyi gösterebilecek ölçü birimleri de teklif edilmiştir. Yarı-kelimelerle elde edilen ikili dilmodeli, tam-kelimelerle elde edilen ikili dil modeline göre kelime hata oranları açısından dahaiyi sonuçlar vermiştir. Buna ek olarak üçlü-dil modelinin ünlü uyumunu sağlayan ağırlıklısonlu durum makinesi ile birleştirilmesi sonucunda elde edilen dil modeli, hata oranlarınıönemli ölçüde azaltmıştır.
dc.description.abstract	ABSTRACTIn large vocabulary continuous speech recognition (LVCSR) for agglutinative languages, weencounter problems due to theoretically infinite full-word lexicon size. Sub-word lexiconunits may be utilized to dramatically reduce the out-of-vocabulary rate in test data. One candevelop language models based on sub-word units to perform LVCSR. However, it has notalways been beneficial to use sub-word lexicon units, since shorter units have higher acousticconfusability among them and language model history is effectively shorter as compared tothe history in full-word language models. To reduce the aforementioned problems, wepropose using the longest possible sub-word units in our lexicon, namely half-words and full-words only. We also incorporate linguistic rules of half word combination into our statisticallanguage model. The language constraints are represented with a rule-based WFSM, whichcan be combined with an N-gram language model to yield a better and smaller languagemodel. We study the performance of the proposed system for Turkish LVCSR when thelanguage constraint takes the form of enforcing vowel harmony between stems and endings.We also introduce novel error-rate metrics that are more appropriate than word-error-rate foragglutinative languages. Using half-words with a bi-gram model yields a reduction in word-error-rate as compared to a bi-gram full-word model. In addition, combining a tri-gram half-word language model with the vowel-harmony WFSM significantly improves the accuracyfurther when re-scoring the bi-gram lattices.	en_US
dc.language	English
dc.language.iso	en
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Elektrik ve Elektronik Mühendisliği	tr_TR
dc.subject	Electrical and Electronics Engineering	en_US
dc.title	Sub-word language modeling for Turkish speech recognition
dc.title.alternative	Türkçe ses tanıma için sözcük altı dil modelleme
dc.type	masterThesis
dc.date.updated	2018-08-06
dc.contributor.department	Diğer
dc.identifier.yokid	194079
dc.publisher.institute	Mühendislik ve Fen Bilimleri Enstitüsü
dc.publisher.university	SABANCI ÜNİVERSİTESİ
dc.identifier.thesisid	197636
dc.description.pages	84
dc.publisher.discipline	Diğer

Files in this item

Name:: yokAcikBilim_194079.pdf
Size:: 603.1Kb
Format:: PDF
Description:: File_194079

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess