Reading aid for visually impaired (a Turkish text-to-speech system development)
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
GÖRME ÖZÜRLÜLER İÇİN OKUMA YARDIMCISI (TÜRKÇE İÇİN YAZIDAN SES ÜRETİMİ SİSTEMİ GELİŞTİRİLMESİ) ÖZET Görme özürlüler için geliştirilmiş yardımcı okuma sistemleri arasında Yazıdan Ses Üretimi sistemi, hızlı bilgi işleyebilmesi ve kolay kullanımı nedeniyle en avantaj lısıdır. Yazıdan Ses Üretim sistemlerinin temel işlevi yazılı bilgiyi otomatik olarak ses bilgisine dönüştürmeleridir. Bu çalışmada, önceden kaydedilmiş sesleri kaynaştırarak ardarda dizme yöntemi kullanılmıştır. Kaydedilmiş ses parçalarının doğrudan ardarda dizelmesiyle oluşturulan konuşmanın anlaşılırlığı çok düşük olmaktadır. Bu çalışmada, ses parçalarında gerekli değişikliklerin (prosodi değişiklikleri) yapılması ve uygun bir şekilde eklenmeleri TD-PSOLA yöntemi kullanılarak gerçekleştirilmektedir. Hedeflenen dilde konuşma üretilebilmesi için kaydedilmiş konuşmalara ihtiyaç vardır. Kayıtlan, çeşitli Türkçe kelimeleri okuyup kaydederek oluşturduk. İlk olarak, kaydedilmiş sesler üzerinde zaman uzayında tanımlanmış bir algoritma kullanılarak periyot işaretleme işlemi uygulandı. Seslerin ayrıştırılması bir ses programı kullanılarak yapıldı. Sentez sırasında sistemimiz, birleştirildiğinde anlaşılabilir bir konuşma oluşturacak uygun sesleri kayıtlar içerisinden seçmektedir. Uygun seslerin belirlenmesi, seslerin komşu sesleri incelenerek kayıtların taranması ile gerçekleşir. Daha sonra bu sesler TD-PSOLA yöntemi ile işlenmekte ve birleştirilmektedir. Belirtilen yöntemle üretilen konuşmanın anlaşılabilirliği, yüksek bir düzeyde kullanılan kayıt arşivinin kalitesine ve boyutuna bağlıdır. Bu etkilerin anlaşılabilmesi için, farklı boyutlarda arşiv kullanılarak üretilen konuşmalar öznel değerlendirme testleriyle denenmiştir. Bu çalışmada geliştirilen sistem, kaliteli kayıtlar kullanıldığında, rahatlıkla görme özürlüler için okuma yardımcısı olarak kullanılabilir. Anahtar kelimeler: Yazıdan ses üretimi, zamanda kaynaştırma, okuma yardımcısı, periyot işaretleme, TD-PSOLA. IV READING AID FOR VISUALLY IMPAIRED (A TURKISH TEXT-TO-SPEECH SYSTEM DEVELOPMENT) ABSTRACT Among various reading aids for blind, Text-To-Speech systems are the most advantageous, regarding their high information processing speed and easiness of storage and usage. The function of a Text-To-Speech (TTS) Synthesizer is automatic production of speech from a given text. The method used in this study is to synthesize speech by concatenation of speech segments extracted from a prerecorded speech corpus. A direct concatenation of speech segments fails to achieve good intelligibility. In this study, the Time Domain Pitch Synchronous OverLap Add (TD-PSOLA) algorithm is used as the concatenation algorithm, which provides smooth transitions at phoneme boundaries and reduction in mismatches due to prosodic differences by allowing prosody alteration. A speech corpus is needed for the application language to be utilized. We constructed a Turkish speech corpus by recording a script of sentences read by a speaker. The recorded speech signal is first submitted to a time domain pitch-marking algorithm to obtain pitch marks. The segmentation of phonemes in the corpus is done manually using a wave editor. During synthesis, our TTS engine extracts phoneme segments from the speech corpus in a way to achieve most intelligible synthetic speech. A search through the speech corpus within the context of the neighboring phonemes provides highly intelligible results. Then TD-PSOLA algorithm is used to alter prosody of segments for more natural concatenation. The intelligibility of synthetic speech is highly dependent on the quality and size of speech corpus. Performing subjective evaluation tests, we studied corpus size effects on the intelligibility. We conclude that the system developed in this study can successfully be used as a reading machine for blinds with the existence of a high quality speech corpus. Keywords: Text-To-Speech synthesis, time domain concatenation, reading aids, pitch marking, TD-PSOLA.
Collections