Türkçe konuşma tanıma sistemleri için bir konuşma veritabanı
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Konuşma tanıma, söylenen sözlerin metne dönüştürülmesidir. Sesle kontrol uygulamalarının yanı sıra çeşitli dikte işlemleri için de kullanılmaktadır. Günümüzde konuşma tanıma uygulamaları daha çok Saklı Markov Modeli adı verilen yaklaşımla geliştirilmektedir. Saklı Markov Modelleri (SMM), görünür çıktılar üreten, ancak arka planda bu çıktıların üretilmesine neden olan saklı durum geçişlerini içeren durumları modellemek için geliştirilmiştir. Konuşma tanıma problemi de bu tanıma uymaktadır. Konuşma tanıma, pek çok alt problemden oluşan, karmaşık bir disiplindir. Konuşma tanıma sistemlerinin geliştirilmesi esnasında, konuşma veritabanlarının oluşturulması oldukça önemli bir husustur. Bu çalışmada, Türkçe konuşma tanıma sistemleri için bir Türkçe konuşma veritabanı geliştirilmiştir. Okuma konuşması hedef alınmıştır. Konuşma veritabanı geliştirme aşamaları adım adım incelenmiş, bu adımlarda dikkat edilmesi gereken noktalar ve kullanılan araçlar ele alınmıştır. Ses kayıtları, 1989 - 1995 arası doğumlu 30 konuşmacıya (15 erkek, 15 kadın) 60'ar cümle okutularak elde edilmiştir. Veritabanında ses kayıtlarının yanı sıra Hidden Markov Model Toolkit (HTK) ile oluşturulan fonem seviyesindeki zaman damgaları da yer almaktadır. Metin işleme ve Türkçe sözcük altı istatistik işlemleri için C# dilinde programlar yazılmıştır. Speech recognition is translation of spoken words to text. It is used for dictation as well as voice user interfaces. Today, speech recognition systems are mostly developed with the Hidden Markov Model (HMM) approach. Hidden Markov Models are developed for modelling visible output emitting situations which contain the hidden state transitions in background that cause those outputs to be generated. Speech recognition problem fits that definition. Speech recognition is a complex discipline that consists of many sub problems. Speech database construction is a very important matter in developing speech recognitions systems. In this study, a Turkish speech database for Turkish speech recognition systems has been constructed. Reading speech has been set as target. Speech database construction stages are investigated step by step, the most sensitive spots in those steps and different tools that have been used are mentioned. Audio recordings obtained from 30 speakers (15 male, 15 female) which were born between 1989 and 1995. Phoneme level timestamps generated with Hidden Markov Model Toolkit (HTK) are in the database alongside the audio recordings. Programs are written in C# for text processing and subword statistics of Turkish language.
Collections