Yapay sinir ağları tabanlı konuşmacı tanıma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Anahtar Kelimeler: Yapay Sinir Ağlan, Eğiticili ve Eğiticisiz Öğrenme, Konuşmacı Tanıma, Metne Bağlı Kapalı Set Konuşmacı Tanıma, Metinden Bağımsız Açık- Kapalı Set Konuşmacı Tanıma. Özet: Bu çalışmada, çeşitli Yapay Sinir Ağlan (YSA) tabanlı Konuşmacı Tanıma uygulamalan gerçekleştirilmiştir. Çok Katmanlı Almaç (ÇKA) ve Kendi Kendini Organize Eden (SOM) Yapay Sinir Ağlan, eğiticili ve eğiticisiz öğrenme yöntemleridir. ÇKA ve SOM modelleri konuşmacı örüntüleri için sınıflandıncı olarak kullanılmıştır. Konuşmacı tanımada, özellik çıkartım önemli bir aşamadır. Bu çalışmada, özellik vektörlerinin çıkartımı için, Doğrusal Öngörüm Kodlama (DÖK) tabanlı çeşitli algoritmalar kullanılmıştır. Özellikle, kepstral katsayılar yöntemi en baskın algoritmadır. Çalışmalar, başlıca iki alanda incelenebilir: birincisi, çeşitli ÇKA mimarileri ile metne bağlı kapalı set konuşmacı tanıma ve ikincisi, SOM mimarileri ile metinden bağımsız açık-kapalı set konuşmacı tanıma uygulamalandır. Konuşmacı saptama uygulamalannda, SOM ağlarının çıkışında, karar birimi olarak, Birleştirilmiş Bellek Modeli (BBM) kullanılması amaçlanmıştır. İlk alanda yapılan çalışmalarda, 10 konuşmacının yer aldığı ad ve soyadlannı telaffuz ettikleri, Türkçe konuşmacı seti kullanılmıştır. Her telaffuz 8 kez tekrarlanarak, 5 tanesi eğitim, 3 tanesi de test aşamasında kullanılmıştır. Konuşmacı sayısı ve telaffuz edilen kelime sayısı arttıkça, her konuşmacı için ÇKA sınıflandıncısının oluşturulması ve eğitimi çok uzun zaman alır. Aynca sistemin tanıma verimi orantılı olarak düşer. ÇKA sınıflandıncısının bir diğer dezavantajı ise belirli bir problem için, optimum ağ mimarisinin, deneme ve yanılma yoluyla bulunmasıdır. İkinci alanda yapılan çalışmalarda, farklı SOM sımflandıncılan, Türkçe konuşmacı setinin eğitimi ve test edilmesi için, kullanılmıştır. SOM, ÇKA modeli ile karşılaştırdığında, her bakımdan daha iyi sonuç vermiştir. Daha sonra, SOM mimarileri, TIMIT veritabam için, yine sınıflandıncı şeklinde kullanılmıştır. Yaptığımız çalışmalar, TMIT veritabamnı kullanan diğer çalışmalarla karşılaştınldığmda, diğer çalışmalar kadar iyi sonuç vermiştir. Keywords: Artificial Neural Networks, Supervised and Unsupervised Learning, Speaker Recognition, Text Dependent Closed Set Speaker Recognition, Text Independent Open-Closed Set Speaker Recognition. Abstract: In this study, Various Artificial Neural Networks (ANN) based Speaker Recognition Applications are realized. Multilayer Perceptron (MLP) and Self Organizing Map (SOM) ANN are methods of the supervised and unsupervised learning scheme. MLP and SOM models are used as classifiers for speaker's patterns. Feature Extraction is an important stage in the speaker recognition. In this study, Linear Prediction Coding (LPC) based various algorithms are used for extraction of the feature vectors. Especially cepstral coefficients method is the most satisfied algorithm. Studies can be examined in two major areas: first one is the text dependent closed set speaker recognition with various MLP architectures and second is text independent open-closed set speaker recognition with SOM architectures. At the SOM outputs, use of Associative Memory Model (AMM) as decision unit is proposed for the speaker identification applications. In the first area Turkish speaker set is used and constituted by the 10 speakers with their name and surname. Each utterance is repeated 8 times, 5 of them is used in training and remaining in the test stage. When the number of words and speakers in the set increase, the MLP classifier would take too long to build and train. Also the recognition rate is dropped proportionally. Another weakness of MLP recognizers is the network architecture that is optimal for a specific problem should be found by trail and error. In the second area, different SOM architectures are used as classifier for training and testing Turkish speaker set. When SOM is compared with MLP, SOM is found better than MLP in all aspects. And then SOM architectures are used again as classifier for TBVIIT database. When our study is compared with different studies for TIMIT database, our studies give good results as much as the others.
Collections