Yapay ses üretim yöntemleri
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
ÖZET Bu çalışmada yapay ses Liretimi konusu ele alınmış ve bu amaçla kullanılan doğrusal öngörümleme yönteminin değişik teknikleri incelenmiştir. Bu yöntemler temelde insanın ses üretim sistemini model olarak alır. Ses sentezi için ele alınan model, periyodik bir darbe dizisi veya gürültü kaynağı ile uyarılan bir süzgeç seklindedir. öncelikle ses üretimi ile ilgili temel kurallar ele alınmış, çeşitli ses üretim modelleri incelenmiştir. Doğrusal öngörümleme analiz yöntemlerinin gözönüne aldığı modelde, uyartım kaynağının perde peryodu ve öngörümleyici parametreleri belirlenir. - öngörümleyici parametrelerinin belirlenmesi için özilişki yöntemi, kafes yöntemi ve kafes-kovaryans yöntemi kullanılır. Bu yöntemlerin ortak yanı, öngörümlenen ses ile doğal ses arasındaki hatanın karesinin küçültülmeye çalışılmasıdır. Perde peryodunun belirlenmesi için, cepstrum, düzeltilmiş özilişki ve ortalama genlik farkı fonksiyonu yöntemleri kullanılır. Bu yöntemler kullanılarak sesli- sessiz ses belirlemesi de yapılır. Sesin sentezlenmesinde bulunan bu parametreler kullanılır. Gözönüne alınan modelde, doğrusal öngörümleyicinin parametreleri ve girişindeki uyartım kaynağının periyodu belirli aralıklarla (5-20 ms) güncelleştirilir. Çıkışında ise sentezlenmiş ses elde edilir. III SUMMARY In this thesis, the speech synthesis have been studied and, various linear prediction methods have been examined. Basically these methods consider the human speech system as a model. The model considered for speech synthesis is a filter which is excited with a impulse train or noise source. Firstly, the basic rules for the speech synthesis are considered and the various models to produce speech are examined. The pitch period of the excitation source and the paremeters of the linear predictor are determined in the model considered by the linear predictive analysis methods. To determine the paremeters of the linear predictor, the autocorrelation, lattice and covariance-lattice methods are used. The common respect in these methods is to minimize the squared error between the linear predicted speech and the natural speech. For determining the pitch period, cepstrum, modified autocorrelation and avarage magnitude difference function methods are used. Using these methods voiced- unvoiced speech is also determined. These parameters are used for the speech synthesis. In the considered model, the parameters of the linear predictor and the period of the excitation source IVare updated for certain time intervals, e.g. for a period of 5-20 ms. The output is the synthesized speech obtained. V
Collections