Local representations and random sampling for speaker verification
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son on yılda, metin bağımsız konuşmacı tanıma alanında yapılan calışmalar konuşmacıiçi değişintileri modelleme esnasında giderme üzerine odaklanmıştır. Konuşmacı içideğişintiler kanal etkilerinden, fonetik içerikten, veya konuşma stili, duygusal durum,sağlık ve benzeri sebeplerle konuşmacının kendisinden kaynaklanabilir. Ortak FaktörAnalizi, Toplam Değişkenlik Uzayı, Sıkıntı Öznitelik İzdüşümü literatürde oturumlararası değişkenlikleri gidermede kullanılan yöntemlerin en başarılılarındandır.Bu çalışmada, önerilen metodlardaki kanal uzayının düşük boyutlu olma varsayımınıirdeledik ve akustik uzayı yerel bölgelere ayırmayı önerdik. Konuşmacı içi değişintilerher yerel bölgede bağımsız olarak bastırıldı. İleriki modelleme ve skorlama safhalarınınyerel mi yoksa global mi yapılacağına bağlı olarak iki farklı yapı önerildi.Konuşmacı içi değişintinin elemanlarından biri olan oturum içi değişkenlikler üzerindede çalışıldı. Oturum içi değişkenliklerin ana kaynağı bir ses dosyasının farklı kısımlarıarasındaki fonetik içerik farklılıklarıdır. Fonetik içerik farklılıkları, akustik birimlerarası değişintilerden kaynaklanabileceği gibi aynı akustik birimin farklı çıkarımlarındanda kaynaklanabilir. Bu değişintileri giderme amaçlı olarak, eğitim verisinin rasgeleörneklenmesine dayalı bir metod önerdik. Önerilen metodun hem kısa hem de uzuntest verilerinde etkin olduğu gösterildi. In text-independent speaker verification, studies focused on compensating intra-speakervariabilities at the modeling stage through the last decade. Intra-speaker variabilitiesmay be due to channel effects, phonetic content or the speaker himself in the form ofspeaking style, emotional state, health or other similar factors. Joint Factor Analysis,Total Variability Space compensation, Nuisance Attribute Projection are some of themost successful approaches for inter-session variability compensation in the literature.In this thesis, we criticize the assumptions of low dimensionality of channel space in thesemethods and propose to partition the acoustic space into local regions. Intra-speakervariability compensation may be done in each local space separately. Two architecturesare proposed depending on whether the subsequent modeling and scoring steps will alsobe done locally or globally.We have also focused on a particular component of intra-speaker variability, namelywithin-session variability. The main source of within-session variability is the differencesin the phonetic content of speech segments in a single utterance. The variabilities inphonetic content may be either due to across acoustic event variabilities or due to differencesin the actual realizations of the acoustic events. We propose a method to combatthese variabilities through random sampling of training utterance. The method is shownto be effective both in short and long test utterances.
Collections