Comparison of text-independent speaker verification systems in a multi-class, semi-automatic detection scenario
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Konuşmacı doğrulama sistemlerinin başarısı tipik olarak bu sistemlerin ikili karar vermedekidoğruluguna dayanarak ölçülür. Sistemlerin gerçek değerli çıktıları çoğunluklasistem kalibrasyonu veya çoklu sistem kombinasyonları gibi amaçlar doğrultusundakullanılır. Ancak, finans firmalarının çagrı merkezleri gibi yerlerde kullanılan ve%100'e yakın kesinlik gerektiren konuşmacı doğrulama uygulamalarında, varolan sistemlerinikili kararlarına güvenmek mümkün değildir. Yine de bu tür durumlarda,konuşmacı doğrulama sistemi tarafından döndürülen çoklu-sınıf doğrulama çıktıları(örnegin yüksek, orta, düşük doğrulama yüzdesi) çagrı merkezi temsilcisi tarafından,sadece insan olan senaryoya göre doğrulama süresini kısaltmak ve/veya doğrulamakesinliğini arttırmak için kullanılabilir.Bu tezde ilk olarak gerçekleyip kullandığımız algoritmaları detaylı bir şekilde anlatarakbir konuşmacı doğrulama sisteminin genel görünümünü vereceğiz. Bilhassabir doğrulama amacı için ilk defa bizim kullandığımız, bir sınıflandırıcı olan GDAhakkında detaylı bilgi vereceğiz. GDA bizim ele aldığımız problemdeki gibi doğrusalolmayan verilerin sınıflandırılmasında görece olarak daha iyi çalışıyor. Deneyler bölümündeise öncelikle bazı çok bilinen konuşmacı doğrulama sistemlerinin başarımlarını klasikbaşarım ölçütlerini kullanarak karşılaştırdık. Daha sonra, doğrulama döngüsündebir çagrı merkezi temsilcisinin de olduğunu varsayarak, bu sistemlerin çoklu-sınıfbaşarımlarını karşılastırdık. Başarım, temsilcinin güvenlikten ödün vermeden sorması gereken soru miktarındaki azalmaya göre ölçüldü. Deneyler NIST 2006 ve2008 veritabanları kullanılarak gerçekleştirildi. Herbiri beşer dakikalık olan bir vesekiz karşılıklı konuşmadan alınan kayıtlar ses imzalarının çıkarımında kullanıldı.Doğrulama yapılacak konuşma içinse beş dakikalık bir ve on saniyelik bir kayıt kullanıldı. Performance of the speaker verication systems is typically measured based on theirbinary decision accuracy. Soft outputs of the systems are used mostly for calibrationor multiple system combination purposes. However, in speaker verication applicationswhere close to 100% accuracy is required, such as the systems that are used inthe call centers of nance companies, it is not possible to rely on the binary decisionsof the existing verication systems. Still, in such cases, multi-class verication outputs(for example, high, medium and low verication score) returned by the speakerverication systems can be used by a human agent to either reduce the vericationtime and/or increase the verication accuracy compared to a human-only scenario.In this thesis, an overview of a speaker verication system is given explaining indetail the algorithms that are implemented. Particularly the details about a classi-er, GDA, which was rstly used by us for a verication purpose are given. It doesrelatively better job than state of the art algorithms for non-linear data like in ourcase. In the experiments section, some of the most popular speaker verication systemsare compared in terms of the classical performance metric used in the literature.Then, multi-class output performance of them is compared when a human agent isassumed to be in the verication loop. Performance is measured by the reductionin the number of questions used by the human agent for verifying the identity ofthe caller without compromising the security. Experiments are performed using theNIST 2006 and 2008 databases. Eight and one conversation sides (5 minutes each)enrollment data and 1 side and 10 seconds verication data conditions are used.
Collections