Spoofing and anti-spoofing techniques for text-independent speaker verification systems
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son yıllarda konuşmacı doğrulama alanında önemli ilerleme olmuştur. I-vectöre dayalı yaklaşım yüksek performansı nedeniyle dikkat çekmiştir. Doğrulama teknolojisindeki gelişmeler ayrıca savunmasız i-vektöre dayalı metotlara karşı spoofing (yanıltıcı) saldırılara dair kaygılara yol açtı. Burada, biz ilk olarak saldırganın hedef konuşmacıdan elde ettiği limitli veri ile istatiksel ses sentezi (İSS) yöntemine karşı i-vektörüne dayalı doğrulama sisteminin savunmasızlığını inceledik. Ancak, bilindiği gibi İSS yönteminden elde edilen konuşmanın anlaşılması genlik ve faz spektrumdan elde edilen karakteristikler ile mümkündür. Bu yüzden, biz daha etkili saldırılar için, hibrid istatiksel/birleştirmeli sentezleme tasarladık ve hibrid sentezlemenin istatiksel yönteme göre doğrulama sistemlerinde yanlış alarm oranını önemli ölçüde arttırdığını gösterdik. Ek olarak, tasarlanan hibrid sentezleme, orijinal sesten alınan verilerin az olması durumunda bile sentetik sesin anlaşılmasını daha zor hale getiriyor. Saldırının etkinliğini ilerletmek için sentetik karakteristikleri daha doğal karakteristiklere dönüştüren doğrusal regresyon yöntemi tanımladık. En iyi performansı sağladığı gösterilen ara değer kestirimi yaklaşımı regresyon ve hibrid sentezleme yönteminin birleştirilmesiyle tasarlandı. Ayrıca, fazladan gürültü eklendiğinde istatiksel ses sentezi ile yapılan yanıltıcı(spoofing) atakların etkinliğini inceledik. Deney sonuçları sentetik sese gürültü eklendiğinde atakların önemli ölçüde daha etkili olduğunu göstermiştir. Ayrıca i-vektörler içinde session farkı kullanarak sentetik ve doğal sesi ayırt eden bir sentetik ses detektörü tasarladık. Bir çok durumda gürültülü koşullarda detektörün 0.5%'den daha düşük hata oranı aldığını deneysel yöntemle gösterdik. Üçüncü katkı olarak, SAS kütüphane adı verilen konuşmacı doğrulama ve yanıltmaya karşı koruma veritabanının oluşumunda yer aldık. Kütüphanede ikisi ses sentezi ve yedisi ses dönüşümü teknikleri olmak üzere dokuz adet yanıltma tekniği içeriyor. standart konuşmacı doğrulama değerlendirme ve yanıltma gereçleri için iki farklı protokol dizayn edildi. Bu yüzden, konuşmacı doğrulama yanıltma ve yanıltmaya karşı koruma bilgisi olmadan ses sentezi topluluğunun aşamalı olarak spoofing (yanıltıcı) gereçlerin üretmelerine izin verildi. Ön sonuçları sağlamak için en gelişmiş sistemleri kullanarak iki farklı konuşmacı doğrulama deneyi yürüttük. Herhangi bir yanıltmaya karşı koruma tekniği uygulanmadığında, bu iki sistem SAS veritabanı kullanılarak yapılan yanıltıcı ataklara karşı son derece savunmasızdır. Bu çalışma daha sonra ilk otomatik konuşmacı doğrulama yanıltma ve karşı önlem challenge doğmasını sağlamıştır. Biz bu challenge katıldığımızda Gaus karışım modeline dayalı detektörlerin içindeki her bir çerçevenin, bölümün olabilirlik oranı skorlarının ağırlığı, birim sesler ve ses dosyalarının ne kadar bilgi taşıdığıyla ilgili 3 algoritma araştırdık. Bu metotlar kısa ve uzun yapay kısımları belirliyor ve bu olay bu metotları bütün bölümlerin ve birim seslerin eşit etkide olduğu bazal sistemden daha güvenilir yapıyor. Detektörlerin öğrenme aşamasında kullanılan atak yöntemleri bilindiğinde bazal sistemde önemli gelişme elde edildi. Fakat, yabancı ataklara çeşitlerine karşı bir gelişme mevcut değil. There has been substantial progress in the speaker verification field in recent years. I-vector based approach in particular received significant attention due to its high performance. Improvements in the verification technology also led to concerns about spoofing attacks to which the i-vector based methods are vulnerable. Here, we first investigated the vulnerability of an i-vector based verification system to attacks using statistical speech synthesis (SSS) with a particular focus on the case where the attacker has only a very limited amount of data from the target speaker. However, it is well-known that speech that is generated with SSS is easy to detect using features that are extracted from the magnitude or the phase spectrum. Therefore, for more effective attacks, we propose a hybrid statistical/concatenative synthesis approach and show that hybrid synthesis significantly increases the false alarm rate in the verification system compared to the baseline statistical synthesis method. Moreover, proposed hybrid synthesis makes detecting synthetic speech more difficult even when very limited amount of original speech recordings are available to the attacker. To further increase the effectiveness of the attacks, we propose a linear regression method that transforms synthetic features into more natural features. An interpolation approach is proposed to combine the regression and hybrid synthesis methods which is shown to provide the best spoofing performance. Furthermore, we investigated the effectiveness of spoofing attacks with statistical speech synthesis systems when there is additive noise. Experiment results show that the attacks get substantially more effective when noise is added to synthetic speech. We also propose a synthetic speech detector that uses session differences in i-vectors to detect between synthetic and natural speech. We experimentally show that the detector has less than 0.5% total error rate in most cases for the matched noise conditions. As a third contribution, we present our participation in generation of the first version of speaker verification spoofing and anti-spoofing database, named SAS corpus. The corpus includes nine spoofing techniques, two of which are speech synthesis, and seven are voice conversion. Two protocols were designed, one for standard speaker verification evaluation, and the other for producing spoofing materials. Hence, they allow the speech synthesis community to produce spoofing materials incrementally without knowledge of speaker verification spoofing and anti-spoofing. To provide a set of preliminary results, we conducted speaker verification experiments using two state-of-the-art systems. Without any anti-spoofing techniques, these two systems are extremely vulnerable to the spoofing attacks implemented in our SAS corpus. This work later gave birth to the first automatic speaker verification spoofing and countermeasures challenge. In our participation in this challenge, we investigated three algorithms that weigh likelihood-ratio scores of individual frames in Gaussian mixture model based detectors, phonemes, and sound-classes depending on how much information they carry. The proposed methods learn to detect both short-time and long-time artifacts which make them more reliable compared to a baseline system that treats all frames and phonemes with equal weight. Significant improvement over the baseline system has been obtained for known attack methods that were used in training the detectors. However, improvement with unknown attack types was not substantial.
Collections