Show simple item record

dc.contributor.advisorTekalp, Ahmet Murat
dc.contributor.advisorErzin, Engin
dc.contributor.advisorYemez, Yücel
dc.contributor.authorKanak, Alper
dc.date.accessioned2020-12-08T08:21:53Z
dc.date.available2020-12-08T08:21:53Z
dc.date.submitted2003
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/171684
dc.description.abstractÖZETÇE Bu tezde, metne bağlı çoklu ortamlı bir konuşmacı tamma sistemi tanıtılmıştır. Amaç, geleneksel tek ve çift ortamlı tanıma sistemlerinin başaranını arttırmaktır. Önerilen sis tem, bir video akımında bulunan üç temel ortamı birleştirir: ses, yüz dokusu ve du dak hareketi. Video akımının her çerçevesi arasındaki dudak hareketi özdudak katsayıları ile hesaplandıktan sonra bu katsayılar bir öznitelik vektörüne dönüştürülür. Elde edilen öznitelik vektörleri, tüm akım boyunca doğrusal aradeğerlenerek ses işaretinin oram ile eşleştirildikten sonra mel-frekans kepstral katsayılarla (MFCC) birleştirilir. Sonuçta elde edilen birleşik öznitelik vektörleri, Saklı Markov modeli tabanlı bir tanıma sisteminde eğitim ve sınama amacıyla kullanılır. Yüz dokusu ise bir özyüz etki yöresinde ayrıca işlenerek karar füzyonu aşamasında sisteme katılır. Deneysel sonuçlar sistem başarımmin gösterilmesi için teze eklenmiştir.
dc.description.abstractABSTRACT In this thesis we present a multimodal text-dependent speaker identification system. The objective is to improve the recognition performance over conventional unimodal or bimodal schemes. The proposed system decomposes the information existing in a video stream into three modalities: voice, face texture and lip motion. Lip motion between successive frames is first computed in terms of eigenlip coefficients and then encoded as a feature vector. The feature vectors obtained along the whole stream are linearly interpolated to match the rate of the speech signal and then fused with mel frequency cepstral coefficients (MFCC) of the corresponding speech signal. The resulting joint feature vectors are used to train and test a Hidden Markov Model (HMM) based identification system. Face texture images are treated separately in eigenface domain and integrated to the system through decision-fusion. Experimental results are also included for demonstration of the system performance. IVen_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBiyolojitr_TR
dc.subjectBiologyen_US
dc.subjectElektrik ve Elektronik Mühendisliğitr_TR
dc.subjectElectrical and Electronics Engineeringen_US
dc.titleMultimodal speaker identification with audio-video processing
dc.title.alternativeÇoklu-ortam ses-görüntü işleme ile biometrik konuşmacı tanıma
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentElektrik ve Bilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid144095
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityKOÇ ÜNİVERSİTESİ
dc.identifier.thesisid136750
dc.description.pages70
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess