Show simple item record

dc.contributor.advisorHacıhabiboğlu, Hüseyin
dc.contributor.advisorTemizel, Alptekin
dc.contributor.authorİlerialkan, Atil
dc.date.accessioned2020-12-10T09:11:37Z
dc.date.available2020-12-10T09:11:37Z
dc.date.submitted2019
dc.date.issued2020-02-05
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/224890
dc.description.abstractKonuşmadan çıkarılan akustik özellikler, biyometrik konuşmacı tanımlama veya birinci şahıs eylemlerinin kestirimi gibi problemlerde yaygın olarak kullanılır. Ancak, konuşma verilerinin kullanımı, konuşma içeriğinin açık bir şekilde kullanılabilir olması nedeniyle gizlilik konusundaki endişeleri artırmaktadır. Bu tezde konuşma aralarındaki nefes verilerini kullanarak konuşma ve vücut pozisyonu sınıflandırması için bir yöntem öneriyoruz.Bu yöntemde akustik anlık yan bilgi, Hilbert-Huang dönüşümü kullanılarak nefes örneklerinden çıkarılır. Anlık frekans, büyüklük ve faz özellikleri, içsel kip işlevleri kullanılarak çıkarılır ve bunların farklı kombinasyonları, sınıflandırma için CNN-RNN ağına beslenir. Ayrıca, hem bu tezdeki deneylerimiz hem de gelecekteki çalışmalarımız için genel erişime açık bir nefes veri seti, BreathBase'i oluşturduk. BreathBase, önceden hazırlanmış rastgele sözler içeren metinleri 4 farklı mikrofonla 5 farklı vücut pozisyonunda okuyan 20 katılımcının kayıtlarında tespit edilen 5000'den fazla nefes örneği içermektedir.Konuşmanın nefes bölümlerinden elde edilen yan bilgileri kullanarak, bu yöntemle 20 konuşmacı arasında /% 87 konuşmacı sınıflandırma ve /% 98 duruş sınıflandırma doğruluğu elde edilmiştir. Önerilen ağ ayrıca SVM, LSTM ve kNN-DTW tekniklerinin birleştirilmesi gibi diğer yöntemlerden daha iyi performans göstermiştir.
dc.description.abstractAcoustic features extracted from speech are widely used for problems such as biometric speaker identification or first-person activity detection. However, use of speech data raises concerns about privacy due to the explicit availability of the speech content. In this thesis, we propose a method for speech and posture classification using intra-speech breathing sounds. The acoustical instantaneous side information was extracted from breath instances using the Hilbert-Huang transform. Instantaneous frequency, magnitude, and phase features were extracted using intrinsic mode functions, and different combinations of these were fed into a CNN-RNN network for classification. We also created a publicly available breath dataset, BreathBase, for both our experiments in the thesis and future work. BreathBase contains more than 5000 breath instances detected on the recordings of 20 participants reading pre-prepared random pseudo texts in 5 different postures with 4 different microphones.Using side information acquired from breath sections of speech, 87/% speaker classification and 98/% posture classification accuracy is obtained among 20 speakers with this method. The proposed method outperformed various other methods such as support vector machines, long-short term memory and combination of k-nearest neighbor and dynamic time warping techniques.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectMühendislik Bilimleritr_TR
dc.subjectEngineering Sciencesen_US
dc.titleSpeaker and posture classification using instantaneous acoustic features of breath signals
dc.title.alternativeNefes sinyallerinin anlık akustik özelliklerini kullanarak konuşmacı ve duruş sınıflandırması
dc.typemasterThesis
dc.date.updated2020-02-05
dc.contributor.departmentModelleme ve Simülasyon Anabilim Dalı
dc.subject.ytmVoice recognition systems
dc.subject.ytmSpeech recognition systems
dc.subject.ytmVoice recognition
dc.subject.ytmSpeech recognition
dc.subject.ytmMachine learning
dc.subject.ytmSpeech recognition
dc.subject.ytmMachine learning methods
dc.subject.ytmDeep learning
dc.subject.ytmTime-frequency
dc.identifier.yokid10314392
dc.publisher.instituteEnformatik Enstitüsü
dc.publisher.universityORTA DOĞU TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid607259
dc.description.pages83
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess