Ses sinyallerinden yaş grubu ve cinsiyet bilgisinin tahmin edilmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Teknolojinin hızla gelişimi, büyük veri teknolojilerinin artışı ve veri depolama ve işleme yöntemleri ile daha fazla meşguliyet; konuşma tanıma sistemlerinin önemini ileri ölçüde artırmıştır. Konuşmacının cinsiyetini ve yaş aralığını belirleyebilmek ise konuşma tabanlı uygulamalarda büyük önem arz etmektedir.Uygulama alanı olarak çocuk seslerini ayırmaya yönelik çalışmalar; çocuklarda ortaya çıkan disleksi gibi bazı konuşma bozukluklarının tanımlama aşamasında veya çocuklara yönelik geliştirici interaktif oyun programlarında önem kazanmaktadır. Ayrıca yetişkin seslerini ayırmaya yönelik çalışmalarda ise insan kaçırma, tehdit telefonları, yanlış ihbarlar gibi kriminal durumlarda konuşmacının karakteristik özelliklerini daha iyi tanımlamayacak verilere ulaşabilmesi, polis istasyonlarına veya hastanelere gelen aramalarda yaşlı ve çocuk ses profillerine öncelik verilmesi veya müşterilerin daha iyi tanımlanabilmesi gibi durumlarda önem arz etmektedir. Bu çalışmada, konuşmacılardan alınan ses örneklerinden çeşitli yöntemlerle elde edilen öz niteliklerin kullanılması ile kişilerin cinsiyeti ve yaş grubu tahmin edilmiştir. İlkokul, ortaokul, lise ve üniversite öğrenci gruplarının her birinden 8 erkek ve 8 kız öğrencinin sesi alınmıştır. Bu dört grup için toplamda 64 öğrenciden ses kaydı alınmıştır. Veri seti için bir kısmı Türkçe 'de birleşim gücü yüksek kelimeler bir kısmı da sık kullanılan rastgele kelimelerden oluşan 32 adet Türkçe kelime seçilmiştir. Alınan ses örneklerinden öznitelik çıkarımı için literatürde sıkça kullanılan Mel-frekansı kepstral katsayıları (Mel-Frequency Cepstral Coefficients, MFCC) ve Doğrusal öngörüm kepstrum katsayıları (Linear predictive cepstrum coefficients, LPCC) yöntemleri kullanılmıştır. Ayrıca iki öz nitelik vektörünün elemanları beraber alınarak MF&LP karışım modeli denenmiştir. Elde edilen öznitelik vektörleri k en yakın komşu (KNN), yapay sinir ağları (YSA) ve destek vektör makineleri (DVM) gibi makine öğrenmesi yöntemleri kullanılarak sınıflandırılmıştır. Sınıflandırma performansı; yaş grubu tahmini için %96 civarında iken cinsiyet tespiti için %94,6 civarında olmaktadır. The rapid development of technology, the increase of large data technologies and the enhancement in occupation of data storage and processing methods has significantly increased the importance of speech recognition systems. The ability to determine the gender and age group of the speaker has great importance in speech-based applications. Studies considering application areas as distinguishing children voices are gaining significance in the process of detecting speech disorders such as dyslexia that occurs in children, or in improving interactive game programs for children. In addition, the studies have been done to distinguish adult voices can be utilized to access data which can characterize the characteristics of the speaker in criminal situations such as human abduction, threatening telephones and false alarms. It may serve in giving priority to elderly and child voices at police stations or hospital calls, withal it may lead to a better user-profiling the age interval of the customers. In this study, gender and age category of the speakers has been estimated based on the features extracted by various methods from the speech recording samples. The voices of 8 male and 8 female students were taken from each elementary school, secondary school and high school and university student groups. A total of 64 students' voice recordings were taken from these four groups. For the dataset, 32 Turkish words were chosen, some of which are high-word combinations in Turkish and some of which are frequently used random words.Mel-Frequency Cepstral Coefficients (MFCC) and Linear Predictive Cepstrum Coefficients (LPCC) methods, which are frequently used in the literature, have been used to extract the features from the speech samples. In addition, the MF&LP mixture model was tested by taking the elements of the two feature vectors together. Obtained feature vectors are classified using machine learning methods such as K nearest neighbors (KNN), Artificial neural networks (ANN), and support vector machines (SVM). Classification performance; for age group estimation is about 96% while for gender detection is around 94.6%.
Collections