İşitsel sahnelerin tanınması için çevresel ses analizi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Ses verileri, içerisinde birçok ses türünü barındırır ve çokluortam uygulamaları için önemli bir kaynaktır. Bu çalışmada ofis ortamından alınmış 16 ayrık ses olayının (alarm, boğaz temizleme, öksürük, kapı çarpması, çekmece, klavye, anahtar, kapı vurma, gülme, bilgisayar faresi, sayfa çevirme, nesnenin masaya çarpması, telefon, yazıcı, konuşma ve elektrik düğmesi) analizi ve sezimi sağlanmıştır. Bununla birlikte 10 işitsel sahnenin (otobüs, kalabalık sokak, ofis ortamı, açık market, park, sessiz sokak, restoran, süpermarket, tren ve tren istasyonu) ayrık olarak sınıflandırılması gerçekleştirilmiştir. Ayrıca, sezimlenen ses olayları ile veri kümesindeki `ofis` işitsel sahnesi arasındaki ilintiler incelenmiştir. Ses örneklerinin içerik tanımlaması için Mel frequency cepstral coefficient (MFCC) özniteliği, Destek Vektör Makineleri (DVM) öğrenme algoritması ile birlikte kullanılmıştır. MFCC ve DVM için parametre eniyilemesi yapılmış ve öznitelik çıkarımı için uyarlamalı bir frekans analiz yöntemi önerilmiştir. Audio data contains several sound types and is important source for multimedia applications. In this thesis, we present a system for analysing and detecting 16 distinct audio events namely; alert, clear throat, cough, door slam, drawer, keyboard, keys, knock, laughter, mouse, pageturn, pen drop, phone, printer, speeh and switch that are collected from office live environments. The recognition of 10 different auditory scenes (bus, busy street, office, open airmarket, park, quiet street, restaurant, supermarket, tube and tubestation) is also performed in the study. Moreover, correlations between audio scenes and audio events are investigated. Support Vector Machine (SVM) classifier along with the Mel Frequency Cepstral Coefficient (MFCC) feature are used throgh the analyses. In addition, we propose an adaptive frequency analysis scheme for feature extraction and perform optimizations for feature representation and classifier design.
Collections