Bird call detection using deep learning
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezde, kuş sesi tespiti için farklı derin öğrenme yöntemlerini karşılaştırıyoruz. Bu amaçla, dijital sinyal işleme yöntemleri kullanılarak, birden fazla alandan kayıt içeren ses veri setlerimiz, mel spektrogram görüntüleri, mel frekanslı sepstral katsayıları (MFCC) veya gammaton frekanslı sepstral katsayıları olarak dönüştürülmektedir. Evrişimli sinir ağımız (CNN) için girdi katmanı, evrişim katmanı, normalizasyon katmanı, aktivasyon katmanı, havuz katmanı, tam bağlantılı katman ve sınıflandırma katmanı gibi farklı katmanlar kullanılmaktadır. Gri tonlamalı mel spektrogram görüntüleri, CNN'imizi katman boyutları, katman sayısı, giriş boyutları ve eğitim seçenekleri gibi farklı parametre ayarları ile eğitmek için kullanılmaktadır. Öte yandan, çıkarılan gammaton frekanslı sepstral katsayıları ve mel frekanslı sepstral katsayıları, tekrarlayan sinir ağı (RNN) dayalı çift yönlü ve tek yönlü uzun kısa süreli bellek ağlarının (LSTM) özellikleri olarak kullanılmaktadır. Hem MFCC hem de GTCC, basit bir sinir ağı algoritması için girdi olarak da kullanılmaktadır. Her iki uzun kısa süreli bellek ağımızda, karşılaştırma için farklı sayıda LSTM kullanılmaktadır. Algılamanın doğruluğu, alıcı çalışma karakteristikleri eğrisinin altındaki alanı (AUC) hesaplama metodu kullanılarak farklı parametreler için tüm yöntemler için doğrulanmaktadır. In this thesis, we compare different deep learning methods for bird sound detection. For this purpose, by using digital signal processing methods, our audio data sets containing recordings from multiple fields are turned into features as mel spectrogram images, mel frequency cepstral coefficients (MFCC) or gammatone frequency cepstral coefficients (GTCC). For our convolutional neural network (CNN), we use different layers such as input layer, convolution layer, normalization layer, activation layer, pooling layer, fully connected layer and classification layer. The gray scale mel spectrogram images are used to train our CNN for different parameter settings such as layer sizes, layer numbers, input sizes and training options. On the other hand, extracted gammatone frequency cepstral coefficients and mel frequency cepstral coefficients are used as features for recurrent neural network (RNN) based bidirectional and unidirectional long short term memory networks (LSTM). Both MFCC and GTCC are also used as input for a simple neural network algorithm. For both of our long short term memory networks, we use different number of LSTM for comparison. Accuracy of the detection is validated for all methods for different parameters using area under curve (AUC) of receiver operating characteristics.
Collections