Show simple item record

dc.contributor.advisorMaşazade, Engin
dc.contributor.authorYüksel, Cihan
dc.date.accessioned2020-12-29T06:42:15Z
dc.date.available2020-12-29T06:42:15Z
dc.date.submitted2020
dc.date.issued2020-08-27
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/337940
dc.description.abstractBu tezde, kuş sesi tespiti için farklı derin öğrenme yöntemlerini karşılaştırıyoruz. Bu amaçla, dijital sinyal işleme yöntemleri kullanılarak, birden fazla alandan kayıt içeren ses veri setlerimiz, mel spektrogram görüntüleri, mel frekanslı sepstral katsayıları (MFCC) veya gammaton frekanslı sepstral katsayıları olarak dönüştürülmektedir. Evrişimli sinir ağımız (CNN) için girdi katmanı, evrişim katmanı, normalizasyon katmanı, aktivasyon katmanı, havuz katmanı, tam bağlantılı katman ve sınıflandırma katmanı gibi farklı katmanlar kullanılmaktadır. Gri tonlamalı mel spektrogram görüntüleri, CNN'imizi katman boyutları, katman sayısı, giriş boyutları ve eğitim seçenekleri gibi farklı parametre ayarları ile eğitmek için kullanılmaktadır. Öte yandan, çıkarılan gammaton frekanslı sepstral katsayıları ve mel frekanslı sepstral katsayıları, tekrarlayan sinir ağı (RNN) dayalı çift yönlü ve tek yönlü uzun kısa süreli bellek ağlarının (LSTM) özellikleri olarak kullanılmaktadır. Hem MFCC hem de GTCC, basit bir sinir ağı algoritması için girdi olarak da kullanılmaktadır. Her iki uzun kısa süreli bellek ağımızda, karşılaştırma için farklı sayıda LSTM kullanılmaktadır. Algılamanın doğruluğu, alıcı çalışma karakteristikleri eğrisinin altındaki alanı (AUC) hesaplama metodu kullanılarak farklı parametreler için tüm yöntemler için doğrulanmaktadır.
dc.description.abstractIn this thesis, we compare different deep learning methods for bird sound detection. For this purpose, by using digital signal processing methods, our audio data sets containing recordings from multiple fields are turned into features as mel spectrogram images, mel frequency cepstral coefficients (MFCC) or gammatone frequency cepstral coefficients (GTCC). For our convolutional neural network (CNN), we use different layers such as input layer, convolution layer, normalization layer, activation layer, pooling layer, fully connected layer and classification layer. The gray scale mel spectrogram images are used to train our CNN for different parameter settings such as layer sizes, layer numbers, input sizes and training options. On the other hand, extracted gammatone frequency cepstral coefficients and mel frequency cepstral coefficients are used as features for recurrent neural network (RNN) based bidirectional and unidirectional long short term memory networks (LSTM). Both MFCC and GTCC are also used as input for a simple neural network algorithm. For both of our long short term memory networks, we use different number of LSTM for comparison. Accuracy of the detection is validated for all methods for different parameters using area under curve (AUC) of receiver operating characteristics.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectElektrik ve Elektronik Mühendisliğitr_TR
dc.subjectElectrical and Electronics Engineeringen_US
dc.titleBird call detection using deep learning
dc.title.alternativeDerin öğrenmeyi kullanarak kuş ötüşü tespiti
dc.typemasterThesis
dc.date.updated2020-08-27
dc.contributor.departmentElektrik-Elektronik Mühendisliği Anabilim Dalı
dc.identifier.yokid10308049
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityYEDİTEPE ÜNİVERSİTESİ
dc.identifier.thesisid632487
dc.description.pages90
dc.publisher.disciplineElektrik Elektronik Mühendisliği Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/embargoedAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/embargoedAccess