Show simple item record

dc.contributor.advisorAkduman, İbrahim
dc.contributor.authorYillikçi, Giray
dc.date.accessioned2020-12-07T09:58:09Z
dc.date.available2020-12-07T09:58:09Z
dc.date.submitted2019
dc.date.issued2019-10-03
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/127605
dc.description.abstractBu tezde tıpkı yaşayan canlılarda olduğu gibi kulakların ve gözünlerin beraber çalışması elektronik ortamda gerçekleştirilmesi yapılmıştır. Çoğu gelişmiş canlıda olduğu gibi gözlerin görüş açısı 160 dereceyi geçmemektedir. 360 derece görme yetisinin olmaması beyinde görüntü işlemenin çok yük getirmesindendir. Gözlerin görmediği açılarda duyu organlarından yararlanarak ortam farkındalığı elde edilir. Tıpkı duyulan sese doğru görüş açımızın çevrilmesi gibi bu çalışmada canlılardaki duyuların beraber çalışması yaklaşımı araştırılmıştır. Duyulardan gelen bilgileri entegre ederek ortam farkındalığı edinmenin başlıca üç avantajı vardır. Öncelikle iki basit farklı ortam sensörünün beraber çalışarak yaptığı anlamlandırma yüksek başarımlı bir sensörün yapacağı anlamlandırmadan özellikle bilinmeyen ortamlarda daha yüksektir. Sistem bu şekilde daha esnekleşerek bilgi edinebilceği ortam yelpazesini genişletmektedir. İkinci olarak iki göreceli daha basit sensörün işlem yükü yüksek başarımlı bir sensörden daha az yük getirmektedir. Böylece dış ortamlarda daha uzun çalışabilir ve maliyeti daha düşük olmaktadır. Son olarak entegre çalışan sensörlerden biri devre dışı kalsa dahi ortamdan kısıtlı olsa da farkındalık alınabilmektedir ancak tek sensörlü sistemlerde olacak bir bozukluk tüm sistemin devre dışı kalmasına sebebiyet verecektir.Özellikle son zamanlarda teknolojiye artan ilgi ve kendin yap akımı ile bir çok işlemci ve benzeri elektronik ürünler kolaylıkla bulunabilir hale gelmiştir. Buna ek olarak gerçek zamanlı görüntü ve ses işleme algoritmaları son yıllarda büyük yol almış olması ve tasarımdan prototiplemeye geçişte zaman-maliyet ikilisini aşağa çekilmesi tasarımları pratikte gerçeklemeye imkan vermiştir. Çalışmada yüksek başarımlı görüntü işleyen yapay sinir ağları algoritmalarına işitsel bilgi öncülük ettirilerek farkındalık arttırımı sağlayan bir akış anlatılmaktadır. Çoklu mikrofon seti ile yön ve içerik tanıma yapılmaktadır. Mantık akışında öncelikle çevre görültüsü dinlenerek sınıflandırılacak sesler arasında takip edilmesi gereken bir ses duyuldugunda, sesin geliş açısı çoklu mikrofon seti ile belirlenir. Sonrasında aranan sesin kaynağını görsel olarak bulabilmek için servoya bağlı kamera hesaplanan yöne doğru döndürülür. Ses kaynağına aday görsel objeler bu mekanizma ile diğer aday objelerden ayıklanarak daha yüksek başarımlı tanıma ve takip yapabilme olanağı sağlar. Ses ve görüntü sınıflandırma için aynı Konvolüsyon Sinir Ağı kullanılarak sisteme yüklenen hesaplama yükü en elverişli halde kullanılır. Bu amaç için ses bilgisi spektrogramlara çevirilerek sesin resimselleştirilmesi sağlanmıştır. Tüm sınıflandırma ve obje tespitleri gerçek zamanlı yapılmaktadır.Gelen ses yönünün tahmini yapmak için bir düzlemde bir karenin dört köşesine yerleştirilmiş 4 mikrofondan yararlanılır. Gelen sesin yönünü belirlemesi mikrofonlara aynı ses sinyalinin varış zamanlarının farkının hesaplanmaktadır. Yalnız belirtilmelidir ki bu yaklaşım sadece impals sesler için yeterliyken süreklilik gösteren seslerin aynı başarımla yön tahmini yapabilmek için mikrofonlara varan seslerin çapraz korelasyonlarının hesaplanması gerekmektedir. Böylelikle sesin geldiği yön bu sayede doğrulukla hesaplanır. Sesin kaynağından çıkış zamanı bilinmediğinden koordinatı hesapanamaz ancak geldiği açı hesaplanabilmektedir. Buna ek olarak ses dalgalarını geliş açısının tespitini olumsuz etkileyecek olan yankı ve gürültü giderme algoritmaları prototiplemede kullanılan Respeaker V2 kartında bulunmaktadır. Bu sayede alt paragrafta anlatılan ses sınıflandırılması için temiz veri sağlamaktadır.Ses tanıma sistemi algoritması için öncelikle seslerin zaman boyutunda kayıt edilmiş ses örneklerinin yapay zeka eğitimi için resimleştirilmesi gerekmektedir. Resimleştirmenin başlıca nedeni kullanılan konvolüsyonel sinir ağının iki boyutlu tercihen renkli girdilerle çalışmasıdır. Ses örnekleri olarak UrbanSoun8K veriseti kullanılmış olup 10 farklı sınıftan oluşan örnekler içerir. Bu 10 sınıf şöyledir. Köpek havlaması, siren, çalışan motor, oynayan çocuklar, klima, silah, çekiç, korna, matkap ve sokak müziği seslerinden oluşmaktadır. Resimleştirme işlemleri için belli adımların izlenmesi gerekmektedir. Zaman boyutunda kayıt edilmiş sesler 4 saniye zarfına sığacak şekilde ayarlanır. Ayrıca seslerin hepsi 16 bitlik wav formatı olacak şekilde saklanmıştır. Ayarlanan ses örnekleri insan kulağının daha hassas olduğu Mel frekanslarındaki frekans aralıklarının ses örneklerinde yükseltilmesi ve daha az belirginlikteki frekansların ise sönümlenmesini yapar. Sonrasında Mel frekanslarının güçlendirildiği ses örnekleri 50 milisaniyelik bölümler halinde kısa süreli Fourier dönüşümünden geçirilir. Fourier dönüşümünden geçirilen bölümler arka arkaya eklenerek ses örneğinin spektrogramı çıkartılır. Spektrogramların şiddet aralıklarını normalize etmek için doğrusal şiddet gösteriminden logaritmik şiddet gösterimine çevrilir. Logaritmik çevrimi yapılan sesler resimsel tanımada kullanılan konvolüsyonel sinir ağı eğitimi için kullanılır. Çalışmada obje tespiti kısmı ses sınıflandırılmasında olduğu gibi konvolüsyonel sinir ağı kullanılarak yapılmıştır. Çalışma kapsamında tek görüntü karesinden çoklu kutu tespitinden yararlanılmıştır. Bu yöntemle görüntü değişik boyutlardaki özellik çıkarıcılarla etkileştirilerek büyükten küçüğe ve uzundan yayvana matriksler oluşturulur. Oluşturulan matrikslerin içinde obje adaylarının puanlamaları çıkarılır ve en yüksek puana ait obje bahsi geçen pencere içinde bulunmuştur çıkarımı yapılır. Obje tespitinde ek olarak görüntüye bir sınıf atamaktansa görüntü üzerinde çeşitli boyutlarda kullanılan pencere methodu ile bulunan obje adayları birden fazla farklı objenin aynı görüntü üzerinde bulunması sağlar. Ancak aynı obje için birden fazla bulunan obje adaylarının ayıklanması gerekmektedir. Bu amaçla yakın komşuluklardaki ve aynı objeye ait obje adaylarının en yüksek yüzdelisi dışındaki diğer obje adayları görmezden gelinir. Yapılan sadeleştirme işlemi ile aynı objenin birden fazla işaretlenmesinin önüne geçilir. Kameradan alınan video akışında tespit edilen objeler saklanır ve ses eşleştirilmesi için program akışına dahil edilir.Çalışma akışındaki son aşama sınıflandırılan ses ile bulunan objenin birbirlerine etiketlenmesidir. Ses sınıfları ve obje tipleri arasında kurulan ilişki matriksine bakılarak önceklikle ses sınıfına ait obje tipi belirlenir sonrasında kameranın döndüğü yönde bahsi geçen objenin olup olmadığı kontrol edilir, eğer obje bulunursa bulunan obje ilişki matriksiyle eşlendirilir. Sonuç olarak eşleme ses sınıfı ve obje tipi olarak ekrana bastırılır. Eşleştirilme başarısız olsa dahi sınıflandırılan ses ve bulunan obje yazdırılır ancak eşleme oluşmadığı yazdırılır.
dc.description.abstractIn this thesis, in most intelligent machine perception, sensing approaches require a novel approach to diminish computational burden over the system to increase the outcome object detection, object tracking, developed to understand the environment.The main area of the study is to give real-time audio classification whose outputs would feed to the visual classification algorithms designed in the form of active audio-visual perception. The detection, localization, and tracking of the sound source are the main goal of audition and vision perception independently. Multiple signal classification based on Convolutional Neural Network method has employed for sound source localization and classification in audition modality.An audio-visual pipeline has introduced for enhancing the awareness of visual classification and tracking by introducing auditory classification and direction estimation for the sound emitters in the surrounding environment, for this purpose, trending visual machine learning algorithms that have very high successive rates selected as the one end of the pipeline. At the starting of the pipeline, the surrounding sounds have classified, and if any of them are subject to track, the camera mounted servo rotated to the estimated direction for looking any object that would be the source emitter. The pipeline uses the very same CNN for also visual object detection which optimizes the computational load on the overall system.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleContext aware audio-visual environment awareness using convolutional neural network
dc.title.alternativeKonvolüsyonel sinir ağı kullarak ses ve görüntü aracılığıyla ortam farkındalığı
dc.typemasterThesis
dc.date.updated2019-10-03
dc.contributor.departmentİletişim Sistemleri Anabilim Dalı
dc.identifier.yokid10256821
dc.publisher.instituteBilişim Enstitüsü
dc.publisher.universityİSTANBUL TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid564136
dc.description.pages67
dc.publisher.disciplineUydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess