Visual place recognition with dtw based encoded deep features
dc.contributor.advisor | Al-Qaraleh, Saed Abdel Wahhab Reshıd | |
dc.contributor.author | Tello, Ammar | |
dc.date.accessioned | 2020-12-06T16:48:36Z | |
dc.date.available | 2020-12-06T16:48:36Z | |
dc.date.submitted | 2020 | |
dc.date.issued | 2020-04-21 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/106771 | |
dc.description.abstract | Optik Yer Tanımlama (VPR) teknikleri otonom robotların ve sürücüsüz araçların, bir tek görsel girdiler kullanarak ucuz ve doğru bir şekilde yer belirleme imkanı sağlamaktadır. Önceden, Global Konumlandırma Sistemini kullanan algılayıcı tabanlı sistem GPS ve bunun yanı sıra mesafe algılayıcısı sık kullanılmıştır. Ancak, sinyal sonuç çıkarımında maliyet ve korunmasızlık gibi dezavantajlar ve bunula birlikte görsel algılayıcı (Kamera) kalite geliştirmesi gibi sistemlerin, görsel tabanlı sistemlerle değiştirilmesine yol açmaktadır.Bu sistem tabanlı cihazı bilgi ile zengin bir girdi elde edebilir ve VPR dahil, çok çeşitli uygulamalar için dikkate değer bir öneme sahiptir. Sonuç olarak, birçok görüntüleme tekniği incelenmiş ve farklı görüntü tanımlayıcıları yerelleştirme algoritmalarına yerleştirilmiş ve çevredeki ortamın farkında olacak bir sistem tıpkı insan gibi yapmayı amaçlanmaktadır. Bu tezde, yeni bir VPR yaklaşımı gösterilmiş ve Dinamik Zaman Çarpıtma (DTW) tekniği kullanılarak Fisher Vector (FV) vasıtasyla kodlanacak olan Evrişimli Sinir Ağı (CNN) yapısından çıkarılan özellikleri kullanılmıştır. Daha ayrıntılı anlatmak gerekirse, özellikler; önceden eğitilmiş bir CNN'den ihraç edilir, daha sonra kodlanması için FV'ye beslenir, sonunda DTW algoritmasına itilir ve referans görüntüler ve yeni gelen görüntüler arasında (test görüntüleri) en iyi eşleşmeleri bulmak için bu şekilde kullanılır. Ayrıca, DTW'ye en fit olanı bulmak için farklı CNN yapılarının performansı araştırıldı ve tüm yapı katmanlarının performansı karşılaştırıldı. Bundan başka, el yapımı özelliklerin, derin özelliklerle değiştirme avantajı da incelenmiştir.Bu çalışmanın ana hedefi, Hayatın farklı gerçek zorluklarıyla yüzleşebilecek sağlam bir yaklaşım geliştirmek ve FV ile kodlanmış derin özellikleri daha sağlam özellikler elde edilmesine yol açabileceğine inanıyoruz. Basettiğimiz bu girişm diğer klasik yaklaşımlara karşı ters olduğu değerlendirilmişti, Özellikle SVM olanı bizim yaklaşımımızdan ve bilhassa veri kümeleri işlenmesi gerektiğinde daha iyi performans gösterip yalnız açı ve / veya görünüm gibi bazı zorlukları bulunmaktadır | |
dc.description.abstract | Visual Place Recognition (VPR) techniques have opened the possibilities for autonomous robots and driverless cars to localize itself in a cheap and accurate way using only visual input. Previously, sensors-based system, which uses GPS and distance sensors were frequently used. However, its disadvantages such as the cost and the vulnerability to the signal inference, in addition to the quality improvement in the visual sensor (Camera) lead to replacing such systems with visual-based systems. This system-based is capable of getting input rich with information that is important for a wide range of applications including VPR. As a result, many visualization techniques were examined and multiple categories of image descriptors were injected into some localization algorithms, for the purpose of making a system that is able to be aware of the surrounding environment just like humans. In this thesis, a new VPR approach is introduced. This approach uses the Dynamic Time Warping (DTW) and features extracted from a Convolutional Neural Network (CNN) architecture that will be encoded by the Fisher Vector (FV). In more detail, the features are extracted from a pre-trained CNN, then, fed into FV to be encoded and finally pushed to the DTW algorithm that will be used to find the best matches between the reference images and the new coming images (test images). In addition, the performance of different CNN architectures was investigated to find the best architecture fit with DTW, and the performance of all layers from all architectures was compared as well. Furthermore, the advantage of replacing the handcrafted features with deep features was also studied. As the main aim of this work is to develop a robust approach that can face real-life challenges, the deep features are encoded with FV, which we believe can lead to getting more robust features. Our approach was evaluated against other classical approaches, SVM in particular, which was outperformed by our approach especially when it is required to process dataset(s) that has some challenges such as the viewpoint and/or appearance. | en_US |
dc.language | English | |
dc.language.iso | en | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.title | Visual place recognition with dtw based encoded deep features | |
dc.title.alternative | Dtw bazlı kodlu derin özelliklerle görsel yer tanıma | |
dc.type | masterThesis | |
dc.date.updated | 2020-04-21 | |
dc.contributor.department | Elektronik ve Bilgisayar Mühendisliği Anabilim Dalı | |
dc.identifier.yokid | 10326776 | |
dc.publisher.institute | Fen Bilimleri Enstitüsü | |
dc.publisher.university | HASAN KALYONCU ÜNİVERSİTESİ | |
dc.identifier.thesisid | 619710 | |
dc.description.pages | 71 | |
dc.publisher.discipline | Diğer |