Reduced dimensional features for object recognition

Keser, Reyhan Kevser

dc.contributor.advisor	Töreyin, Behçet Uğur
dc.contributor.author	Keser, Reyhan Kevser
dc.date.accessioned	2020-12-07T10:00:36Z
dc.date.available	2020-12-07T10:00:36Z
dc.date.submitted	2018
dc.date.issued	2018-11-28
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/127927
dc.description.abstract	Gerçek verilerin çoğunluğu büyük boyutlu verilerdir. Ancak büyük boyutlu verilerin işlenmesi bazı nedenlerden ötürü zordur. Büyük boyutlu veriler büyük hesapsal yük oluşturur, daha çok bellek ve zamana ihtiyaç duyar ve görselleştirme açısından zorluklar barındırır. Büyük boyutlu verilerin işlenmesindeki bu zorluk literatürde `Boyutsallık laneti` olarak isimlendirilmiştir. Bu nedenle boyut indirgeme, verilerin işlenmesinde önemli bir basamak olarak karşımıza çıkmaktadır. Literatürde, boyut indirgeme üzerine birçok teknik önerilmiştir. Bu teknikler kullandıkları yöntemler açısından öznitelik seçme ve öznitelik çıkarma metodları olarak iki başlıkta toplanabilir. Veriyi dönüştürme biçimleri açısından ise doğrusal ve doğrusal olmayanlar olarak sınıflandırılabilir. Nesne tanıma ise bilgisayarla görü alanının, üzerinde çokça çalışılmış ve çalışılmaya devam edilen problemlerinden bir tanesidir. Nesne tanıma, görüntüdeki cisim veya cisimlerin anlamlandırılması anlamına gelmektedir. Nesne tanıma için kullanılan yöntemlerden bir kısmı öznitelik vektörlerinden faydalanmaktadır. Literatürde, bu amaçla tanımlanmış birçok öznitelik vektörü elde etme metodları önerilmiştir. Bu vektörlerden popüler üç tanesi, bu tez çalışması için seçilmiştir. Bunlar HOG (Histogram of Oriented Gradients - Yönlü Gradyanların Histogramı), SIFT (Scale - Invariant Feature Transform - Ölçekten Bağımsız Öznitelik Dönüşümü) ve SURF (Speeded - Up Robust Features - Hızlandırılmış Gürbüz Öznitelikler) vektörleridir. Bu tezde boyut indirgeme etkisi nesne tanıma problemi üzerinde incelenecektir ve öznitelik vektörlerinin nesne sınıflandırma başarımının artması hedeflenmektedir. Bu durumda farklı sınıflara ait veri noktaları arasındaki mesafeyi arttıracak yöntemler düşünülebilir. Ancak SIFT ve SURF vektörleri için böyle bir yöntem kullanılamaz. Çünkü bu vektörler tüm görüntüyü değil, görüntüdeki önemli noktaları betimleyen vektörlerdir. Görüntülerdeki önemli noktalar her zaman resme özgü olmak zorunda değildir, aynı önemli nokta birçok görüntüde birden bulunabilir. Bu nedenle, görüntülerin sınıflandırılmasında ve aynı zamanda nesne tanımada kullanılan yöntemler, sorgulanan görüntü ile en çok ortak veya benzer önemli nokta içeren resmin seçilmesiyle gerçekleşmektedir. Literatürde denetimli ve denetimsiz algoritmalar kullanılarak bu konuya ilişkin çalışmalar yapılmıştır. Denetimli algoritmalar SIFT ve SURF gibi yerel görüntü tanımlayıcıları için iki şekilde etiket bilgisi kullanmışlardır. Bunlar öznitelik vektörünün içinde bulunduğu görüntünün sınıf etiketini kullanmak veya öznitelik vektörlerini gruplandırarak etiket bilgisi elde etmek şeklindedir. Ancak iki yöntem de sakıncalıdır. Bir öznitelik vektörü yerel bilgiye dayalı olduğundan sadece bir nesne sınıfıyla bağdaştırılamaz ve yukarıda da belirtildiği gibi bu durum sınıf etiketi kullanmayı verimsiz kılmaktadır. Vektörleri gruplandırma stratejisinde ise kullanıcının belirlediği sayıda grup oluşturulmakta ve grup etiketleri vektör etiketi olarak kullanılmaktadır. Benzer şekilde kullanıcıya bağlı olan bu etiketleme aşaması da verimsizdir. Bu nedenle denetimsiz öğrenen algoritmalardan faydalanılmalıdır. Bu amaçla, bu çalışmada denetimsiz öğrenen bir yapay sinir ağı modeli olan otokodlayıcı kullanılmıştır. Otokodlayıcı temelde, özdeşlik fonksiyonunu öğrenmeye çalışmaktadır. Çünkü sistem çıktısı olarak girdiyi mümkün olduğu kadar tekrar çatması beklenmektedir. Otokodlayıcılar kodlayıcı ve kod çözücü iki bölümden oluşmaktadır. Kodlayıcı verilen girdiyi `kod`a dönüştürür, kod çözücü ise `kod`u çıktıya dönüştürmektedir. Kod bölümünün boyutu girdi boyutundan küçük seçilerek boyut indirgeme işlemi sağlanmaktadır. Çünkü bu şekilde tasarlanan sistemler çıktıyı daha küçük boyutlu olan koddan elde etmeye çalışmaktadır. Çıktıyı en iyi şekilde elde etmek için kodun girdiyi en iyi şekilde temsil ediyor olması gerekmektedir. Girdinin istenen boyutta en iyi şekildeki temsili olan kod, girdinin boyut indirgenmiş sonucu olarak karşımıza çıkmaktadır.Boyut indirgeme işlemi için otokodlayıcı kullanılmasının faydalarından biri otokodlayıcının yeni gelen veriye hazır bir model sunmasıdır. Buna ek olarak otokodlayıcı katmanlarında doğrusal olmayan fonksiyon kullanılmasıyla, verideki doğrusal olmayan ilişki yakalanabilir. Böylece doğrusal yöntemlere nazaran daha karmaşık verilerle baş edebilen bir çözüm sağlanmış olur. Otokodlayıcılar, farklı kısıtlamalar getirerek farklı amaçlar için de kullanılabilirler. Gürültü giderme ve seyrek betimleme amaçları bunlardan ikisidir. Bu çalışmada kullanılan otokodlayıcılar ise 3 adet gizli katman içeren, `vanilya otokodlayıcı` yapılarıdır. Kullanılan otokodlayıcılarda kod bölümü haricinde tüm katmanların boyutu girdiyle aynı seçilmiştir. Kod bölümü için ise girdinin ½ katı boyut seçilmiştir. Boyutu indirgenmiş vektörleri elde etmek için otokodlayıcı eğitildikten sonra verilen girdiye ilişkin kod bölümü alınmaktadır. Bu çalışmada obje tanıma problemi için Caltech-256 veri kümesinden 3 adet alt küme elde edilmiştir. Her bir küme 10 nesne sınıfına ait onbirer görüntüden meydana gelmektedir. Bu 11 görüntü ise kendi içinde 1+10 şeklinde ikiye ayrılmaktadır. Her nesne sınıfı için 1 görüntü, sınıf şablonu olarak kullanılmaktadır. Nesne sınıflarındaki kalan 10'ar görüntü ise obje tanıma işlemine sokulup, içindeki objenin belirlenmesi istenmektedir. Her bir alt kümede farklı öznitelik vektörleri üzerinde çalışılmıştır. Her bir küme için öncelikle, kümedeki görüntülerden ilgili öznitelik vektörleri elde edilmiştir. Bu vektörler henüz orjinal boyutlarında iken obje tanıma testi yapılmıştır. Ardından otokodlayıcı kullanarak boyut indirgeme işlemi gerçekleştirilip, obje tanıma testi tekrarlanmıştır. Her bir vektör grubu için 110 görüntü ile oluşturulan alt kümeler, otokodlayıcının test kümesi olarak kullanılmaktadır. Otokodlayıcının eğitimi için test kümesinin iki katı vektör içeren ve rastgele seçilmiş vektörlerden oluşan eğitim kümeleri kullanılmıştır. Sistem için oluşturulan doğrulama kümeleri ise test kümesindeki gibi 10 sınıfa ait 11'er görüntüden oluşmaktadır. Eğitim, test ve doğrulama kümelerinin farklı görüntüler kullanılarak oluşturulduğu not edilmelidir. Her kümede, görüntülerden ilişkili öznitelik vektörleri çıkarılmıştır. Yapılan nesne tanıma ve boyut indirgeme işlemleri bu vektörler üzerinde gerçekleşmektedir. Otokodlayıcılar sistem yakınsayana kadar bu eğitim kümeleriyle eğitilmiş, ardından test kümeleri sisteme sokularak boyutu indirgenmiş vektörler elde edilmiştir. Otokodlayıcı ile 1764 boyutlu HOG vektörleri 882, 128 boyutlu SIFT vektörleri 64 ve 64 boyutlu SURF vektörleri 32 boyuta indirgenmiştir. Kıyaslama amacıyla aynı boyut indirgeme işlemi, literatürde bu konu üzerine oldukça çalışılmış, Temel Bileşenler Analizi (PCA) ile de gerçekleştirilmiş ve sonuçlar sunulmuştur. Buna ilaveten oluşturulan kümelerdeki görüntüler gürültü ile bozularak gürültülü kümeler oluşturulmuş ve nesne tanıma işlemi gürültülü görüntülerden çıkarılan öznitelik vektörleri ile test edilmiştir. Ardından bu vektörler de otokodlayıcı ve Temel Bileşenler Analizi (PCA) kullanılarak boyut indirgeme işlemine tabi tutulmuştur. Boyutu indirgenmiş bu vektörlerin nesne tanıma başarımları ölçülmüştürElde edilen sonuçlar, otokodlayıcıya dayalı boyut indirgemenin, öznitelik vektörleri kullanılarak nesne tanıma işleminin hem orjinal hem gürültülü görüntülerde başarımını arttırdığını göstermektedir. Bunun sebebinin, boyut indirgemenin verideki fazlalık bilgiyi ve gürültüyü gidermesi olduğu düşünülmektedir. Boyut indirgeme, sadece başarımı arttırmamıştır, aynı zamanda vektörlerin saklanması için gereken bellek miktarını azaltmaktadır.
dc.description.abstract	Object recognition is one of the substantial problems of computer vision area. Traditional solutions consist of feature based object recognition techniques. Hence, there are many studies which are proposed feature detection and description methods. Object recognition can be performed with high accuracy thanks to these robust features. However, these features suffer from their high dimensional structure, in other words `curse of dimensionality`. Hence, dimensionality reduction of the feature vectors is quite studied and methods that reduce computational load are proposed, in the literature. In this thesis, dimensionality reduction of visual features using autoencoders is proposed. And, the effect of dimensionality reduction of visual features are investigated on object recognition task. For this purpose, three well-known feature vectors are selected which are Histogram of Oriented Gradients (HOG), Scale Invariant Feature Transform (SIFT) and Speeded-Up Robust Features (SURF).To conduct experiments, three subsets of Caltech-256 dataset images are designed and HOG, SIFT and SURF feature vectors are obtained from these subsets. Dimensionality of these feature vectors are reduced to half using autoencoders. Then, object recognition is tested with original and reduced dimensional vectors with three different distance measures. Autoencoders which are unsupervised neural network algorithms, are selected for dimensionality reduction of feature vectors since autoencoders can capture nonlinear relationship in data, provide trained model for new inputs and do not need labels. Also, Principal Component Analysis (PCA) is used for dimensionality reduction of these feature vectors for comparison, since PCA is commonly used for dimensionality reduction of these vectors in the literature. Moreover, experiments using the proposed method and PCA, are repeated on images with noise and results are reported.The results show that object recognition accuracies are improved owing to dimensionality reduction. This shows that unnecessary features and noise are eliminated by dimensionality reduction. In addition to this, dimensionality reduction provides memory and time efficiency.	en_US
dc.language	English
dc.language.iso	en
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr_TR
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.title	Reduced dimensional features for object recognition
dc.title.alternative	Nesne tanıma için boyutu indirgenmiş öznitelik vektörleri
dc.type	masterThesis
dc.date.updated	2018-11-28
dc.contributor.department	Bilişim Uygulamaları Anabilim Dalı
dc.identifier.yokid	10208790
dc.publisher.institute	Bilişim Enstitüsü
dc.publisher.university	İSTANBUL TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid	520165
dc.description.pages	69
dc.publisher.discipline	Diğer

Files in this item

Name:: yokAcikBilim_10208790.pdf
Size:: 1.650Mb
Format:: PDF
Description:: File_10208790

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess