Clothing image retrieval with triplet capsule networks
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Kıyafet resmi erişimi Bilgisayar Bilimleri'ndeki bazı önemli gelişmelerden ve e-ticaret'in doğuşundan sonra daha da önemli hale gelmiştir. Yakın dönemdeki çalışmalarda bu problemin çözümü için genel olarak Evrişimli Sinir Ağları (ESA) kullanılmıştır. Popülaritesine rağmen, ESA'lar, doğaları gereği, parçalar arası hiyerarşik konumsal bilgi kaybı ve afin dönüşümlerine dayanıklı olmama gibi bazı yerleşik sınırlamalara sahiptir. Yeni önerilen Kapsül Ağları mimarisi, resimlerdeki parça-bütün ilişkisini ve poz bilgisini koruyarak bu sınırlamaları ortadan kaldırabilme özelliğine sahiptir. Bu tezde, dinamik yönlendirme algoritması ile çalışan, nöronları yoğun bağlı Kapsül Ağları'nın vitrin kıyafet resimlerine erişim performansını araştırdık. Buradan yola çıkarak, iki farklı öznitelik çıkartma metoduyla tasarlanmış Triplet-bazlı Kapsül Ağ mimarileri önerdik: İstifli-evrişimsel (SCCapsNet) ve Artık-bağlı (RCCapsNet) Kapsül Ağları. Vitrin kıyafet resmi erişimine yönelik önerilen mimari tasarımlarımızın deneysel sonuçları, SCCapsNet'in %32.1 en-yüksek-1, %81.8 en-yüksek-20 ve %90.0 en-yüksek-50 recall-at-K skorlarına ulaştığını gösterirken; RCCapsNet ise %33.9 en-yüksek-1, %84.6 en yüksek-20 ve %92.6 en-yüksek-50 recall-at-K skorlarıyla daha da iyi bir performans ortaya koymuştur. Bu rakamlar referans çalışmasının ve daha öncül yaklaşımların performanslarıyla karşılaştırıldığında, resimlere ek olarak hiçbir ilave destekleyici bilgi kullanmayan her iki tasarımımız da önemli bir farkla daha önde bir performans sergilemiştir. Ayrıca, önerdiğimiz Triplet Kapsül Ağları, modern mimarilerde kullanılan parametre sayısının sadece yarısı kadar parametre kullanarak, modern mimariler ile kıyaslanabilir sonuçlar elde etmiştir. İlerleyen dönemde, tasarımlarımız, nispeten yeni Kapsül Ağları araştırmalarındaki gelişmelerden yola çıkarak ekstra performans artışı alabilir. Clothing image retrieval has become more important after some major developments in Computer Science and the emergence of e-commerce. Recent studies generally attack this problem by using Convolutional Neural Networks (CNNs). Despite their popularity, CNNs, by nature, have some intrinsic limitations such as losing the hierarchical spatial relationship between the parts of an image, and not being robust to affine transformations. Most recently proposed network architecture, namely Capsule Networks, has the ability to overcome these limitations by preserving the part-whole relationship and pose information in the images. In this thesis, we investigate in-shop clothing retrieval performance of densely-connected Capsule Networks with dynamic routing. To achieve this, we propose Triplet-based designs of Capsule Network architecture with two different feature extraction methods: Stacked-convolutional (SCCapsNet) and Residual-connected (RCCapsNet) Capsule Networks. Experimental results of our proposed designs on in-shop clothing retrieval show that SCCapsNet achieves 32.1/% Top-1, 81.8/% Top-20, and 90.0/% Top-50 recall-at-K scores; whereas RCCapsNet has even better performance with 33.9/% Top-1, 84.6/% Top-20, and 92.6/% Top-50 recall-at-K scores. These figures demonstrate that both of our designs outperform the baseline study and the earlier approaches by a wide margin without using any extra supportive information besides to the images. Moreover, when compared to the SOTA architectures on clothing retrieval, our proposed Triplet Capsule Networks achieve comparable recall rates with only half of the parameters used in the SOTA architectures. In the future, our designs may inherit extra performance boost due to advances in the relatively new Capsule Network research.
Collections