Tek adımda öğrenme yaklaşımı ile el hareketlerini sınıflandırma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde insan bilgisayar etkileşimi kapsamında herhangi bir araç kullanmadan insan hareketlerini tanıma işlemi büyüyen araştırma alanlarından biridir. Bu nedenle birçok araştırmacı insan hareketlerini tanımak için çeşitli yaklaşımlar önermiştir. Bu yaklaşımların bir kısmı önceden hareket hakkında bilgi gerektirmektedir. Diğer kısmı ise büyük veri kümelerine ihtiyaç duymaktadır. Tek adımda öğrenme yaklaşımı önceden hareket hakkında bilgi veya büyük miktarda veri gerektirmez. El hareketleri insanların yaşamlarında önemli bir rol oynamaktadır. Böylece, el hareketi tanıma sistemi, insanların bilgisayarla etkileşime girmesi için yenilikçi ve doğal bir yol sunmaktadır. Bu çalışma tek adımda öğrenme yaklaşımını kullanarak el hareketlerini sınıflandırmayı amaçlamaktadır. Tek adımda öğrenme yaklaşımı bir videoda bulunan hareketi tek bir görüntü ile temsil etmektedir. Çalışmada yaklaşımı uygulamak için standart sapma (SS), hareket geçmiş görüntüsü (HGG) ve 2 boyutlu hızlı Fourier dönüşümü (2B HFD) yöntemleri kullanılmıştır. SS yöntemi ile içinde hareket vbulunduran bir video, yalnızca bir görüntüye dönüştürülmüştür. Ancak bu yöntem hareketin geçmiş bilgisini koruyamamaktadır. Bu nedenle çalışmada SS yöntemi ile birlikte HGG yöntemi de kullanılmıştır. Yöntem hareketin geçmiş bilgisini korumakla birlikte hareketin yön bilgisini de korumaktadır. Ayrıca kamera kaymasından oluşabilecek yanlış sınıflandırmayı engellemek için 2B HFD yöntemi kullanılmıştır. Bütün bu yöntemler iki farklı veri kümesi üzerinde uygulanmıştır. İlk veri kümesi, zengin fakat karmaşık bir yapıya sahip olan ChaLearn veri kümesidir. İkinci veri kümesi ise Kinect v2 kamera kullanarak bizim oluşturduğumuz karışık veri kümesidir. Veri kümeleri içinde eğitim ve test verilerini karşılaştırıp, eşleşen hareketleri sınıflandırmak için mesafe ölçümleri ve çapraz korelasyon kullanılmıştır. Bu mesafe ölçümleri Levenshtein, Frobenius ve Mahalanobis'tir. Çalışma sonuçları incelendiğinde ChaLearn veri kümesine uygulanan yöntemlerin %76.15 başarı ve karışık veri kümesine uygulanan yöntemlerin %84.1 başarı elde ettiği gözlemlenmiştir. Ek olarak Levenshtein mesafe ölçümü ile yapılan sınıflandırma, diğer mesafe ölçümleri ile yapılan sınıflandırmalardan daha doğru bir sonuç vermektedir. Nowadays, the process of recognizing human gestures without using any vehicle of human computer interaction is one of the growing research areas. Therefore, many researchers have suggested various approaches to recognize human gestures. Some of these approaches require prior knowledge about the gesture. The other part needs very large datasets. The one-shot learning approach does not require prior knowledge about the gesture or a large amount of data. Hand gestures play an important role in people's lives. Thus, the hand gesture recognition system provides an innovative and natural way for people to interact with the computer. This study aims to classify hand gestures using one-shot learning approach. The one-shot learning approach represents the gesture in a video with a single frame. In order to apply the approach in the study, standard deviation (STD), motion history image (MHI) and 2 dimensional fast Fourier transform (2D FFT) methods were used. A video containing gesture within the STD method was converted into only one frame. However, this method cannot preserve the history knowledge of the gesture. Therefore, MHI method was used with STD in the study. The method preserves the historical knowledge and the direction of gesture. In addition, 2D FFT method was used to prevent misclassification from camera shift. All these methods were applied to two different datasets. The first dataset is a very rich and complex ChaLearn dataset. The second dataset is mixed dataset that we created using the Kinect v2 camera. Distance measurements and cross-correlation were used to compare training and test data in datasets and to classify matching gestures. These distance measurements are Levenshtein, Frobenius and Mahalanobis. When the results of the study were examined, it was observed that the methods applied to the ChaLearn dataset achieved success of 76.15% and the methods applied to the mixed dataset achieved 84.1% success. In addition, it is observed that Levenshtein distance measurement supplies a more accurate classification compared to other distance measurement.
Collections