Real-time human hand pose estimation and tracking using depth sensors
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnsan eli bilgisayar sistemlerinde önemli bir iletişim aracı olmuştur. Eklemli iskelet modelleri ile giriş aygıtlarının ve hızlı bilgisayarların gelişimine kadar uğraşılamamıştır. Bu tezde derinlik algılayıcıları ile insan el pozu kestirimi için gerçek zaman ötesinde çalışan model tabanlı eklem metodları geliştirdik. Derinlik imgesinden öznitelik özütleme ve çıkarımı için Rasgele Karar Ağaçları (RDF) kullandık. RDF'leri şekil tanıma için uygulayarak başladık. Şekil tanımayı aynı derinlik resminde eklemler etrafında merkezlenmiş birden fazla şekli destekler biçimde geliştirdik. Mean shift algoritması kullanarak bu bölgelerin merkezlerindeki eklemleri kestirdik (RDF-C). Şekil tanıma ve eklem kestirimini birleştirip melez ağaçlarla kaliteyi arttırdık. RDF'ler piksel tanıma ile kullanıldığında kapatma durumlarına dayanıklı değiller. Bu problemi tanıma adımını atlayarak ve eklemleri kestirirken bağlanım kullanarak aştık. Bu metodlar gerçekçi olmayan biçimde eklemleri bağımsız olarak kabul ediyorlar. Bu yüzden tek resim tabanlı yöntemimizi modelin geometrik özelliklerini kullanarak geliştirdik (RDF-R+). 10 mm kabul eşiğinde doğruluk değerlerini sentetik ve gerçek veriler üzerinde hesapladık. RDF-C ve RDF-R+ metodlarını kıyasladığımızda doğruluk değerlerinin büyük artış gösterdiğini gözlemledik. Son olarak, tek resim temelli matodlarımızı dinamik hareketler izlemek için geliştirdik. Sentetik veriden kavrama hareketinin manifoldunu öğrendik. RDF kestirimlerimizi manifold üzerine izdüşümleyerek düzelttik ve Kalman süzgeci ile izledik. The human hand has become an important interaction tool in computer systems. Using the articulated hand skeleton for interaction was a challenge until the development of input devices and fast computers. In this thesis, we develop model-based super real-time methods for articulated human hand pose estimation using depth sensors. We use Randomized Decision Forest (RDF) based methods for feature extraction and inference from single depth image. We start by implementing shape recognition using RDFs. We extend the shape recognition by considering a multitude of shapes in a single image representing different hand regions centered around different joints of the hand. The regions are utilized for joint position estimation by running mean shift mode finding algorithm (RDF-C). We combine shape recognition and joint estimation methods in a hybrid structure for boosting the quality. RDFs, when used for pixel classification are not resistant to self-occlusion. We overcome this by skipping the classification, and directly inferring the joint positions using regression forests. These methods assume joints are independent, which is not realistic. Therefore, we conclude our single image based framework by considering the geometry constraints of the model (RDF-R+). The accuracies at 10 mm acceptance threshold are acquired for synthetic and real datasets. Comparing RDF-C and RDF-R+ methods respectively, we report significant accuracy increase. We finally extend single image methods to tracking dynamic gestures. We learn the grasping motion from synthetic data by extracting a manifold, and fix RDF estimations by projecting them onto the manifold. We then track the projections by using a Kalman Filter.
Collections