Structured and sequential representations for human action recognition
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnsan edimlerini tanılama en zorlu bilgisayarla görü problemlerinden biridir ve çok geniş uygulama alanlarına sahip olması bakımından oldukça önemli bir rol oynamaktadır. Video verisinden insan edimlerini analiz etmek amacıyla, bu çalışmada yapısal ve ardışık gösterimleri göz önüne aldık. Her bir edimi, imge dizilerinde, uzam-zamansal ilgin noktaları ve görünüşe dayalı öznitelikler ile betimlerken, derinlik verisinde ise bir iskelet dizisi şeklinde ifade ettik. Bu bağlamda, insan edimlerini tanılama problemini hiper-çizge eşleme ile formüle ettik. Bilindiği üzere, hiper-çizge eşleme NP-tam bir problemdir. Verimli bir şekilde çözüme ulaşmak amacıyla, bu çalışmada problemi iki aşamada indirgedik. İlk aşamada, insan edimlerinin zamanda ardışıklık özelliklerini göz önüne aldık. İndirgenmiş problemin dinamik programlama tekniği ile verimli bir şekilde çözülebileceğini gösterdik. İkinci aşamada ise çizge modelini seyrek bir ilgin nokta kümesinden oluşturarak yaklaşıkladık. Yaklaşımımız literatürdeki yöntemler ile başa baş bir sonuç vermektedir. Geliştirilen algoritmayı aynı zamanda derinlik verisine ve edim tanılama literatüründe farklı bir probleme uyguladık. Buradaki amaç, insanların bir eğitmen önderliğinde verilen edimleri hangi ölçüde doğru yaptığını öznel olarak nicelemektir. Hiper-çizgeye dayalı önerilen yöntem doğru ve yanlış hareketlerin ayırt edilmesi ve yürütülen bir edime öznel bir puan atanması problemlerine uygulanmıştır. Ayrıca, edim tanılama probleminin Saklı Markov Modelleri ile alternatif bir formülasyonunu önerdik. Sık kullanılan parametre kestirimi yöntemi beklenti-enbüyütme algoritmasının yerine, bu çalışmada yeni bir parametre kestirimi yönteminin pratik uygulanması vurgulanmaktır. Bu parametre kestrimi yöntemi, insan edimlerinin sınıf-içi çeşitliliğini etkin bir biçimde ele almak amacıyla, edim sınıfı başına çoklu Saklı Mavkov Modellerinin sonsuz katışımının öğrenilmesinde kullanılmıştır. Human action recognition problem is one of the most challenging problems in the computer vision domain, and plays an emerging role in various elds of study. In this thesis, we investigate structured and sequential representations of spatio-temporal data for recognizing human actions and for measuring action performance quality. In video sequences, we characterize each action with a graphical structure of its spatio-temporal interest points and each such interest point is qualied by its cuboid descriptors. In the case of depth data, an action is represented by the sequence of skeleton joints. Given such descriptors, we solve the human action recognition problem through a hyper-graph matching formulation. As is known, hyper-graph matching problem is NP-complete. We simplify the problem in two stages to enable a fast solution: In the rst stage, we take into consideration the physical constraints such as time sequentiality and time irreversibility for the actions; in the second stage we approximate the problem using a sparse subset of spatio-temporal interest points. The reduced problem is then elegantly solved with the dynamic programming technique. Our approach results in competitive performance gures vis-a-vis the state-of-the-art action recognition algorithms. The proposed hyper-graph matching formulation has also been applied to the problem of the quality of action rendition. Finally, we present an alternative formulation of the action recognition problem via Hidden Markov Models (HMMs). To learn HMM parameters, contrary to the conventional approach, Expectation-Maximization algorithm, we demonstrate the practical employment of a spectral algorithm. Given the large variations in action sequences, we resort to a clustering scheme for exploring the subgroups in the training data and for learning multiple HMMs per action category.
Collections