İnsansı robotların yürüme becerilerinin derin pekiştirmeli öğrenme algoritmalarıyla geliştirilmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnsansı robotlar için sağlam bir hareket geliştirmek, onlarca yıldır araştırılan zorlu bir problemdir. Çeşitli yürüme yaklaşımları önerilmiş ve yürüme performansı önemli ölçüde geliştirilmiş olsa da, kararlılık konusunda hala beklentilerin gerisinde kalmaktadır. Pekiştirmeli öğrenme yaklaşımları için düşük yakınsama ve eğitim verimliliği, uygulamaları sınırlandırmaktadır. Bu sınırlamaların üstesinden gelmek için bu tez çalışmasında, Robotis-OP2 insansı robotuna dayalı olarak geleneksel yörünge üreteci kontrolör ve Derin Pekiştirmeli Öğrenme (DPÖ) ile birleştirilmiş etkili bir çerçeve önerilmiştir. Bu çerçeve, oluşturulan yürüyüş yörüngesi parametrelerinin optimizasyonu ve duruş dengeleme sisteminden oluşmaktadır. Webots simülatöründe DPÖ algoritmalarından Düello Çift Derin Q Ağı (Düello ÇDQA) kullanılarak yürüyüş parametreleri optimize edilmiştir. Duruş dengeleme sistemi için kalça stratejisi benimsenmiştir. Önerilen çerçeve ve Robotis-OP2 insansı robotunun kendi yürüme algoritması ile hem simülasyon hem de gerçek ortamda deneysel çalışmalar gerçekleştirilmiştir. Deneysel sonuçlar, robotun önerilen çerçeve ile robotun kendi yürüme algoritmasına göre düz yürüme görevinin daha kararlı bir şekilde gerçekleştirildiğini göstermiştir. Tez çalışması kapsamında daha sonra, robotun eğimli yüzeylerde kararlı bir şekilde yürüyebilmesi için PID kontrolör ve DPÖ kontrolörden oluşan iki ayrı yürüyüş dengeleme çerçevesi önerilmiştir. DPÖ kontrolör olarak DDPG (Derin Deterministik Politika Gradyanı) algoritması tercih edilmiştir. PID kontrolör ile gerçekleştirilen deneysel çalışmalarda robotun duruşu gerçek zamanlı olarak ayarlanarak gövde yunuslama açısının istenilen referans değerde olması sağlanmıştır. DDPG kontrolör ile robotun eğimli yüzeylerde dengeli yürüyüşünün sağlanabilmesi için robotun gövde yunuslama açısının sıralı hareket dizisi öğrenilmiştir. Deneysel sonuçlar, DPÖ kontrolörün PID kontrolöre göre daha kullanışlı olduğunu ve daha kararlı bir yürüme sağladığını göstermiştir. Developing robust locomotion for humanoid robots is a challenging problem that has been researched for decades. Although various walking approaches have been proposed and walking performance has been significantly improved, it still falls short of expectations in stability. Low convergence and training efficiency for reinforcement learning approaches limit their applications. To overcome such limitations, an effective framework based on Robotis-OP2 humanoid robot combined with traditional trajectory generator controller and Deep Reinforcement Learning (DRL) is proposed in this thesis. This framework consists of the optimization of the gait trajectory parameters and the posture stabilization system. In the Webots simulator, gait parameters are optimized using the Dueling Double Deep Q Network (D3QN), one of the DRL algorithms. The hip strategy is adopted for the posture balancing system. Experimental studies are carried out in both simulation and real environment with the proposed framework and the Robotis-OP2 humanoid robot's own walking algorithm. Experimental results show that the robot performs the task of straight walking with the proposed framework more stable than the own algorithm of the robot. Later, within the scope of the thesis, two separate gait stabilization frameworks, consisting of a PID controller and a DRL controller, are proposed for the robot to walk stably on sloped surfaces. The DDPG (Deep Deterministic Policy Gradient) algorithm is preferred as the DRL controller. In the experimental studies performed with the PID controller, the posture of the robot was adjusted in real-time to ensure that the body pitch angle is at the desired reference value. With the DDPG controller, the sequential movement sequence of the robot's body pitch angle is learned in order to ensure the robot's balanced walking on inclined surfaces. Experimental results show that the DRL controller is more useful than the PID controller and provides a more stable gait.
Collections