Data-driven modeling using reinforcement learning in autonomous agents
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
öz Hazırlanan bu tez bazı yapay zeka öğrenme metodlarını makina mühendisliği bakış açısından incelemektedir. Bilgisayar teknolojisindeki gelişmeler pek çok disiplinde olduğu gibi makina mühendisliğinde de problem çözme metodlarını geriye döndürülemez bir şekilde değiştirmiştir. Hazırlanan bu tezin amacı geçmiş deneyimlerine dayanarak öğrenebilen bir sistem geliştirmektir, özelde ise, deneme yanılma ile öğrenen otonom bir ajan geliştirmektir. Bu amacı gerçekleştirmek için bağlantısal yapay sinir ağları takviyeli öğrenme metodları ile birleştirilmiştir. Ve sistemin o anki çıktısı ile yakınsamaya çalıştığı değer arasındaki farkı en küçüklemeye çalışan klasik kredi atama metodu yerine, geçici başarılı hamleler arasındaki farkı en küçüklemeye çalışan geçici farklar metodu kullanılmıştır. Bu yeni metodun avantajı olaylarla yalnız sonuç arasındaki ilşkiyi değil aynı zamanda olayların birbiriyle olan ilşkilerini de yakalamaya çalışmasıdır. Ayrıca bu tez çalışması sırasında K-means algoritmasında değişiklikler yapılmış, çeşitli çok tabakalı algılayıcı algoritmaları C++ ortamında gerçeklenmiştir. Bu algoritmalar Backpropagation, Radial Basis Function Network, Radial Basis Function Link Net, Self-organized neural network, k-means algoritmalarıdır. Bu algoritmalar takviyeli Öğrenme metodlarından geçici farklar metodu ve Q-learning algoritmaları ile birlikte C++ ortamında gerçeklenmiştir. Sonuç olarak, uygulanan takviyeli öğrenme metodlarının gerçek problemlere uygulanmasına engel olan iki yönü olduğu görülmüştür bunlar; programların öğrenme sürelerinin çok uzun ve yapay sinir ağlarını eğitebilmek için gerekli olan girdi sayısının çok fazla olmasıdır. İleride yapılacak çalışmalarda bunların iyileştirilmesi gerekmektedir. ıı ABSTRACT This research has aspired to build a system which is capable of solving problems by means of its past experience, especially an autonomous agent that can learn from trial and error sequences. To achieve this, connectionist neural network architectures are combined with the reinforcement learning methods. And the credit assignment problem in multi layer perceptron (MLP) architectures is altered. In classical credit assignment problems, actual output of the system and the previously known data in which the system tries to approximate are compared and the discrepancy between them is attempted to be minimized. However, temporal difference credit assignment depends on the temporary successive outputs. By this new method, it is more feasible to find the relation between each event rather than their consequences. Also in this thesis k-means algorithm is modified. Moreover MLP architectures is written in C++- environment, like Backpropagation, Radial Basis Function Networks, Radial Basis Function Link Net, Self-organized neural network, k-means algorithm. And with their combination for the Reinforcement learning, temporal difference learning, and Q-leaming architectures were realized, all these algorithms are simulated, and these simulations are created in C++ environment. As a result, reinforcement learning methods used have two main disadvantages during the process of creating autonomous agent. Firstly its training time is too long, and too many input parameters are needed to train the system. Hence it is seen that hardware implementation is not feasible yet. Further research is considered necessary.
Collections