ACT-R based memory models of iterated prisoner`s dilemma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Tekrarlı Mahkum İkilemi oyunu sosyal, biyolojik ve yapay ortamlarda İşbirliği'nin araştırılması için önemli bir araçtır. Çeşitli davranış ve sinirbilim deneyleri insanların karmaşık karar verme ve bellek süreçleri olduğuna işaret etmektedir. Bu tez Tekrarlı Mahkum İkilemi oyunu için, ACT-R bilişsel mimarisi üzerinde geliştirilmiş dört farklı bellek modeli önermektedir.Bu çalışma, paramete uzayının detaylı bir incelemesini ve tüm veri noktaları için simulasyon sonuçlarını sunarak, Lebiere et al. (2000) tarafından geliştirilen önceki ACT-R tabanlı bellek modelinin eksiklerinin giderilmesini hedeflemektedir. Bunun yanında, önceki çalışmadan farklı olarak, bu çalışma her oyuncu için ayrı tanımlanabilir (deklaratif) bellek modülleri sağlamıştır. Üçüncü olarak, model davranışı modelin yalnızca kendisiyle değil, temel koşullu ve koşulsuz stratejilerle karşılaştığı durumlar için de incelenmiştir. Bu çalışma üç yeni Tekrarlı Mahkum İkilemi bellek modelini geliştirerek, öğretme stratejilerine karşı da işbirliğine erişilmesini amaçlamaktadır.Karar verme süreçlerinde, tüm bellek modelleri olası hamlelerin beklenen kazançlarını, o hamleyi yapmanın en muhtemel sonucuna göre değerlendirir. Birinci model, oyun geçmişini muhtemel sonuçların sıklığı ve zamansal yakınlığına göre kaydeder. İkinci model oyun sırasında deneyimlenen sonuç kalıplarını kaydetmektedir. Üçüncü modelin ise oyun geçmişi ile ilgili iki farklı bilginin de kullanıldığı iki adımdan oluşan bir karar verme süreci bulunmaktadır. Dördünce model amaç ve bellek modülleri arasında bağlantısal bir mekanizma kurarak sonuç geçmişini amaç modülünde tutulan bağlamsal bilgi ile birlikte kaydeder.Parametre ayarlarından sonra, her modelin tekrarlı oyunu kendisi ve temel oyun stratejileri ile oynadığı simulasyonlar yapıldı. Simülasyon sonuçlarına göre, tüm modeller koşulsuz stratejilerden faydalanmada ve onlara karşı kendilerini savunmada başarılı oldular. Öğretme stratejilerine karşı, her ne kadar öğrenme davranışı sergileseler de, üçüncü model hariç hiçbir model işbirliği dengesine ulaşamadı. Birinci, ikinci ve dördüncü modeller, öğrenen Pavlovian stratejisiden ve affedici öğretme stratejilerinden faydalanmayı öğrendiler. Tüm modeller temel stratejilere karşı öğrenme davranışı sergiledi.Her modelin tekrarlı oyunu kendine karşı oynadığı durumlarda, tüm modeller oyunların önemli bir bölümünde işbirliğine ulaşmayı başardılar. İkinci model dışında tüm modeller, insan davranışıyla tutarlı bir öğrenme davranışı sergilemektedir. Bunun yanında, yine insanlar gibi, simule edilmiş oyuncular da davranış kalıplarına göre öğrenen ve öğreten gruplar olarak sınıflandırılabilirler. Iterated Prisoner?s Dilemma game is an important tool for studying cooperation insocial, biological and artificial environments. Various behavioral and neuroscientificexperiments point to complex decision making and memory processes for human subjects.This thesis proposes four distinct memory models of Iterated Prisoner?s Dilemmagame that are built upon ACT-R cognitive architecture.This work aims to overcome the shortcomings of a previous ACT-R based memorymodel by Lebiere et al. (2000), by providing extensive exploration of the parameterspace and analysis of simulation results for all data points. Moreover, in contrastto previus work, this study introduces distinct declarative memory modules for eachplayer. Third, model behavior is analyzed for the cases where it plays the game not onlyagainst itself, but against basic condional and unconditional strategies as well. Finally,by implementation of three new memory models for Iterated Prisoner?s Dilemma, thisstudy intends to attain cooperation against teaching strategies.In decision making process, all memory models evaluate expected payoffs of possiblemoves according to the most likely outcome making that move. First model recordsgame history in terms of frequency and recency of possible outcomes. Second memorymodel records outcome patterns that are experienced in the course of the game. Thirdmodel has a two step decision process where expected payoff is calculated accordingto both types of information about game history. Forth model employs an associationmechanism between goal and declarative modules which enable the model to recordoutcome history in relation to contextual information that is kept in goal module.After parameter setting, simulations are conducted for the cases where each modelplays iterated game with itself and with basic game strategies. According to simulationresults, all models were successful in exploiting and defending against unconditionalstrategies. Against teaching strategies, although they presented learning behavior, allmodels except third model have failed to attain cooperative equilibrium. First, secondand forth models have adapted their behavior to exploit learning Pavlovian strategyand forgiving teaching strategies. All models exhibited learning behavior against basicstrategies.For the cases where each model plays the iterated game against itself, all models havesuccessfully attained cooperation in a significant portion of the games. Apart fromsecond model, all models exhibited a learning pattern consistent with human subjects.Moreover, similar to human subjects, simulated agents can be classified into teachingand learning groups according to their behavioral patterns.
Collections