DA Reinforcement Learning mit N-Tupel-Systemen für das Brettspiel "4-Gewinnt"

 

Ausgangspunkt

 

Ziele

  1. Erstellung eines Konzeptes für die Einbindung von N-Tupel-Systemen in das Reinforcement Learning für strategische Brettspiele
  2. Einbau der N-Tupel-Systeme in das RL-System und erstmalige Anwendung der N-Tupel-Systeme auf das Spiel 4-Gewinnt
  3. Anlernen des N-Tupel-RL-Agenten (guided, self-play), Evaluation der Verbesserung
  4. Entwicklung einer 4-Gewinnt-GUI für das RL-Training und -Testen

 

 

Schritte

 

 

Voraussetzungen

 

 

Literatur:

zentral:

o        [Rohwer95] Richard Rohwer: The n-tuple classifier: Too good to ignore, Tech. Report Aston University, Birmingham, 1995.

o        [Lucas97] Simon Lucas: Face recognition with the continuous n-tuple classifier, Proc. British Machine Vision Conference, p. 222-231, 1997.

o        [Lucas08] Simon Lucas: Learning to play Games, Tutorial PPSN (Parallel Problem Solving from Nature), Dortmund, 2008. Hier relevant: Folien 41-50.

 

 

weiterführend:

o        [Sutton&Barto98] Richard S. Sutton, Andrew G. Barto: Reinforcement Learning. MIT Press, Cambridge, 1998. Hervorragende Einführung ins Thema. TD-Gammon und andere Spiele. Als HTML-Book verfügbar unter: http://www.cs.ualberta.ca/~sutton/book/the-book.html.

o        [Tesauro95] Gerald Tesauro: Temporal Difference Learning and TD-Gammon, Communications of the ACM, March 1995 / Vol. 38, No. 3. Sehr guter Übersichtsartikel über Tesauro's Arbeiten von 1992.

o        [Tesauro92] Gerald Tesauro: Practical issues in temporal difference learning. Mach. Learning 8, (1992), 257-277.