Spiele, Simulation und dynamische Systeme

Kooperation unter Egoisten: Axelrods Computerturnier

Einführung

Problem: Die Tragödie der Gemeingüter eröffnete düstere Aussichten. Andererseits kennen wir Rücksichtnahme, Fürsorglichkeit und gar aufopferndes Verhalten sowohl in der Tierwelt als auch unter Menschen. Wie lässt sich das erklären? Wie können Altruismus - oder wenigstens kooperatives Verhalten - allein auf der Basis der Evolutionsmechanismen entstehen? Der orthodoxen Darwinist erklärt die Entstehung uneigennützigen Verhaltens mit der Verwandtschaftsselektion oder der Reziprozität:

1. Altruismus gegenüber Verwandten erhöht die Gesamtfitness des gemeinsamen Genbestands.

2. Altruismus auf Gegenseitigkeit nach dem Motto 'Hilfst du mir, helf ich dir' erhöht die Individualfitness und ist folglich doch recht eigennützig.

Altruismus auf Gegenseitigkeit kann auf Verträgen basieren. Solche Verträge sind Gegenstand der kulturellen Evolution. Verträge sind grundsätzlich durch Verrat gefährdet. Geht es auch ohne Vertrag und Sanktionsmechanismen?

Ziel: Beantwortung der Frage, ob und wie kooperatives Verhalten auch ohne Verträge und Sanktionsmechanismen entstehen und sich behaupten kann.

Methode: Modellierung der Interaktion von Individuen auf Basis des Gefangenen-Dilemmas. Simulation des Selektionsprozesses: Je besser eine Strategie ist, desto stärker wächst ihr Anteil (ökologische Simulation).

Das Gefangenen-Dilemma und Strategien

Die möglichen Aktionen eines Individuums einer vorgegebenen Population mit einem anderen Individuum seien Kooperation oder Defektion (Betrug, Treubruch). Die Nutzen-Matrix (auch: Auszahlungs- oder Spielmatrix) gibt den Nutzen einer gewählten Aktion in Abhängigkeit von der Aktion des Gegenübers an. Für das Gefangenen-Dilemma wählen wir folgende Auszahlungsmatrix

		Aktion Gegenüber
		K	D
Nutzen der Aktion	K	2	-1
Nutzen der Aktion	D	4	0

Die Individuen haben keine Möglichkeit, ihre Aktion von der des Gegenübers abhängig zu machen. Sie kennen aber die Geschichte: Sie wissen, wie sich das Gegenüber in der Vergangenheit verhalten hat. Eine Strategie (mit Gedächtnis) legt die Wahrscheinlichkeit für Kooperation in Abhängigkeit von der bisherigen Erfahrung mit dem Gegenüber fest.

Eine Strategie könnte beispielsweise sein, grundsätzlich zu betrügen (Wahrscheinlichkeit der Kooperation gleich null, unabhängig von der Vorgeschichte), eine andere, grundsätzlich zu kooperieren (Wahrscheinlichkeit der Kooperation gleich eins, unabhängig von der Vorgeschichte). Das sind die sogenannen reinen Strategien.

Der Kooperierende macht beim Zusammentreffen mit ebenfalls kooperierenden Individuen jeweils einen Gewinn von zwei Punkten, beim Zusammentreffen mit Betrügern verliert er jedesmal einen Punkt. Die Betrüger machen untereinander weder Gewinn noch Verlust. Trifft ein Betrüger auf ein kooperierendes Individuum, streicht er vier Punkte ein.

Die hier untersuchten Strategien sind in der folgenden Tabelle zusammengestellt.

iK	Immer kooperieren. Die Strategie ist freundlich und nachsichtig (auch: versöhnlich) und nicht vergeltend.
TfT	Tit for Tat (Wie du mir, so ich dir). Jede Aktion des Gegenübers wird beim nächsten Zusammentreffen mit derselben Aktion beantwortet. Angefangen wird mit Kooperation. Es handelt sich also um eine freundliche, vergeltende und nachsichtige Strategie.
hB	Hinterlistiger Betrüger. Das ist das direkte Gegenteil der "Tit for Tat"-Strategie: Die Strategie beantwortet jede Aktion des Gegners beim nächsten Zusammentreffen mit der dieser entgegengesetzten Aktion. Die Strategie ist nicht freundlich und nicht vergeltend.
iV	Immerwährende Vergeltung: Freundliche Strategie, die eine Defektion des Gegners mit fortdauernder Defektion beantwortet.
iB	Immer betrügen (immer D).
Zufall	Mit jeweils der Wahrscheinlichkeit 1/2 wird kooperiert oder defektiert, unabhängig von der Vorgeschichte.
Pavlov	Bleibe beim Verhalten, wenn Belohnung (Auszahlung 4 oder 2), ändere Verhalten, wenn Bestrafung (Auszahlung 0 oder -1). In Kurzform: win-stay, lose-shift. (Auch so: Kooperiere bei Übereinstimmung, defektiere bei Abweichung.)

Simulation des Selektionsprozesses (ökologische Simulation)

Simuliert wird der folgende Selektionsprozess: Ausgegangen wird von einen bestimmten Verteilung der verschiedenen Strategien in einer Population. Die Strategen machen in dieser Mischpopulation beim paarweisen Zusammentreffen Gewinn (oder auch Verlust) - jeweils in Abhängigkeit vom Gegenüber. Die bei rein zufälliger Auswahl des Gegenüber zu erwartende Auszahlung legt die Zuwachsrate der Strategie innerhalb der Population fest. Es bildet sich eine Folge von Generationen heraus, in denen die Tüchtigeren immer größere Anteile einnehmen.
Wir gehen davon aus, dass der Prozess schon eine Weile läuft. Uns interessieren also die Anfangseffekte nicht. Wir können dann eine Nutzen- bzw. Auszahlungsmatrix für Strategien aufstellen. Sie erfasst für jede Strategie den mittleren Nutzen eines jeden Zuges in Abhängigkeit von der Strategie des Gegenübers.

Die Auszahlungsmatrix für die Strategien

Die Auszahlungsmatrix für die Strategien wird spaltenorientiert geschrieben. Der Nutzen einer Strategie ergibt sich also aus den Werten der jeweiligen Spalte. Diese Schreibweise ist für die Erstellung des Arbeitsblattes geeigneter als die zeilenorientierte Form: Es ergibt sich ein besonders gleichförmiges Arbeitsblatt.

	iK	TfT	hB	iV	iB	Zufall	Pavlov
iK	2	2	4	2	4	3	2
TfT	2	2	1,25	2	0	1,25	2
hB	-1	1,25	1	4	4	1,25	0,33
iV	2	2	-1	2	0	-0,5	2
iB	-1	0	-1	0	0	-0,5	-0,5
Zufall	0,5	1,25	1,25	2	2	1,25	1,25
Pavlov	2	2	2	2	2	1,25	2
Spaltensumme	6,5	10,50	7,50	14	12	7,00	9,08

Die Herleitung der Werte der Auszahlungsmatrix wird exemplarisch für den kompliziertesten Fall vorgeführt. Das ist der Fall, dass die Strategien TfT und Zufall aufeinandertreffen.

Für einen bestimmten Spielzug ist die Gewinnerwartung von TfT und Zufall zu bestimmen. Da TfT ein Gedächtnis von einem Zug hat, ist auch der vorhergehende Spielzug mit einzubeziehen. Bei der Strategie Zufall sind alle vier Zugpaare gleich wahrscheinlich: KK, KD, DK, DD. Der erste Zug von TfT ist unerheblich. Jedenfalls spielt TfT im zweiten Zug K in den Fällen KK und KD, und D in den Fällen DK und DD.

Das führt zu folgenden Auszahlungen:

Zugfolge Zufall	KK	KD	DK	DD
Zug TfT	?K	?K	?D	?D
Auszahlung für Zufall	2	4	-1	0
Auszahlung für TfT	2	-1	4	0

Es ergibt sich für beide derselbe Mittelwert von (2+4-1)/4 = 1.25.

Eine qualitative ökologische Analyse

Die Spaltensumme in der obigen Auszahlungsmatrix zeigt, dass in einer Population, in der zu Beginn alle Strategien gleich stark vertreten sind, der iV-Anteil jedenfalls wachsen und der iK-Anteil schwächer wird.

Dementsprechend trägt dann iV mehr und iK weniger zu den "Einkommen" der anderen bei. Das trifft vor allem die Strategien hB, iB und Zufall. Sie sind letztlich die Verlierer des Spiels, obwohl iB durchaus Anfangserfolge hat. Aber iB zerstört ihre Existenzgrundlage. Die kooperativen Strategien bleiben übrig. Wohingegen der anfängliche Verlierer iK sich in der ihm dann wohlgesinnten Umgebung gut behaupten kann. Durch Streichung von Strategien (Anfangsanteil = 0) kommt man zu einfachereren und übersichtlicheren Versionen der Simulation.

Übungen und Anregungen für Diskussionen

1. Kooperationsspiel: Fünf Teilnehmern spielen nach dem Muster von "Papier-Schere-Stein". Es gibt nur zwei Möglichkeiten: Kooperieren = offene Hand, Defektieren = Faust. Der Gewinn ergibt sich aus der Nutzenmatrix des Gefangenen-Dilemmas. In jeder Runde spielt jeder gegen jeden. Schließlich wird für jeden der Spieler sein Gesamtgewinn ermittelt.

2. Ökologische Simulation: Erstellen Sie ein Tabellenkalkulationsblatt zur Simulation der Dynamik des Selektionsprozesses mittels Ökologischer Simulation. Eine einfache (rein diskrete) Variante dieser Simulationsmethode ist im Arbeitsblatt Ego.xls verwendet worden. Führen Sie Simulationsexperimente durch.

3. Wieso zeigt Arbeitsblatt Ego.xls, dass iV (immerwährende Vergeltung) gewinnt (auch besser als TfT (Tit for Tat), wo doch Axelrods Computerturnier laut Literatur ganz klar TfT als Gewinner sah?

4. Analyse der Evolution: In der ökologischen Analyse erfolgreiche Strategien haben erhebliche Startschwierigkeiten im Evolutionsprozess. In einer Umgebung aus Betrügern können sich die - in der ökologischen Analyse überaus erfolgreichen - freundlichen Strategien nicht etablieren. Die Freundlichkeit wird zum Verhängnis, weil zuächst keine Partner da sind, die diese erwidern. Anders als Charles Darwin behauptet, scheint es doch Sprünge in der Entwicklung zu geben.

Einen weiteren Einwand bringen die Schöpfungswissenschaftler (Kreationisten) gegen den Darwinismus vor: "Ein nicht rotierender Motor ist ein Verlustgeschäft" (Hermann Schneider, Heidelberg, in seinem Vortrag "Konnten die Lebewesen von selbst entstehen?" anlässlich der Ringvorlesung "Evolution und Schöpfung" der Theologischen Fakultät, Fulda am 14.11.89). Darauf H. D. Mutschler, Frankfurt/M.: "Gott ist nicht nur in den Lücken unserer Erkenntnis". Diese Debatte wird auch in John Updikes Roman "Roger´s Version" (1986) geführt: "For example, to make the lens, skin somehow got inside the meningeal coats of the brain. How could that have happened halfway? In all these things, there are these halfway stages where the adaptation wouldn´t work at all and would be a pure handicap" (Dale Kohler in Abschnitt II i). Roger Lambert vertritt die Gegenposition und meint ironisch: "God obligingly is going to rush into any vacuum, any gap of knowledge."

5. Bedingungen der Evolution: Die oben benannten Anfangsschwierigkeiten der Evolution führen zur Frage: Wie kommt das Neue in die Welt? Die Analyse der Evolution kooperativen Verhaltens erfordert die Einführung weiterer Rahmenbedingungen der Evolution: Isolationsmechanismen und Territorialität (territoriale Analyse). Damit lässt sich das Eindringen von Gruppen in Populationen mit kollektiv bzw. evolutionär stabilen Strategien erklären. Wichtig werden dann das Erkennen von Gruppenmitgliedern und der Gruppenzusammenhalt (Eibl-Eibesfeldt, 1984).

Einsichten bieten die Theorien von der Entstehung des modernen Menschen: Trennung von Biotopen durch tektonische Veränderungen können Evolutionsschübe zur Folge haben (Spektrum der Wissenschaft 1994, Heft 12, S. 64-71). Bedingungen für Innovationen in der Wirtschaft zeigt das Buch von v. Pierer/v. Oetinger (1997) auf: Geschützte Freiräume begünstigen das Entstehen von Innovationen (Beispiel: SAP). Eine empfehlenswerte Lektüre zur Schulung des Produktiven Denkens und der Fähigkeit, neue Lösungen zu finden, ist der Klassiker von Pólya (1949). Ein weiterer Weg, Denkfallen zu umgehen und Denkgewohnheiten aufzubrechen, ist das Studium derselben (Grams, 1990). Auch hier geht es letzlich darum, Freiräume zu schaffen.

"Die Entwürfe einer multikulturellen Gesellschaft ... sind geeignet, die kulturelle Substanz ... in Frage zu stellen ... Sie sind damit kein Weg zur inneren Befriedung möglicher Nationalitätenkonflikte, sondern gefährden genau die geistigen Kräfte, die zum Zusammenhalt des Landes beitragen können und von denen die Integration ausländischer Zuwanderer ausgehen kann" (Kurt Biedenkopf, Spiegel 23/1995, S. 17).

6. Leicht gestörte Strategien: Nun kommt es also zu sporadischen Irrtümern. Die Auszahlungsmatrix ist für diesen Fall neu zu berechnen. Nehmen wir uns das Paar iK und Pavlov vor: Es beginnt damit, dass beide immer kooperieren, mit dem beidereseitigen Gewinn von 2 Punkten. Aber irgendwann kommt es bei einem zur Defektion. Das führt dazu, dass in den folgenden Schritten Pavlov ständig defektiert und iK ständig kooperiert, wobei Pavlov 4 und und iK -1 Punkte erhält. Mittelwertbildung ergibt einen Wert von 3 für Pavlov und ½ für iK.
(a) Berechnen Sie die 2x2-Auszahlungsmatrix unter Störung für die zwei Spezies TfT und iV. Wer gewinnt jetzt die ökologische Simulation, wenn nur diese beiden anfänglich vorhanden sind?
(b) Berechnen Sie die volle 7x7-Auszahlungsmatrix unter Störung, erstellen Sie damit eine "gestörte" Variante Ego_V2.xls des Arbeitsblattes Ego.xls aus Übung 2. Führen Sie Simulationsexperimente für verschiedene Anfangsbedingungen durch (Besonders interessante Varianten sind "Alle außer Pavlov" oder {iK, TfT, iV} oder {iK, TfT, iV, Pavlov}).

Literaturhinweise

Axelrod, R.: Die Evolution der Kooperation. Oldenbourg, München, Wien 1987. Das Hauptwerk auf dem Gebiet

Dawkins, R.: Das egoistische Gen. Springer-Verlag, Berlin, Heidelberg 1978

(*) Delahaye, J.P.; Mathieu, P.: Altruismus mit Kündigungsmöglichkeit. Mathematische Unterhaltung. Spektrum der Wissenschaft (1998) 2, 8-14. Interessante Erweiterung des Iterierten Gefangenendilemma um eine einfache Kündigungsmöglichkeit. Jetzt können erstmals auch komplexere Strategien als Tit-for-Tat zu den Siegern gehören. Siehe auch http://www.lifl.fr/~ mathieu/ipd.

Douglas, M.: How Institutions Think. Syracuse University Press, New York 1986. Behandelt die Rolle der Institutionen bei der Herausbildung und Bewahrung eines "Öffentlichen Gutes"

Eibl-Eibesfeldt, I.: Die Biologie des menschlichen Verhaltens. Piper, München 1984

(*) Glance, N. S.; Huberman, B. A.: Das Schmarotzer-Dilemma. Spektrum d. Wiss. (1994) 5, 36-41.

Grams, T.: Denkfallen und Programmierfehler. Springer, Heidelberg 1990

(*) Hofstadter, D. R.: Metamagikum: Kann sich in einer Welt voller Egoisten kooperatives Verhalten entwickeln? Spektrum d. Wiss. (1983) 8, 8-14. Leichtverständliche Kurzfassung der Originalarbeit von Axelrod. Erklärt sehr überzeugend, warum Tit-for-Tat und andere ähnliche Strategien so erfolgreich sind.

(*) Nowak, M. A.; May, R. M.; Sigmund, K.: Das Einmaleins des Miteinander. Spektrum d. Wiss. (1995) 8, 46-53. Hier wird die Strategie Pavlov eingehend studiert. Insbesondere wird der Fall untersucht, dass anstelle der deterministischen Strategien mit Kooperationswahrscheinlichkeiten 0 oder 1 leicht gestörte Strategien mit Kooperationswahrscheinlichkeiten nahe 0 und nahe 1 treten. Weiterhin: Eine Idylle begünstigt die Vermehrung wehrloser (nicht-reaktiver) Strategien. Dann können von aussen einwandernde böse Strategien wieder zuschlagen.

Pierer, H. v.; Oetinger, B. v.: Wie kommt das Neue in die Welt? Hanser, München, Wien 1997

Pólya, G.: Schule des Denkens. Francke, Bern 1949

Sigmund, K.; Fehr, E.; Nowak, M. A.: Teilen und Helfen - Ursprünge sozialen Verhaltens. Spektr. d. Wiss. (2002) 3, 52-59. Ultimatum- und Gemeinwohl-Spiele zeigen, wie sich der Sinn für Fairness und Solidarität in Gruppen durchsetzen kann.

Die mit (*) gekennzeichneten Beiträge sind auch allesamt abgedruckt in einem auch insgesamt sehr interessanten Spektrum-der-Wissenschaft-Digest: "Kooperation und Konkurrenz", 1/1998.

Zurück zur Gliederung