Reinforcement Learning

Mythos · January 21, 2009

Um was geht es beim RL (reinforcement learning)?

(Hier eine informelle Erklärung, mehr Details auf :bbg:

Es gibt 2 wichtige Punkte:

Die Environment und den Agenten.

Die Environment ist (wie der Name schon sagt) alles rundherum und wird zu jedem Zeitpunkt mit einem gewissen Zustand repräsentiert. Dieser Zustand kommt aus einem Zustandsraum S, der endlich oder unendlich groß sein kann.

Der Agent interagiert jetzt in jedem Zeitpunkt mit der Environment. Nach jeder Aktion des Agenten, ändert sich der Zustand in dem sich die Environment befindet und der Agent erhält einen Reward.

Eine "Änderung" passiert eigentlich implizit, indem der Agent erfährt in welchem neuen Zustand die Environment ist. Dieser Zustand kann natürlich gleich bleiben, falls sich nichts geändert hat, bzw. kann natürlich der Agent auch mit der Fähigkeit des "Nichtstun" ausgestattet sein ;).

Eine Strategie des Agenten ist nichts anderes als eine Vorschrift, welche Aktion er in welchem Zustand ausführt.

Der Agent versucht nun eine Strategie zu lernen, die die erwarteten Rewards auf lange Sicht maximiert. Dieser "Lernvorgang" ist vom Entwickler aber nur insoweit beeinflussbar, als das er die möglichen Aktionen des Agenten bestimmt, das Environment und die Rewardstruktur modelliert.

Für endliche Zustandsräume und endliche Aktionsräume kann man die Konvergenz zu einer optimalen Strategie beweisen. Bei unendlichen Zustandsräumen wird das schwerer bis unmöglich.

Die Zustandsänderungen und Rewards können natürlich auch stochastisch sein.

Kleines "praktisches" Beispiel:

Eine simples Schachbrett. rechts oben ist das Ziel, links unten der Start. Der aktuelle "Zustand" ist die Position an der sich der Agent befindet.

Der Agent steht zu Beginn am Start und kann nun die Aktionen links, rechts, vor und zurück ausführen.

Für jede Bewegung erhält er einen Reward von -1, Erreicht er das Ziel, so erhält er einen Reward von 100 und die Episode ist vorbei. Fällt er vom Brett erhält er -100 und die Episode ist ebenfalls aus.

Nach mehreren (hunderten ;) Trainingsläufen, lernt der Agent in diesem Beispiel den schnellsten Weg vom Start zum Ziel zu finden.

Und was hat das jetzt mit Trading zu tun?

Wähle Zustandsraum: Der Markt.

Mögliche Aktionen: Kaufen (zB zwischen 0.1 und 5 Lots), Verkaufen (auch 0.1 bis 5 Lots) und nichts tun.

Jeder Bar ist ein Zeitschritt, Der Reward ist die Balance Änderung von heute open (also wo die aktion passiert) bis nächster Bar open.

Soweit die Theorie :bbg:

Warum ich das hier poste:

Ich bin derzeit dabei mich stark in das Thema einzuarbeiten, und seh da einiges an forschungspotential und möglicherweise Anwendungsmöglichkeiten im Markt.

Die Frage die sich mir stellt:

Wie modelliert man den Markt sinnvoll? also wie sieht ein Zustandsvektor aus?

MRalph67 · January 21, 2009

Leider kann ich nichts Sinnvolles beitragen.

Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok?

Mythos · January 21, 2009

Leider kann ich nichts Sinnvolles beitragen.
Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok?

Natürlich, voll ok :bbg:

Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.

Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert! :bbg:

Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":

Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen?

Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;)

MRalph67 · January 21, 2009

:bbg: Da bin ich aber froh. Ich hab eigentlich mit einer WatschN gerechnet

Natürlich, voll ok
Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.
Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert!

Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":
Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen?
Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;)

Wie definierst du den Begriff -Zustandsvektor-?

Mythos · January 21, 2009

Wie definierst du den Begriff -Zustandsvektor-?

Vektor im Sinne von einer Sequenz fixer Länge, die alle Werte enthält um den aktuellen Zustand zu beschreiben. Man kann den Zustand natürlich auch anders beschreiben, aber für die automatisierte Umsetzung ist ein Vektor IMO die beste Variante.

Im einfachen Beispiel von oben wäre zb (X-Koord vom Agent , Y-Koord vom Agent) eine mögliche Form.

Der Zustandsvektor (0,0) würde dann bedeuten der Agent steht am Start, Der Zustandsvektor (10,1) das der Agent am 11. Feld in der 2. Zeile steht.

Für den Markt könnte man zB sagen der Zustandsvektor besteht aus den Closekursen der letzten 10 Bars.

Ein bisschen klarer?

whipsaw · January 22, 2009

Schön das auch in den Bereich etwas Bewegung hinein kommt. Das Thema ist unglaublich spannend, bitte unbedingt Dranbleiben!!!

Mythos · February 4, 2009

Hat jemand von euch zufällig schon Erfahrung mit Radial Basis Functions?

Oder inzwischen jemand eine Meinung zur Frage "Wie repräsentiert man den Markt am besten?".

Im Moment hab ich mal für "Gestern/Heute" entschieden, da das im wesentlichen auch der Profitberechnung entspricht. (Ich will das ganze erstmal auf EURUSD starten, und denke immer in EUR ;)

wh · September 24, 2010

Hier mal ein kleines Papier. Kann man, wenn man mag

in Matlab/Mathematica/C umsetzen. Nicht von den Formeln abschrecken lassen. Ich habe mich auf FIS Systeme beschränkt,

aber die Ähnlichkeit ist gegeben. Warum, ich gebe mal eine einfache bildliche Erklärung (siehe Bilder Anhang).

ANFIS Systeme für T+1 gut, wobei T+1 für die Zukunft steht.

RBF Systeme für T+N gut, was wohl sicher an Herrn Gauss liegt.

Das ist auch das Geheimnis vieler, vieler, vieler Signalgeber etc.

Price(t)+Price(t+1) /**Forecast**/ + Indicator + Strategie == Wissenvorsprung ? ...

PS. Poker ist da aber viel spannender, als sich mit so einem Zeug zu beschäftigen.

Habe da ein 3/4 Jahr mit verbracht + Krigging und so ein Zeug.

wh · September 30, 2010

Habe es letztes Jahr irgendwo auf einer russischen Seite gefunden, deshalb das schlechte Englisch. Vielleicht

interessiert sich ja außer Mythos(der wohl keine Zeit hat) und mir noch jemand. Ich fand es interessant.

Dokument1.pdf

whipsaw · January 29

@Mythos@wh - nicht wundern, wenn Ihr 10 Jahre später eine PM über die Aktualisierung eines Beitrages bekommen. Das passt. Sind gerade beim Aufräumen der heiligen Hallen.

Sign In

Reinforcement Learning

Recommended Posts

Mythos

Link to comment

Share on other sites

MRalph67

Link to comment

Share on other sites

Mythos

Link to comment

Share on other sites

MRalph67

Link to comment

Share on other sites

Mythos

Link to comment

Share on other sites

whipsaw

Link to comment

Share on other sites

Mythos

Link to comment

Share on other sites

wh

Link to comment

Share on other sites

wh

Link to comment

Share on other sites

whipsaw

Link to comment

Share on other sites

Join the conversation

Browse

Activity

Pages