Jump to content
Tom Next - Daytrading Community

Reinforcement Learning


Mythos

Recommended Posts

Um was geht es beim RL (reinforcement learning)?

(Hier eine informelle Erklärung, mehr Details auf :bbg:

 

Es gibt 2 wichtige Punkte:

Die Environment und den Agenten.

 

Die Environment ist (wie der Name schon sagt) alles rundherum und wird zu jedem Zeitpunkt mit einem gewissen Zustand repräsentiert. Dieser Zustand kommt aus einem Zustandsraum S, der endlich oder unendlich groß sein kann.

 

Der Agent interagiert jetzt in jedem Zeitpunkt mit der Environment. Nach jeder Aktion des Agenten, ändert sich der Zustand in dem sich die Environment befindet und der Agent erhält einen Reward.

 

Eine "Änderung" passiert eigentlich implizit, indem der Agent erfährt in welchem neuen Zustand die Environment ist. Dieser Zustand kann natürlich gleich bleiben, falls sich nichts geändert hat, bzw. kann natürlich der Agent auch mit der Fähigkeit des "Nichtstun" ausgestattet sein ;).

 

Eine Strategie des Agenten ist nichts anderes als eine Vorschrift, welche Aktion er in welchem Zustand ausführt.

 

Der Agent versucht nun eine Strategie zu lernen, die die erwarteten Rewards auf lange Sicht maximiert. Dieser "Lernvorgang" ist vom Entwickler aber nur insoweit beeinflussbar, als das er die möglichen Aktionen des Agenten bestimmt, das Environment und die Rewardstruktur modelliert.

 

Für endliche Zustandsräume und endliche Aktionsräume kann man die Konvergenz zu einer optimalen Strategie beweisen. Bei unendlichen Zustandsräumen wird das schwerer bis unmöglich.

 

Die Zustandsänderungen und Rewards können natürlich auch stochastisch sein.

 

Kleines "praktisches" Beispiel:

Eine simples Schachbrett. rechts oben ist das Ziel, links unten der Start. Der aktuelle "Zustand" ist die Position an der sich der Agent befindet.

Der Agent steht zu Beginn am Start und kann nun die Aktionen links, rechts, vor und zurück ausführen.

Für jede Bewegung erhält er einen Reward von -1, Erreicht er das Ziel, so erhält er einen Reward von 100 und die Episode ist vorbei. Fällt er vom Brett erhält er -100 und die Episode ist ebenfalls aus.

Nach mehreren (hunderten ;) Trainingsläufen, lernt der Agent in diesem Beispiel den schnellsten Weg vom Start zum Ziel zu finden.

 

Und was hat das jetzt mit Trading zu tun?

Wähle Zustandsraum: Der Markt.

Mögliche Aktionen: Kaufen (zB zwischen 0.1 und 5 Lots), Verkaufen (auch 0.1 bis 5 Lots) und nichts tun.

Jeder Bar ist ein Zeitschritt, Der Reward ist die Balance Änderung von heute open (also wo die aktion passiert) bis nächster Bar open.

 

Soweit die Theorie :bbg:

 

Warum ich das hier poste:

Ich bin derzeit dabei mich stark in das Thema einzuarbeiten, und seh da einiges an forschungspotential und möglicherweise Anwendungsmöglichkeiten im Markt.

Die Frage die sich mir stellt:

Wie modelliert man den Markt sinnvoll? also wie sieht ein Zustandsvektor aus?

  • Like 1
Link to comment
Share on other sites

Leider kann ich nichts Sinnvolles beitragen.

Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok?

 

Natürlich, voll ok :bbg:

Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.

Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert! :bbg:

 

Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":

Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen?

Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;)

  • Like 1
Link to comment
Share on other sites

:bbg: Da bin ich aber froh. Ich hab eigentlich mit einer WatschN gerechnet

 

Natürlich, voll ok :bbg:

Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.

Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert! :bbg:

 

Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":

Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen?

Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;)

 

 

Wie definierst du den Begriff -Zustandsvektor-?

Link to comment
Share on other sites

Wie definierst du den Begriff -Zustandsvektor-?

Vektor im Sinne von einer Sequenz fixer Länge, die alle Werte enthält um den aktuellen Zustand zu beschreiben. Man kann den Zustand natürlich auch anders beschreiben, aber für die automatisierte Umsetzung ist ein Vektor IMO die beste Variante.

 

Im einfachen Beispiel von oben wäre zb (X-Koord vom Agent , Y-Koord vom Agent) eine mögliche Form.

Der Zustandsvektor (0,0) würde dann bedeuten der Agent steht am Start, Der Zustandsvektor (10,1) das der Agent am 11. Feld in der 2. Zeile steht.

 

Für den Markt könnte man zB sagen der Zustandsvektor besteht aus den Closekursen der letzten 10 Bars.

 

Ein bisschen klarer?

  • Like 1
Link to comment
Share on other sites

  • 2 weeks later...

Hat jemand von euch zufällig schon Erfahrung mit Radial Basis Functions?

 

Oder inzwischen jemand eine Meinung zur Frage "Wie repräsentiert man den Markt am besten?".

Im Moment hab ich mal für "Gestern/Heute" entschieden, da das im wesentlichen auch der Profitberechnung entspricht. (Ich will das ganze erstmal auf EURUSD starten, und denke immer in EUR ;)

  • Like 1
Link to comment
Share on other sites

  • 1 year later...

Hier mal ein kleines Papier. Kann man, wenn man mag

in Matlab/Mathematica/C umsetzen. Nicht von den Formeln abschrecken lassen. Ich habe mich auf FIS Systeme beschränkt,

aber die Ähnlichkeit ist gegeben. Warum, ich gebe mal eine einfache bildliche Erklärung (siehe Bilder Anhang).

 

ANFIS Systeme für T+1 gut, wobei T+1 für die Zukunft steht.

RBF Systeme für T+N gut, was wohl sicher an Herrn Gauss liegt.

 

Das ist auch das Geheimnis vieler, vieler, vieler Signalgeber etc.

 

Price(t)+Price(t+1) /**Forecast**/ + Indicator + Strategie == Wissenvorsprung ? ...

 

PS. Poker ist da aber viel spannender, als sich mit so einem Zeug zu beschäftigen.

Habe da ein 3/4 Jahr mit verbracht + Krigging und so ein Zeug.

FIS1.PNG

FIS2.PNG

RBF.PNG

  • Like 1
Link to comment
Share on other sites

  • 13 years later...
  • whipsaw unpinned this topic

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Loading...
×
×
  • Create New...