Reinforcement Learning

Folgen

Geschrieben 21. Januar 200917 Jr.

Um was geht es beim RL (reinforcement learning)?

(Hier eine informelle Erklärung, mehr Details auf :bbg:

Es gibt 2 wichtige Punkte:

Die Environment und den Agenten.

Die Environment ist (wie der Name schon sagt) alles rundherum und wird zu jedem Zeitpunkt mit einem gewissen Zustand repräsentiert. Dieser Zustand kommt aus einem Zustandsraum S, der endlich oder unendlich groß sein kann.

Der Agent interagiert jetzt in jedem Zeitpunkt mit der Environment. Nach jeder Aktion des Agenten, ändert sich der Zustand in dem sich die Environment befindet und der Agent erhält einen Reward.

Eine "Änderung" passiert eigentlich implizit, indem der Agent erfährt in welchem neuen Zustand die Environment ist. Dieser Zustand kann natürlich gleich bleiben, falls sich nichts geändert hat, bzw. kann natürlich der Agent auch mit der Fähigkeit des "Nichtstun" ausgestattet sein ;).

Eine Strategie des Agenten ist nichts anderes als eine Vorschrift, welche Aktion er in welchem Zustand ausführt.

Der Agent versucht nun eine Strategie zu lernen, die die erwarteten Rewards auf lange Sicht maximiert. Dieser "Lernvorgang" ist vom Entwickler aber nur insoweit beeinflussbar, als das er die möglichen Aktionen des Agenten bestimmt, das Environment und die Rewardstruktur modelliert.

Für endliche Zustandsräume und endliche Aktionsräume kann man die Konvergenz zu einer optimalen Strategie beweisen. Bei unendlichen Zustandsräumen wird das schwerer bis unmöglich.

Die Zustandsänderungen und Rewards können natürlich auch stochastisch sein.

Kleines "praktisches" Beispiel:

Eine simples Schachbrett. rechts oben ist das Ziel, links unten der Start. Der aktuelle "Zustand" ist die Position an der sich der Agent befindet.

Der Agent steht zu Beginn am Start und kann nun die Aktionen links, rechts, vor und zurück ausführen.

Für jede Bewegung erhält er einen Reward von -1, Erreicht er das Ziel, so erhält er einen Reward von 100 und die Episode ist vorbei. Fällt er vom Brett erhält er -100 und die Episode ist ebenfalls aus.

Nach mehreren (hunderten ;) Trainingsläufen, lernt der Agent in diesem Beispiel den schnellsten Weg vom Start zum Ziel zu finden.

Und was hat das jetzt mit Trading zu tun?

Wähle Zustandsraum: Der Markt.

Mögliche Aktionen: Kaufen (zB zwischen 0.1 und 5 Lots), Verkaufen (auch 0.1 bis 5 Lots) und nichts tun.

Jeder Bar ist ein Zeitschritt, Der Reward ist die Balance Änderung von heute open (also wo die aktion passiert) bis nächster Bar open.

Soweit die Theorie :bbg:

Warum ich das hier poste:

Ich bin derzeit dabei mich stark in das Thema einzuarbeiten, und seh da einiges an forschungspotential und möglicherweise Anwendungsmöglichkeiten im Markt.

Die Frage die sich mir stellt:

Wie modelliert man den Markt sinnvoll? also wie sieht ein Zustandsvektor aus?

Zitieren

Melden

Geschrieben 21. Januar 200917 Jr.

Leider kann ich nichts Sinnvolles beitragen.

Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok?

Zitieren

Melden

Geschrieben 21. Januar 200917 Jr.

Autor

Leider kann ich nichts Sinnvolles beitragen.
Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok?

Natürlich, voll ok :bbg:

Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.

Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert! :bbg:

Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":

Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen?

Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;)

Zitieren

Melden

Geschrieben 21. Januar 200917 Jr.

:bbg: Da bin ich aber froh. Ich hab eigentlich mit einer WatschN gerechnet

Natürlich, voll ok
Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.
Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert!

Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":
Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen?
Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;)

Wie definierst du den Begriff -Zustandsvektor-?

Zitieren

Melden

Geschrieben 21. Januar 200917 Jr.

Autor

Wie definierst du den Begriff -Zustandsvektor-?

Vektor im Sinne von einer Sequenz fixer Länge, die alle Werte enthält um den aktuellen Zustand zu beschreiben. Man kann den Zustand natürlich auch anders beschreiben, aber für die automatisierte Umsetzung ist ein Vektor IMO die beste Variante.

Im einfachen Beispiel von oben wäre zb (X-Koord vom Agent , Y-Koord vom Agent) eine mögliche Form.

Der Zustandsvektor (0,0) würde dann bedeuten der Agent steht am Start, Der Zustandsvektor (10,1) das der Agent am 11. Feld in der 2. Zeile steht.

Für den Markt könnte man zB sagen der Zustandsvektor besteht aus den Closekursen der letzten 10 Bars.

Ein bisschen klarer?

Zitieren

Melden

Geschrieben 22. Januar 200917 Jr.

Schön das auch in den Bereich etwas Bewegung hinein kommt. Das Thema ist unglaublich spannend, bitte unbedingt Dranbleiben!!!

Zitieren

Melden

2 Wochen später...

Geschrieben 4. Februar 200917 Jr.

Autor

Hat jemand von euch zufällig schon Erfahrung mit Radial Basis Functions?

Oder inzwischen jemand eine Meinung zur Frage "Wie repräsentiert man den Markt am besten?".

Im Moment hab ich mal für "Gestern/Heute" entschieden, da das im wesentlichen auch der Profitberechnung entspricht. (Ich will das ganze erstmal auf EURUSD starten, und denke immer in EUR ;)

Zitieren

Melden

1 Jahr später...

Geschrieben 24. September 201015 Jr.

Hier mal ein kleines Papier. Kann man, wenn man mag

in Matlab/Mathematica/C umsetzen. Nicht von den Formeln abschrecken lassen. Ich habe mich auf FIS Systeme beschränkt,

aber die Ähnlichkeit ist gegeben. Warum, ich gebe mal eine einfache bildliche Erklärung (siehe Bilder Anhang).

ANFIS Systeme für T+1 gut, wobei T+1 für die Zukunft steht.

RBF Systeme für T+N gut, was wohl sicher an Herrn Gauss liegt.

Das ist auch das Geheimnis vieler, vieler, vieler Signalgeber etc.

Price(t)+Price(t+1) /**Forecast**/ + Indicator + Strategie == Wissenvorsprung ? ...

PS. Poker ist da aber viel spannender, als sich mit so einem Zeug zu beschäftigen.

Habe da ein 3/4 Jahr mit verbracht + Krigging und so ein Zeug.

Zitieren

Melden

Geschrieben 30. September 201015 Jr.

Habe es letztes Jahr irgendwo auf einer russischen Seite gefunden, deshalb das schlechte Englisch. Vielleicht

interessiert sich ja außer Mythos(der wohl keine Zeit hat) und mir noch jemand. Ich fand es interessant.

Dokument1.pdf

Zitieren

Melden

13 Jahre später...

Geschrieben 29. Januar 20242 Jr.

@Mythos@wh - nicht wundern, wenn Ihr 10 Jahre später eine PM über die Aktualisierung eines Beitrages bekommen. Das passt. Sind gerade beim Aufräumen der heiligen Hallen.

Zitieren

Melden

2 Jr.2 Jr. whipsaw hat Thema abgepinnt

Dein Kommentar

Du kannst jetzt schreiben und Dich später registrieren. Wenn Du ein Konto hast, melde Dich jetzt an, um unter Deinem Benutzernamen zu schreiben.

Folgen

Zur Themenübersicht

Reinforcement Learning

Featured Replies

Dein Kommentar

Account

Navigation

Suche

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)