Mythos Posted January 21, 2009 Report Posted January 21, 2009 Um was geht es beim RL (reinforcement learning)?(Hier eine informelle Erklärung, mehr Details auf Es gibt 2 wichtige Punkte:Die Environment und den Agenten. Die Environment ist (wie der Name schon sagt) alles rundherum und wird zu jedem Zeitpunkt mit einem gewissen Zustand repräsentiert. Dieser Zustand kommt aus einem Zustandsraum S, der endlich oder unendlich groß sein kann. Der Agent interagiert jetzt in jedem Zeitpunkt mit der Environment. Nach jeder Aktion des Agenten, ändert sich der Zustand in dem sich die Environment befindet und der Agent erhält einen Reward. Eine "Änderung" passiert eigentlich implizit, indem der Agent erfährt in welchem neuen Zustand die Environment ist. Dieser Zustand kann natürlich gleich bleiben, falls sich nichts geändert hat, bzw. kann natürlich der Agent auch mit der Fähigkeit des "Nichtstun" ausgestattet sein ;). Eine Strategie des Agenten ist nichts anderes als eine Vorschrift, welche Aktion er in welchem Zustand ausführt. Der Agent versucht nun eine Strategie zu lernen, die die erwarteten Rewards auf lange Sicht maximiert. Dieser "Lernvorgang" ist vom Entwickler aber nur insoweit beeinflussbar, als das er die möglichen Aktionen des Agenten bestimmt, das Environment und die Rewardstruktur modelliert. Für endliche Zustandsräume und endliche Aktionsräume kann man die Konvergenz zu einer optimalen Strategie beweisen. Bei unendlichen Zustandsräumen wird das schwerer bis unmöglich. Die Zustandsänderungen und Rewards können natürlich auch stochastisch sein. Kleines "praktisches" Beispiel:Eine simples Schachbrett. rechts oben ist das Ziel, links unten der Start. Der aktuelle "Zustand" ist die Position an der sich der Agent befindet.Der Agent steht zu Beginn am Start und kann nun die Aktionen links, rechts, vor und zurück ausführen. Für jede Bewegung erhält er einen Reward von -1, Erreicht er das Ziel, so erhält er einen Reward von 100 und die Episode ist vorbei. Fällt er vom Brett erhält er -100 und die Episode ist ebenfalls aus. Nach mehreren (hunderten ;) Trainingsläufen, lernt der Agent in diesem Beispiel den schnellsten Weg vom Start zum Ziel zu finden. Und was hat das jetzt mit Trading zu tun?Wähle Zustandsraum: Der Markt. Mögliche Aktionen: Kaufen (zB zwischen 0.1 und 5 Lots), Verkaufen (auch 0.1 bis 5 Lots) und nichts tun.Jeder Bar ist ein Zeitschritt, Der Reward ist die Balance Änderung von heute open (also wo die aktion passiert) bis nächster Bar open. Soweit die Theorie Warum ich das hier poste:Ich bin derzeit dabei mich stark in das Thema einzuarbeiten, und seh da einiges an forschungspotential und möglicherweise Anwendungsmöglichkeiten im Markt.Die Frage die sich mir stellt:Wie modelliert man den Markt sinnvoll? also wie sieht ein Zustandsvektor aus? 1 Quote
MRalph67 Posted January 21, 2009 Report Posted January 21, 2009 Leider kann ich nichts Sinnvolles beitragen. Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok? Quote
Mythos Posted January 21, 2009 Author Report Posted January 21, 2009 Leider kann ich nichts Sinnvolles beitragen. Ich oute mich trotz meiner limitierten Kenntnis der Materie als Interessent. Ist das ok? Natürlich, voll ok Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert! Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen? Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;) 1 Quote
MRalph67 Posted January 21, 2009 Report Posted January 21, 2009 Da bin ich aber froh. Ich hab eigentlich mit einer WatschN gerechnet Natürlich, voll ok Interessent wofür? Den Million Dollar Trading Agent? ;) Das dürfte noch ein bissl dauern.Aber ich bin auf alle Fälle froh das es nicht nur mich interessiert! Ich formulier die Frage nach dem Zustandsvektor mal etwas "allgemeiner":Was denkt ihr? Ist alle Information die man braucht bereits im Kurs/Kursverlauf eingepreist (sprich das dazunehmen anderer Quotes ist sinnlos) oder ist es unbedingt notwendig, will man zB den FDAX handeln, sich auch Öl, EURUSD, DOW etc. anzuschauen? Ich weiß, das ist fast eine Glaubensfrage, aber das machts nur spannender ;) Wie definierst du den Begriff -Zustandsvektor-? Quote
Mythos Posted January 21, 2009 Author Report Posted January 21, 2009 Wie definierst du den Begriff -Zustandsvektor-?Vektor im Sinne von einer Sequenz fixer Länge, die alle Werte enthält um den aktuellen Zustand zu beschreiben. Man kann den Zustand natürlich auch anders beschreiben, aber für die automatisierte Umsetzung ist ein Vektor IMO die beste Variante. Im einfachen Beispiel von oben wäre zb (X-Koord vom Agent , Y-Koord vom Agent) eine mögliche Form.Der Zustandsvektor (0,0) würde dann bedeuten der Agent steht am Start, Der Zustandsvektor (10,1) das der Agent am 11. Feld in der 2. Zeile steht. Für den Markt könnte man zB sagen der Zustandsvektor besteht aus den Closekursen der letzten 10 Bars. Ein bisschen klarer? 1 Quote
whipsaw Posted January 22, 2009 Report Posted January 22, 2009 Schön das auch in den Bereich etwas Bewegung hinein kommt. Das Thema ist unglaublich spannend, bitte unbedingt Dranbleiben!!! Quote
Mythos Posted February 4, 2009 Author Report Posted February 4, 2009 Hat jemand von euch zufällig schon Erfahrung mit Radial Basis Functions? Oder inzwischen jemand eine Meinung zur Frage "Wie repräsentiert man den Markt am besten?".Im Moment hab ich mal für "Gestern/Heute" entschieden, da das im wesentlichen auch der Profitberechnung entspricht. (Ich will das ganze erstmal auf EURUSD starten, und denke immer in EUR ;) 1 Quote
wh Posted September 24, 2010 Report Posted September 24, 2010 Hier mal ein kleines Papier. Kann man, wenn man mag in Matlab/Mathematica/C umsetzen. Nicht von den Formeln abschrecken lassen. Ich habe mich auf FIS Systeme beschränkt,aber die Ähnlichkeit ist gegeben. Warum, ich gebe mal eine einfache bildliche Erklärung (siehe Bilder Anhang). ANFIS Systeme für T+1 gut, wobei T+1 für die Zukunft steht.RBF Systeme für T+N gut, was wohl sicher an Herrn Gauss liegt. Das ist auch das Geheimnis vieler, vieler, vieler Signalgeber etc. Price(t)+Price(t+1) /**Forecast**/ + Indicator + Strategie == Wissenvorsprung ? ... PS. Poker ist da aber viel spannender, als sich mit so einem Zeug zu beschäftigen.Habe da ein 3/4 Jahr mit verbracht + Krigging und so ein Zeug. 1 Quote
wh Posted September 30, 2010 Report Posted September 30, 2010 Habe es letztes Jahr irgendwo auf einer russischen Seite gefunden, deshalb das schlechte Englisch. Vielleichtinteressiert sich ja außer Mythos(der wohl keine Zeit hat) und mir noch jemand. Ich fand es interessant.Dokument1.pdf 1 1 Quote
whipsaw Posted January 29 Report Posted January 29 @Mythos@wh - nicht wundern, wenn Ihr 10 Jahre später eine PM über die Aktualisierung eines Beitrages bekommen. Das passt. Sind gerade beim Aufräumen der heiligen Hallen. Quote
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.