強化学習って今まで触れずにきたなーってことで、 Reinforcement Learningに手を伸ばしました。
やべー肩とか下付き多くて怖い。とか思いつつ読み進めて、4章に居たり、プログラミングとな?となったので実際に書いてみた。
なんか、結果違う。ってなったのでググるといるじゃないですか、 しかも、ゆるゆりの制作会社分類してた神が!!! [強化学習で考えるギャンブラーの最適行動] http://kivantium.hateblo.jp/entry/2015/09/29/181954
更新に制限をつけて、「ある程度以上違いがないなら更新しない。」としている模様。 導入したら綺麗な図が出てきたので満足した。(コードは反映済)
更に読み進めるぞ。