ml-agents学習中のTensorBoardを読み解く話

こんにちは、えんせきです。
喉の調子は戻っていません。とりあえずビタミンを補給するために蜜柑を買ってきました。
今年初蜜柑です。甘みの当たりハズレが大きい

つまりなにしたの？

PPOで強化学習する時のベストプラクティスは良いとして、調整するためにはTensorBoardが読めないと難しい。
というわけでTensorBoardに何が表示されているのかまとめておく。
f:id:ensekitt:20180128222616j:plain

参考文献

Getting Started with the Balance Ball ExampleのObserving Training Progress

ml-agents/Getting-Started-with-Balance-Ball.md at master · Unity-Technologies/ml-agents · GitHub

Training Statisticsのベストプラクティス

ml-agents/best-practices-ppo.md at master · Unity-Technologies/ml-agents · GitHub

正直、以降の訳文は情報が落ちてるので読めるなら本家のほうが良い。

TensorBoardとは？

TensorBoardはTensorFlowの理解、デバッグ、および最適化を容易にするために作られた。今回は強化学習の結果を色々表示してPPOの最適化に活用する。
TensorBoard: Visualizing Learning | TensorFlow

実行方法は？

PPO.ipynbと同じディレクトリで

tensorboard --logdir=summaries

を実行して、ブラウザから
http://localhost:6006
*1
にアクセスすればいい。

学習結果の話

これは前回のポールを学習している時のTensorBoard。policy_lossはなんか暴れてる。
f:id:ensekitt:20180128222857p:plain

レッスン数

レッスン数（Info/Lesson）はレッスン数で文字通りレッスン回数が表示されている。横に伸びていくだけ。

累積報酬

累積報酬（Info/Lesson）はすべてのエージェントに対する平均累積エピソード報酬。うまく学習すると上昇していく。
報酬の一般的な傾向は、時間とともに一貫して増加するはずだが、小さな浮き沈みがおきる。タスクの複雑さによっては、学習プロセスの何百万ステップまでいかないと報酬が大幅に増加することはないこともある。

エントロピー

エントロピー（Info/entropy）モデルの決定がどれほどランダムかが表示されている。うまく学習できているとだんだん小さくなる。前回の記事でも紹介したけど離散の行動をして、状態空間を保つ場合、あまりにも急激に減少するならbeta値を増やすと良い。

エピソード長

エピソード長（Info/episode_length）は文字通りエピソードの平均ステップ長を表している。これは必ずしも長い方が良いとか短いほうが良いとかはなく、エージェントの目的が長いほうが良いのか短いほうが良いのかによって動くべき方向は変わる。
倒立振子だったら立ちっぱなしのほうが嬉しいからMax Stepsまで増えていけば良い。