強化学習
つまりなにしたの? 先日のカートを差動二輪駆動カートにして一本橋を渡りきれるかチャレンジしました。 失敗しました。
つまりなにしたの? PPOで強化学習する時のベストプラクティスは良いとして、調整するためにはTensorBoardが読めないと難しい。 というわけでTensorBoardに何が表示されているのかまとめておく。
Best Practices when training with PPOを読んだので適用する時に都度英語を読まないで良いように日本語メモにした。 (日本語訳ではなく実装時に読み取れればいい程度なので情報は落ちる) PPOはml-agentsにデフォルトで入っている強化学習手法
つまりなにしたの? 前回作成した倒立振子はプルプルしていた。これを綺麗に立たせるための施策を幾つかまとめる この施策は前回紹介したモデルのベストプラクティスとまだ翻訳を載せていないPPOのベストプラクティスを反映したもの。
つまりなにしたの? Unityのml-agentsのドキュメントから、Environment Design Best Practicesを読んだので適用する時に都度英語を読まないで良いように日本語メモにした。
つまりなにしたの? 前回はUnityが用意してくれたサンプルを動かしたけど、今回はしょぼくなってもいいから自分のシーンで強化学習してみた。
つまりなにしたの? 先日、球をのせ続けることが得意になったAgentが何をやっているのか読みといてみた。 Assets/ML-Agents/Examples/3DBall/Scripts/Ball3DAgent.csが今日のターゲット
* つまりなにしたの? 前回Machine Learning Agentsに学習をさせた話の続きを紹介する。TFShapePluginをインポートしてもろもろ設定する。学習したモデルをUnityで読み込む。
つまりなにしたの?UnityのMachine Learning Agentsで遊んだ。Unity Machine Learning Agentsってなに?強化学習は、褒められた方式を覚えてどんどんスコアを良くすることができる機械学習の一つ。エージェントになる。 Unity Machine Learning Agentsは環境…