EnsekiTT Blog

EnsekiTTが書くブログです。

【悲報】ゴールに至らず。差動2駆カートを強化学習で走らせた話

こんにちは、えんせきです。
みなさんミニ四駆は好きですか?むかし、僕は大好きで、改造してはよく一人で遊んでいました。
は?自動で走るんだから一人で遊ぶ遊びだろ?なんか文句あっか?くぁwせdrftgyふじこlp;

つまりなにしたの?

先日のカートを差動二輪駆動カートにして一本橋を渡りきれるかチャレンジしました。
失敗しました。
f:id:ensekitt:20180204161246j:plain

先日のカート

ensekitt.hatenablog.com

結果

f:id:ensekitt:20180204161043g:plain
速度が乗ってきたところでスピンしてしまった。
必死に落ちないようにしがみついている感じもして少しポイント高い。

f:id:ensekitt:20180204155630p:plain
渡りきれず学習は収束してしまった模様。

パラメータたち

エージェントに与えた情報

  • 現在位置からゴールの位置までの距離
  • カートの姿勢角
  • カートの姿勢角速度
  • タイヤのローカル角速度

アクション情報

  • 左後輪の目標速度(-3000〜3000)
  • 右後輪の目標速度(-3000〜3000)

報酬

  • カートとゴールの距離に応じて正の報酬
  • 橋から落ちると負の報酬
  • ゴールに到着すると到着までにかかった時間に応じて正の報酬

PPOのパラメータ(抜粋)

  • 学習ステップ数: 300000回
  • バッチサイズ: 2048
  • バッファサイズ: 4096
  • 正規化: True

所感

とりあえずでやってみたけど、正直もう少し上手になると思っていた。
ただ、なんかもっと与えるべき情報があったような気もするし、もう少し上手く報酬を与えても良かったかもしれない。
(前のフレームよりどれだけ近づいたか?等)