EnsekiTT Blog

EnsekiTTが書くブログです。

2016-12-08

Universeがリリースされたので、まずはReadmeを読んで実行してみた。

つまりなにしたの

UniverseのReadmeを読んで、OSXで動くことを確認した。

openai.com
汎用的な能力を持つ人工知能の能力を計測したり、学習するための環境として作られたプラットフォーム

構成としては、
Docker中で実行しているゲームにVNCでアクセスして、
ゲーム画面の情報をエージェントに渡して、
マウスやキーボードをエージェントが操作して、
報酬をゲーム画面から取得して、
報酬をもらうと嬉しいエージェントがどんどん賢くなっていく。

2016-11-28

週末に3DSもポケモンもなかったのでChainerでDQNを育てた話。

つまりなにしたの

ブロック崩しなどで一世を風靡したDeep Q NetworkをChainerで実装して、OpenAIの環境で育てた。
youtu.be

基本的な強化学習の流れ

ゲームそのものをEnvironment
ゲームで言うプレイヤーをAgent
プレイヤーの操作をAction
プレイヤーはプレイの結果をゲーム画面を観察、つまりObservationして確認する（日本語に組み込むと変な感じ
ゲーム画面には、ゲームの状態（残りのブロックの画像とか）、Stateが表示される。
ゲーム画面には、ゲームのスコア(上がると嬉しいもの)、Rewardも表示される。

プレイヤーは操作とゲーム画面の組み合わせからこれはうまくいった、うまくいく流れ来たけどなんかこれ以上スコア上がらん…大きく変えるか！
とかを繰り返して学習を勧めていく。
（英単語はOpenAI Gymの表現と合わせている。）