EnsekiTT Blog

EnsekiTTが書くブログです。

Universeがリリースされたので、まずはReadmeを読んで実行してみた。

つまりなにしたの

UniverseのReadmeを読んで、OSXで動くことを確認した。

openai.com
汎用的な能力を持つ人工知能の能力を計測したり、学習するための環境として作られたプラットフォーム

構成としては、
Docker中で実行しているゲームにVNCでアクセスして、
ゲーム画面の情報をエージェントに渡して、
マウスやキーボードをエージェントが操作して、
報酬をゲーム画面から取得して、
報酬をもらうと嬉しいエージェントがどんどん賢くなっていく。

続きを読む

週末に3DSもポケモンもなかったのでChainerでDQNを育てた話。

つまりなにしたの

ブロック崩しなどで一世を風靡したDeep Q NetworkをChainerで実装して、OpenAIの環境で育てた。
youtu.be

基本的な強化学習の流れ

ゲームそのものをEnvironment
ゲームで言うプレイヤーをAgent
プレイヤーの操作をAction
プレイヤーはプレイの結果をゲーム画面を観察、つまりObservationして確認する(日本語に組み込むと変な感じ
ゲーム画面には、ゲームの状態(残りのブロックの画像とか)、Stateが表示される。
ゲーム画面には、ゲームのスコア(上がると嬉しいもの)、Rewardも表示される。

プレイヤーは操作とゲーム画面の組み合わせからこれはうまくいった、うまくいく流れ来たけどなんかこれ以上スコア上がらん…大きく変えるか!
とかを繰り返して学習を勧めていく。
(英単語はOpenAI Gymの表現と合わせている。)

続きを読む
クリエイティブ・コモンズ・ライセンス
この 作品 は クリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。