Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Making Efficient Use ofDemonstrations to Solve Hard Exploration Problems #58

Open
kzmssk opened this issue Sep 20, 2019 · 1 comment
Open

Comments

@kzmssk
Copy link
Member

kzmssk commented Sep 20, 2019

RNNを使った分散型Q学習アルゴリズムR2D2にエキスパートの軌道からなるReplay Bufferを追加することで探索効率を向上させた

論文本体・著者

解きたい問題

  • 報酬が疎であり、かつ初期状態のバリエーションが多いようなPOMDP環境でもタスク達成が可能な強化学習エージェントを作りたい

新規性

  • SoTAだった分散型Q学習アルゴリズムR2D2にエキスパートのエピソードを集めたReplay Buffer(demo replay)を追加して探索効率を上げたこと
    • 提案手法の名前はRecurrent Replay DistributedDQN fromDemonstrations(R2D3)
  • Hard-Eight Task Suiteと呼ばれるPOMDPかつ強化学習エージェントにとって探索が難しい環境を設計した

実装

image
論文 Fig. 1 より 提案学習アルゴリズムの概要図
  • R2D2に人間が行動決定をして収集したエピソードを集めたdemo replayを追加
    • ε-greedy方策で経験データを収集するactorを並列して複数使用
    • actorが生成したエピソードを優先度付き経験再生(Prioritized Experience Replay)するためのReplay Buffer
    • 人間のエピソードを集めたReplay Buffer
    • 方策の更新を行うLearnerはdemo replay, agent replayからそれぞれ確率ρ, 1-ρでシーケンスをサンプリングし、これをバッチとして学習
    • 方策のパラメータ更新が行われるたびに2つのBufferの優先度がTD誤差を使って更新される
image
論文 Fig. 3 より 提案タスクセットHard-Eightの8つのタスクの1つ"Baseball"の例
  • R2D3の有効性を示すために探索が難しいPOMDP環境における8つのタスクを設計
    • 一人称視点の3D環境(環境の状態全てを一度に観測できない)
    • 1つを除いて全てのタスクではエピソード終了時にしか正の報酬が与えられない
    • 壁の色やオブジェクトの配置などを変えて初期状態が毎回変わる
    • 1つのタスクは図のように複数のサブタスクから構成されており、最後にゴール(リンゴの取得)する必要がある

実験・議論

image
論文 Fig. 5 より 提案タスクセットHard-Eightを使ったR2D3と既存手法の比較実験結果
  • R2D3をHard-Eightの8つのタスクで既存手法と比較
    • Behavior Cloning (BC): 人間が操作して得られたエピソードを教師データとしてcross-entropy lossで学習した方策
    • DQfD: Q-NetworkをRNNではなくFeed Forward Neural Networkにしたもの
    • R2D2: 提案手法からdemo replayを抜いたもの
  • demo replayでは人間のプレイデータとして100エピソードを使った
  • 既存手法はどれも上手くいかなった
  • 提案手法は6つのタスクで人間と同程度または人間以上になった
    • "Remember Sensor"と"Throw Across"が学習できなかったのは経験再生の際にRNNの隠れ状態を前向き計算によって取得するburn-inのステップ長が短かったのではないか
image
論文 Fig. 6 より 全てのタスクにおける提案手法のdemo replayの混合確率ρの比較結果
  • 8つ全てのタスクでdemo replayの混合確率ρを変えて学習を行い、学習後のタスク達成率を比較した
  • 予想に反して小さいエキスパートの確率が良い結果になった

読んだ中での不明点などの感想

  • 提案手法を提案実験方法で比較しているので、他の強化学習の問題でも提案手法の優位性が示されるかは疑問が残る
  • エキスパートの混合確率をどこまで小さくするとR2D2(混合確率0)の結果と並ぶのか気になった

関連論文

@mrstash101
Copy link

Amazed

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants