Making Efficient Use ofDemonstrations to Solve Hard Exploration Problems #58

kzmssk · 2019-09-20T05:35:35Z

RNNを使った分散型Q学習アルゴリズムR2D2にエキスパートの軌道からなるReplay Bufferを追加することで探索効率を向上させた

論文本体・著者

Making Efficient Use of Demonstrations to Solve Hard Exploration Problems
- https://deepmind.com/research/publications/Making-Efficient-Use-of-Demonstrations-to-Solve-Hard-Exploration-Problems
- Caglar Gulcehre, Tom Le Paine, Bobak Shahriari, Misha Denil, Matt Hoffman, Hubert Soyer, Richard Tanburn, Steven Kapturowski,
  Neil Rabinowitz, Duncan Williams, Gabriel Barth-Maron, Ziyu Wang, Nando de Freitas, and Worlds Team.
- DeepMind, London

SoTAだった分散型Q学習アルゴリズムR2D2にエキスパートのエピソードを集めたReplay Buffer（demo replay）を追加して探索効率を上げたこと
- 提案手法の名前はRecurrent Replay DistributedDQN fromDemonstrations(R2D3）
Hard-Eight Task Suiteと呼ばれるPOMDPかつ強化学習エージェントにとって探索が難しい環境を設計した


論文 Fig. 1 より　提案学習アルゴリズムの概要図


論文 Fig. 3 より　提案タスクセットHard-Eightの8つのタスクの1つ"Baseball"の例

R2D3の有効性を示すために探索が難しいPOMDP環境における8つのタスクを設計
- 一人称視点の3D環境（環境の状態全てを一度に観測できない）
- 1つを除いて全てのタスクではエピソード終了時にしか正の報酬が与えられない
- 壁の色やオブジェクトの配置などを変えて初期状態が毎回変わる
- １つのタスクは図のように複数のサブタスクから構成されており、最後にゴール（リンゴの取得）する必要がある


論文 Fig. 5 より　提案タスクセットHard-Eightを使ったR2D3と既存手法の比較実験結果

R2D3をHard-Eightの8つのタスクで既存手法と比較
- Behavior Cloning (BC): 人間が操作して得られたエピソードを教師データとしてcross-entropy lossで学習した方策
- DQfD: Q-NetworkをRNNではなくFeed Forward Neural Networkにしたもの
- R2D2: 提案手法からdemo replayを抜いたもの
demo replayでは人間のプレイデータとして100エピソードを使った
既存手法はどれも上手くいかなった
提案手法は6つのタスクで人間と同程度または人間以上になった
- "Remember Sensor"と"Throw Across"が学習できなかったのは経験再生の際にRNNの隠れ状態を前向き計算によって取得するburn-inのステップ長が短かったのではないか


論文 Fig. 6 より　全てのタスクにおける提案手法のdemo replayの混合確率ρの比較結果