Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Algorithms for Inverse Reinforcement Learning #1

Open
usajpn opened this issue Dec 19, 2019 · 0 comments
Open

Algorithms for Inverse Reinforcement Learning #1

usajpn opened this issue Dec 19, 2019 · 0 comments
Labels
IRL Inverse Reinforcement Learning

Comments

@usajpn
Copy link
Owner

usajpn commented Dec 19, 2019

Andrew Ng, Stuart Russel
https://ai.stanford.edu/~ang/papers/icml00-irl.pdf

概要

逆強化学習の元祖論文。手法の主要アプリケーションである模倣学習について触れたのち、3つのアルゴリズムについて少しずつ拡張しながら説明する。特に逆強化学習の根本問題の一つである"degeneracy(縮退)" = "最適な戦略に対して報酬がたくさん存在してしまう問題"について強く言及している。

IRLの問題設定

入力: エキスパートのデモンストレーション、(環境の情報 (状態遷移確率など))
出力: 報酬関数

アプリケーション

  1. 生物学などの理論説明
    蜜蜂🐝の採餌モデルの説明など。
  2. 模倣学習 (Imitation Learning, Apprenticeship Learning)
    デモンストレーションを見せられて、それを真似する行動シーケンスを学習する。

IRL in Finite State Spaces

まずは超重要定理から。

image

つまり何を言っているかというのはこの式を見てもわからないが、導出を見るとわかりやすい。

まず、Value Functionをマトリックスフォームで表現する。

image

これを式変形すると以下に。

image

Value FunctionはRewardに対してTransition Matrixの逆行列っぽいものを掛け合わせたもの。

image

image

一番重要なのはここで、戦略において、最適なactionをa1としたときにそのactionはQ-Functionのargmaxをとったもの。
つまりそれはa1行動をとった場合のQ-Functionはほかの行動をとった場合のQ-Functionと同値または値が大きいことを言える。

image

これをまた式変形していくと、最終的に定理式に辿りつく。
しかし、この式には問題がある。

  1. R=0が答えとなり得る。
  2. Rの答えが複数あることがあり得る。

これを解決しようというのが以降の条件付け。

image

一つは、一番良い行動をとったときのQ-Functionと二番目に良い行動をとったときのQ-Functionの差を最大化しようという考え。

image

もう一つは、Rが大きく発散しないような制約をつけること。

image

つまり�、どういう最適化問題に落ち着くかというと、1番目によいQ-Functionと2番目に良いQ-Functionの差分を最大化するが、その際のRは大きくなりすぎないようにペナルティー項を加える。
先の定理を条件とする。

Linear Function Approximation in Large State Spaces

どうやって大きい状態空間でも対応できるようにするかが次の問題。

image

Φは状態空間から特徴空間への写像。
報酬関数は特徴空間Φと重み係数αの線形結合と考えることで状態空間全てに対して考慮しなくてよい。
そもそも報酬は状態一つ一つを見ているのではなく、特徴に対して付与されているものだろうと考えのもとこのような式が建てられている。特徴写像はResNetとかでもいいし単なるOne-Hot Vectorでもよい。

次に報酬関数はValue FunctionとはLinearな関係にあるので、以下のように表せる。
image

Value Funtionの期待値で先の式を表すことで、無限状態空間においても有効であることを示す。

image

image

IRL from Sampled Trajectories

image

エキスパート戦略が既知でなく、サンプルのみが取れる場合はサンプルをベースにValue Functionの差分を最大化する。

@usajpn usajpn added the IRL Inverse Reinforcement Learning label Dec 19, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
IRL Inverse Reinforcement Learning
Projects
None yet
Development

No branches or pull requests

1 participant