You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
逆強化学習ループの中の強化学習問題を解かないで良いように最初からエキスパートデータを入力として状態における行動のMulti Class Classification問題を解く。Multi Class Classification問題で求めたパラメータをそのまま報酬関数のパラメータとして使用して強化学習をせずに直接報酬関数を求める。
Edouard Klein, Matthieu Geist, Bilal Piot, Olivier Pietquin
https://papers.nips.cc/paper/4551-inverse-reinforcement-learning-through-structured-classification.pdf
NIPS 2012
概要
逆強化学習ループの中の強化学習問題を解かないで良いように最初からエキスパートデータを入力として状態における行動のMulti Class Classification問題を解く。Multi Class Classification問題で求めたパラメータをそのまま報酬関数のパラメータとして使用して強化学習をせずに直接報酬関数を求める。
所感
Inner Loopの強化学習を解かないのは画期的だが、
MaxEnt IRLが出て以来、probabilisticなモデルでなく、SVM系列モデルでの論文なので、流行らなかったか?
The text was updated successfully, but these errors were encountered: