这是我个人学习强化学习的时候收集的比较经典的学习资料、笔记和代码,分享给所有人。
- David Silver 的 Reinforcement Learning 课程学习笔记。
- 课程对应的所有PPT
- Sutton 的 Reinforcement Learning: An Introduction书本学习笔记
- 书本的各版本pdf
所有的实验源代码都在lib
目录下,来自dennybritz。在原先代码的基础上,增加了对实验背景的具体介绍、代码和公式的对照。
- Gridworld:对应MDP的Dynamic Programming
- Blackjack:对应Model Free的Monte Carlo的Planning和Controlling
- Windy Gridworld:对应Model Free的Temporal Difference的On-Policy Controlling:SARSA。
- Cliff Walking:对应Model Free的Temporal Difference的Off-Policy Controlling:Q-learning。
- Mountain Car:对应Q表格很大无法处理(state空间连续)的Q-Learning with Linear Function Approximation。
- Atari:对应Deep-Q Learning。