Name		Name	Last commit message	Last commit date
parent directory ..
assets		assets
README.md		README.md
agent.py		agent.py
config.py		config.py
trainer.py		trainer.py

README.md

Policy Gradient

Policy-based方法是强化学习中与Value-based(比如Q-learning)相对的方法，其目的是对策略本身进行梯度下降，相关基础知识参考Datawhale-Policy Gradient。其中REINFORCE是一个最基本的Policy Gradient方法，主要解决策略梯度无法直接计算的问题，具体原理参考CSDN-REINFORCE和Reparameterization Trick