说明:SAR分别指状态(S)、动作(A)以及奖励(R),下表的Reward Range表示每回合能获得的奖励范围,Steps表示环境中每回合的最大步数
Environment ID | Observation Space | Action Space | Reward Range | Steps |
---|---|---|---|---|
CartPole-v0 | Box(4,) | Discrete(2) | [0,200] | 200 |
CartPole-v1 | Box(4,) | Discrete(2) | [0,500] | 500 |
CliffWalking-v0 | Discrete(48) | Discrete(4) | [-inf,-13] | [13,inf] |
FrozenLake-v1(is_slippery=False) | Discrete(16) | Discrete(4) | 0 or 1 | [6,info] |