Twin Delayed DDPG

TD3 can be seen as an improved version of DDPG, which utilizes clipped double q-learning, meaning that it learns two action value functions instead of one.

Also, the actor updates are delayed (updates are less frequent than the critic updates).


The result of trained DDPG agent after 500 episodes for HalfCheetah environment.


The result of trained DDPG agent after 500 episodes for Pendulum environment.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Twin Delayed DDPG

Files

README.md

Latest commit

History

README.md

File metadata and controls

Twin Delayed DDPG