docs: 📝 update readme.md

Phoenix-Shen · Phoenix-Shen · commit 31ee43571c73 · 2021-12-12T00:47:17.000+08:00
diff --git a/AsynchronousAdvantageActorCritic(A3C)/readme.md b/AsynchronousAdvantageActorCritic(A3C)/readme.md
@@ -14,9 +14,12 @@ Deep Mind 提出的一种解决 Actor Critic 不收敛问题的算法，它会
 
 ---
 
-## python 多线程无法占用：使用 multiprocessing 的包
+## python 多线程无法占用：使用 torch.multiprocessing 的包
 
 - Python 由于全局锁 GIL 的存在，无法享受多线程带来的性能提升。
 
 - multiprocessing 包采用子进程的技术避开了 GIL，使用 multiprocessing 可以进行多进程编程提高程序效率。
+- multiprocessing 使用`共享内存`进行进程中的通信
 - 模型并行：把模型拆分放到不同的设备进行训练
+- 数据并行：把数据切分，并复制到各个机器上，然后将所有结果按照某种算法 hebing
+- https://ptorch.com/news/176.html
diff --git a/DeepDeterministicPolicyGradient/model.py b/DeepDeterministicPolicyGradient/model.py
@@ -146,7 +146,9 @@ def learn(self):
         # 跟require_grad不同，require_grad=False的使用可以 #
         # 在训练过程中冻结网络参数 ，于此相同的还有with t.no_grad()#
         #################################################
-        loss_actor.backward(retain_graph=True)
+
+        # loss_actor.backward(retain_graph=True) ?
+        loss_actor.backward(retain_graph=False)
         self.optimizer_actor.step()
 
         # TRAIN CRITIC
diff --git a/readme.md b/readme.md
@@ -53,16 +53,6 @@ Fixed Q-target: `在神经网络中，Q 的值并不是互相独立的，所以
 
 ---
 
-## DQN with Prioritized Experience Replay
-
-在 DQN 中，我们有 Experience Replay，但是这是经验是随机抽取的，我们需要让好的、成功的记忆多多被学习到，所以我们在抽取经验的时候，就需要把这些记忆优先给网络学习，于是就有了`Prioritized`Experience Replay
-
-## Dueling DQN
-
-将 Q 值的计算分成状态值 state_value 和每个动作的值 advantage，可以获得更好的性能
-
----
-
 ## Policy Gradient
 
 核心思想：让好的行为多被选择，坏的行为少被选择。<br>
@@ -77,12 +67,41 @@ Fixed Q-target: `在神经网络中，Q 的值并不是互相独立的，所以
 
 ---
 
+# 2021-12-12
+
+## Dueling DQN
+
+将 Q 值的计算分成状态值 state_value 和每个动作的值 advantage，可以获得更好的性能
+
+---
+
+## DQN with Prioritized Experience Replay
+
+在 DQN 中，我们有 Experience Replay，但是这是经验是随机抽取的，我们需要让好的、成功的记忆多多被学习到，所以我们在抽取经验的时候，就需要把这些记忆优先给网络学习，于是就有了`Prioritized`Experience Replay
+
+---
+
 ## DDPG
 
 ![](DeepDeterministicPolicyGradient\principle.png)
 
+- Exploration noise
+- Actor-Critic Achetecture
+- Fixed Q-Target
+- Policy Gradient
+- Experience Replay (OFF-POLICY)
+
+## A3C
+
+- A3C 里面有多个 agent 对网络进行异步更新，相关性较低
+- 不需要积累经验，占用内存少
+- on-policy 训练
+- 多线程异步,速度快
+
 ## Requirements
 
+- numpy
+- tensorboardX
 - torch
 - gym