diff --git "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md"
index e3452af..8715f75 100644
--- "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md"
+++ "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md"
@@ -313,7 +313,7 @@ $$
 
 ### 4.2 专家如何学习？
 
-ST-MoE 的研究者们发现，**Encorder 中不同的专家倾向于专注于特定类型的 token 或浅层概念**。例如，某些专家可能专门处理标点符号，而其他专家则专注于专有名词等。与此相反，Decorder 中的专家通常具有较低的专业化程度。此外，研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言，但实际上并非如此。由于 token 路由和负载均衡的机制，没有任何专家被特定配置以专门处理某一特定语言。
+ST-MoE 的研究者们发现，**Encoder 中不同的专家倾向于专注于特定类型的 token 或浅层概念**。例如，某些专家可能专门处理标点符号，而其他专家则专注于专有名词等。与此相反，Decoder 中的专家通常具有较低的专业化程度。此外，研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言，但实际上并非如此。由于 token 路由和负载均衡的机制，没有任何专家被特定配置以专门处理某一特定语言。
 
 ### 4.3 专家的数量对预训练有何影响？