diff --git "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" index e3452af..8715f75 100644 --- "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" +++ "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" @@ -313,7 +313,7 @@ $$ ### 4.2 专家如何学习? -ST-MoE 的研究者们发现,**Encorder 中不同的专家倾向于专注于特定类型的 token 或浅层概念**。例如,某些专家可能专门处理标点符号,而其他专家则专注于专有名词等。与此相反,Decorder 中的专家通常具有较低的专业化程度。此外,研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言,但实际上并非如此。由于 token 路由和负载均衡的机制,没有任何专家被特定配置以专门处理某一特定语言。 +ST-MoE 的研究者们发现,**Encoder 中不同的专家倾向于专注于特定类型的 token 或浅层概念**。例如,某些专家可能专门处理标点符号,而其他专家则专注于专有名词等。与此相反,Decoder 中的专家通常具有较低的专业化程度。此外,研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言,但实际上并非如此。由于 token 路由和负载均衡的机制,没有任何专家被特定配置以专门处理某一特定语言。 ### 4.3 专家的数量对预训练有何影响?