PaddlePaddle · gzy19990617 · Jul 18, 2025 · Jul 21, 2025 · Jul 21, 2025 · Jul 21, 2025
diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
@@ -63,10 +63,10 @@ def _init_model(self) -> nn.Layer:
         model.eval()
         return model
 
-    def get_name_mappings_to_training(self) -> Dict[str, str]:
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Get parameter name mappings between rollout and training models."""
-        return getattr(self.rollout_model, "get_name_mappings_to_training", lambda: {})()
-
+        return getattr(self.rollout_model, "get_name_mappings_to_training", lambda: {})(trainer_degree)
+ 
     def get_quantization_infer_keys(self) -> Dict[str, str]:
         """Get parameter name mappings between rollout and training models."""
         return getattr(self.rollout_model, "get_quantization_infer_keys", lambda: {})()
@@ -108,9 +108,6 @@ def _complete_missing_mappings(self) -> None:
                 # Skip weight scale parameters in mapping. Train and infer have same key.
                 self.infer_to_train_mapping[key] = key
 
-        if getattr(self.fd_config.model_config, "tie_word_embeddings", False):
-            self.infer_to_train_mapping.pop("lm_head.linear.weight")
-
     def get_quantization_infer_keys(self) -> list[str]:
         """Get quantization infer keys"""
         quant_weight_key = []
@@ -143,7 +140,7 @@ def name(self) -> str:
         """name"""
         return "Ernie4_5_MoeForCausalLMRL"
 
-    def get_name_mappings_to_training(self) -> Dict[str, str]:
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Generate mapping between inference and training parameter for RL(donot delete!)."""
         # Prepare placeholders
         place_holders = ["weight"]
@@ -216,7 +213,7 @@ def name(self) -> str:
         """name"""
         return "Ernie4_5_VLMoeForConditionalGenerationRL"
 
-    def get_name_mappings_to_training(self) -> Dict[str, str]:
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Generate mapping between inference and training parameter for RL(donot delete!)."""
         # Prepare placeholders
         place_holders = ["weight"]
@@ -284,9 +281,9 @@ def _generate_ranges(start, end, step=16, take=8):
 
         assert isinstance(self.fd_config.model_config.moe_num_experts, list)
         total_moe_num = sum(self.fd_config.model_config.moe_num_experts)
-        rollout_model_degree = self.fd_config.parallel_config.tensor_parallel_size
-        expert_num_per_rank = self.fd_config.model_config.moe_num_experts[0] // rollout_model_degree
-
+        if not trainer_degree:
+            trainer_degree = self.fd_config.parallel_config.tensor_parallel_size
+        expert_num_per_rank = self.fd_config.model_config.moe_num_experts[0] // trainer_degree
         # Process MoE layers
         for layer_idx in range(text_moe_layer_start_index, text_moe_layer_end_index):
             _add_expert_mappings(layer_idx, "text", expert_start=0)
@@ -317,7 +314,7 @@ def name(self) -> str:
         """name"""
         return "Qwen2ForCausalLMRL"
 
-    def get_name_mappings_to_training(self) -> Dict[str, str]:
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Generate mapping between inference and training parameter for RL(donot delete!)."""
         # Prepare placeholders
         place_holders = ["weight"]
@@ -361,7 +358,7 @@ def name(self) -> str:
         """name"""
         return "Qwen3MoeForCausalLMRL"
 
-    def get_name_mappings_to_training(self) -> Dict[str, str]:
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Generate mapping between inference and training parameter for RL(donot delete!)."""
         # Prepare placeholders
         place_holders = ["weight"]
@@ -430,6 +427,6 @@ def __init__(self, fd_config: FDConfig):
     def name(self) -> str:
         """name"""
         return "Qwen3ForCausalLMRL"
-
-    def get_name_mappings_to_training(self) -> Dict[str, str]:
+  
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         pass