test skill

binary-husky · binary-husky · commit f906d2ef1a4c · 2026-03-11T17:33:05.000+08:00
diff --git a/ajet/context_tracker/multiagent_tracking.py b/ajet/context_tracker/multiagent_tracking.py
@@ -603,26 +603,27 @@ def check_context_token_num_safe(
             add_generation_prompt=True,
             tokenize=False,
         )
-        length = len(self.tokenizer(prompt_text, return_tensors="pt", padding=False)["input_ids"][0])  # type: ignore
+        prompt_token_length = len(self.tokenizer(prompt_text, return_tensors="pt", padding=False)["input_ids"][0])  # type: ignore
         max_response_length_in_one_turn = self.config.ajet.rollout.max_response_length_in_one_turn
         max_model_len: int = self.config.ajet.rollout.max_model_len
         max_seq_length: int = max_model_len - max_response_length_in_one_turn
-        # length: the length of current all previous context
+        # prompt_token_length: the prompt_token_length of current all previous context
         # max_seq_length: max_model_len - max_response_length_in_one_turn
-        if length < max_seq_length:
+        if prompt_token_length < max_seq_length:
             token_overflow = False
         else:
             token_overflow = True
         if self.should_interrupt_soft_fn():
             ret = (False, token_overflow, "externally_interrupted")
         elif self.already_mad_flag and self.config.ajet.rollout.agent_madness_termination:
             ret = (False, token_overflow, "already_mad")
-        elif length < max_seq_length:
+        elif prompt_token_length < max_seq_length:
             ret = (
                 True,
                 token_overflow,
-                f"safe[{length} < {max_model_len} - {max_response_length_in_one_turn}]",
+                f"safe[{prompt_token_length} < {max_model_len} - {max_response_length_in_one_turn}]",
             )
         else:
-            ret = (False, token_overflow, "token_overflow")
+            ret = (False, token_overflow,
+                   f"token_overflow(prompt_token_length.{prompt_token_length}>=max_model_len.{max_model_len}-max_response_length_in_one_turn.{max_response_length_in_one_turn})")
         return ret
diff --git a/ajet/copilot/job.py b/ajet/copilot/job.py
@@ -92,9 +92,9 @@ def __init__(
             raise ValueError(f"Configuration yaml is absent! {base_yaml_config}")
 
         # Validate: max_prompt_length, max_response_length, max_model_len must all be None or all be non-None
-        length_params = [max_prompt_length, max_response_length, max_model_len]
+        length_params = [max_prompt_length, max_response_length, max_model_len, max_response_length_in_one_turn]
         if not (all(p is None for p in length_params) or all(p is not None for p in length_params)):
-            raise ValueError("max_prompt_length, max_response_length, max_model_len must all be None or all be non-None")
+            raise ValueError("(`max_prompt_length`, `max_response_length`, `max_model_len`, `max_response_length_in_one_turn`) must all be None or all be non-None")
 
         self.config_as_dict: dict = self.build_job_from_yaml(base_yaml_config)
         self.config = Config.update_from_dict_recursive(Config(), self.config_as_dict)
@@ -159,6 +159,7 @@ def __init__(
 
 
         assert self.max_prompt_length + self.max_response_length <= self.max_model_len, "illegal token length"
+        assert self.max_response_length_in_one_turn <= self.max_response_length
         if self.backbone == "trinity":
             raise NotImplementedError("Trinity backbone is not yet supported in AgentJetJob.")
 
diff --git a/ajet/task_rollout/async_llm_bridge.py b/ajet/task_rollout/async_llm_bridge.py
@@ -84,11 +84,11 @@ async def llm_chat_verl(
                 add_generation_prompt=True,
                 tokenize=False,
             )
-            prompt_ids = self.tokenizer(prompt_text)["input_ids"]
+            prompt_token_ids = self.tokenizer(prompt_text)["input_ids"]
 
             final_res = await self.async_rollout_manager.generate(
                 request_id=request_id,
-                prompt_ids=prompt_ids,
+                prompt_ids=prompt_token_ids,
                 sampling_params=updated_sampling_params,
             )
 
@@ -135,17 +135,19 @@ async def llm_chat_verl(
             max_response_length_in_one_turn = self.config.ajet.rollout.max_response_length_in_one_turn
             max_model_len: int = self.config.ajet.rollout.max_model_len
             max_seq_length: int = max_model_len - max_response_length_in_one_turn
-            if len(prompt_ids) < max_seq_length:
+            if len(prompt_token_ids) >= max_seq_length:
                 finish_reason = "length"
             else:
                 finish_reason = "stop"
             if tool_calls:
                 finish_reason = "tool_calls"
             usage = {
-                "prompt_tokens": len(prompt_ids),
+                "prompt_tokens": len(prompt_token_ids),
                 "completion_tokens": len(token_array), # type: ignore
-                "total_tokens": len(prompt_ids) + len(token_array), # type: ignore
+                "total_tokens": len(prompt_token_ids) + len(token_array), # type: ignore
             }
+            print("====----====usage", usage)
+            print("====----====finish_reason", finish_reason)
             return {
                 "role": "assistant",
                 "request_id": request_id,
@@ -243,7 +245,7 @@ async def main():
             max_response_length_in_one_turn = self.config.ajet.rollout.max_response_length_in_one_turn
             max_model_len: int = self.config.ajet.rollout.max_model_len
             max_seq_length: int = max_model_len - max_response_length_in_one_turn
-            if len(prompt_token_ids) < max_seq_length:
+            if len(prompt_token_ids) >= max_seq_length:
                 finish_reason = "length"
             else:
                 finish_reason = "stop"
@@ -371,7 +373,7 @@ async def run_infer(
             if token_overflow:
                 # ajet_action_when_overflow = self.config.ajet.rollout.ajet_action_when_overflow
                 # cannot proceed due to context overflow
-                return self.construct_overflow_response()
+                return self.construct_overflow_response(info)
             # else:
             #     otherwise, for abnormal output, can still proceed, but we do not track output anymore
 
@@ -383,12 +385,13 @@ async def run_infer(
         return llm_output
 
 
-    def construct_overflow_response(self):
+    def construct_overflow_response(self, info):
         return {
             "role": "assistant",
             "request_id": "overflow_response",
-            "content": "ajet_proxy: Exceeded max model context length.",
+            "content": f"AgentJet: Exceeded max model context length. {info}",
             "tool_calls": None,
+            "finish_reason": "length",
             "tokens": [],
         }
 
diff --git a/docs/en/example_train_multi_model.zh.md b/docs/en/example_train_multi_model.zh.md
@@ -1,4 +1,4 @@
-# 非共享参数多智能体强化学习：学术翻译实战
+# 非共享参数多智能体强化学习实战
 
 在传统的多智能体强化学习（MARL）系统中，所有智能体通常共享同一套模型参数——这意味着无论有多少个智能体，它们都共用一个"大脑"。这种设计虽然简单，但在实际应用中存在明显的局限性：不同智能体可能需要不同规模的模型来执行不同复杂度的任务。AgentJet 的 Swarm 训练模式突破了这一限制，实现了真正的**非共享参数多智能体强化学习**。
 
@@ -176,6 +176,11 @@ sequenceDiagram
 4. 将各自的奖励汇报给对应的 Swarm Server
 5. 两个 Server 独立执行策略梯度更新
 
+## 训练曲线
+
+![alt text](https://img.alicdn.com/imgextra/i2/O1CN0161wtDk1zZwFmIX15x_!!6000000006729-2-tps-2978-1413.png)
+
+
 ## 优势总结
 
 与传统的单模型共享参数训练相比，非共享参数多智能体强化学习具有显著优势：
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -64,6 +64,7 @@ nav:
 
   - • Blogs:
       - Swarm Intro (ZH): en/swarm_intro_blog_zh.md
+      - Multi Model Trainning (ZH): en/example_train_multi_model.zh.md
 
 plugins:
   - search:
diff --git a/tutorial/opencode_build_openclaw_agent/fake_vllm_endpoint.py b/tutorial/opencode_build_openclaw_agent/fake_vllm_endpoint.py
@@ -48,6 +48,7 @@
     max_prompt_length=16000,    # at least 16000
     max_response_length=8000,
     max_model_len=24000,        # bigger than / equal to `max_prompt_length + max_response_length`
+    max_response_length_in_one_turn=4000,
 )
 
 class EpisodeResult(BaseModel):
@@ -102,6 +103,29 @@ async def proxy_chat_completion(base_url: str, api_key: str, request: Request, i
             return resp.json()
 
 
+def _check_finish_reason_length(response_data: Dict | List[bytes]) -> bool:
+    """Return True if any choice has finish_reason='length'."""
+    if isinstance(response_data, list):
+        for raw in response_data:
+            line = raw.decode() if isinstance(raw, bytes) else raw
+            if not line.startswith("data:"):
+                continue
+            payload = line[len("data:"):].strip()
+            if payload == "[DONE]":
+                break
+            try:
+                chunk = json.loads(payload)
+                finish_reason = chunk.get("choices", [{}])[0].get("finish_reason")
+                if finish_reason == "length":
+                    return True
+            except Exception:
+                pass
+        return False
+    else:
+        choices = response_data.get("choices", [])
+        return any(c.get("finish_reason") == "length" for c in choices)
+
+
 async def run_single_episode(episode_index: int, request: Request, is_stream: bool) -> EpisodeResult:
     """Run a single episode."""
     assert swarm_client is not None
@@ -113,6 +137,18 @@ async def run_single_episode(episode_index: int, request: Request, is_stream: bo
             request=request,
             is_stream=is_stream,
         )
+        if _check_finish_reason_length(response_data):
+            raise HTTPException(
+                status_code=400,
+                detail={
+                    "error": {
+                        "message": "This model's maximum context length is exceeded. Please reduce the length of the messages.",
+                        "type": "invalid_request_error",
+                        "param": "messages",
+                        "code": "context_length_exceeded",
+                    }
+                },
+            )
         return EpisodeResult(episode_uuid=episode_uuid, response=response_data)
     except Exception as e:
         logger.error(f"Error in episode {episode_index}: {e}")
@@ -126,7 +162,10 @@ async def run_all_episodes(request: Request, is_stream: bool) -> List[EpisodeRes
     results = await asyncio.gather(*episode_tasks, return_exceptions=True)
     valid_results: List[EpisodeResult] = []
     for result in results:
-        if isinstance(result, Exception):
+        if isinstance(result, HTTPException) and result.status_code == 400:
+            # Propagate context_length_exceeded directly to client
+            raise result
+        elif isinstance(result, Exception):
             logger.warning(f"Episode failed: {result}")
         elif isinstance(result, EpisodeResult):
             valid_results.append(result)
@@ -195,29 +234,19 @@ def start_engine_background():
 async def one2many_proxy(request: Request, path: str):
     """Main proxy endpoint."""
     global REQUEST_COUNTER
-    try:
-        if request.method == "POST" and path == "chat/completions":
-            REQUEST_COUNTER += 1
-            request_id = f"req_{REQUEST_COUNTER}_{uuid.uuid4().hex[:8]}"
-            logger.info(f"Received chat completion request {request_id}")
-            response_data = await handle_one2many_request(request, request_id)
-            if isinstance(response_data, list):
-                async def stream_chunks(chunks: List[bytes]):
-                    for chunk in chunks:
-                        yield chunk + b"\n\n"
-                return StreamingResponse(stream_chunks(response_data), media_type="text/event-stream")
-            return response_data
-        else:
-            raise HTTPException(status_code=404, detail="Not Found")
-    except httpx.TimeoutException:
-        logger.error(f"Timeout proxying {request.method} {path}")
-        raise HTTPException(status_code=504, detail="Gateway Timeout")
-    except httpx.ConnectError:
-        logger.error(f"Connection error proxying {request.method} {path}")
-        raise HTTPException(status_code=502, detail="Bad Gateway")
-    except Exception as e:
-        logger.exception(f"Unexpected error proxying {request.method} {path}: {e}")
-        raise HTTPException(status_code=500, detail="Internal Server Error")
+    if request.method == "POST" and path == "chat/completions":
+        REQUEST_COUNTER += 1
+        request_id = f"req_{REQUEST_COUNTER}_{uuid.uuid4().hex[:8]}"
+        logger.info(f"Received chat completion request {request_id}")
+        response_data = await handle_one2many_request(request, request_id)
+        if isinstance(response_data, list):
+            async def stream_chunks(chunks: List[bytes]):
+                for chunk in chunks:
+                    yield chunk + b"\n\n"
+            return StreamingResponse(stream_chunks(response_data), media_type="text/event-stream")
+        return response_data
+    else:
+        raise HTTPException(status_code=404, detail="Not Found")
 
 
 @app.get("/health")