Add LoRA training support with math agent example

binary-husky · binary-husky · commit 09f00fb14969 · 2026-03-30T18:33:48.000+08:00
diff --git a/README.md b/README.md
@@ -18,6 +18,7 @@
 
 ## ✈️ News
 
+- 2026.3.30 LoRA training example is now online! See [tutorial/example_math_lora](tutorial/example_math_lora/) for an example.
 - 2026.3.26 Upgrade verl backend to 0.7.1 to support more models and increase training speed! All [benchmark](https://benchmark.agentjet.top/) verified.
 - 2026.3.19 Support for latest Qwen3.5 models is [in progress](https://github.com/modelscope/AgentJet/pull/16).
 - 2026.3.12 Tuning Original OpenClaw Agent without Editing Any Agent Code. [EN Blog](https://modelscope.github.io/AgentJet/en/example_openclaw/) / [ZH Blog](https://modelscope.github.io/AgentJet/en/example_openclaw.zh/).
@@ -163,7 +164,6 @@ AgentJet is a constantly evolving project. We are planning to add the following
 
 | Category | Feature | Status |
 | :--- | :--- | :--- |
-| **Examples** | Add LoRA training examples | Todo |
 | **Infra** | Optimize configurations for long-context adaptation on smaller GPUs | In Progress |
 | **Capability** | Multi-modal training support | Todo |
 | **Capability** | MARL Credit assignment | Todo |
diff --git a/tutorial/example_math_lora/math_agent.md b/tutorial/example_math_lora/math_agent.md
@@ -0,0 +1,4 @@
+# Training a basic math agent
+
+
+Please refer to document at [`docs/en/example_app_world.md`](docs/en/example_app_world.md)
diff --git a/tutorial/example_math_lora/math_agent.py b/tutorial/example_math_lora/math_agent.py
@@ -0,0 +1,59 @@
+from agentscope.message import Msg
+from loguru import logger
+
+from ajet import AjetTuner, Workflow, WorkflowOutput, WorkflowTask
+
+
+def extract_final_answer(result) -> str:
+    """Extract the final answer from the agent's response."""
+    try:
+        if (
+            hasattr(result, "metadata")
+            and isinstance(result.metadata, dict)
+            and "result" in result.metadata
+        ):
+            return result.metadata["result"]
+        if hasattr(result, "content"):
+            if isinstance(result.content, dict) and "result" in result.content:
+                return result.content["result"]
+            return str(result.content)
+        return str(result)
+    except Exception as e:
+        logger.warning(f"Extract final answer error: {e}. Raw: {result}")
+        return str(result)
+
+
+system_prompt = """
+You are an agent specialized in solving math problems with tools.
+Please solve the math problem given to you.
+You can write and execute Python code to perform calculation or verify your answer.
+You should return your final answer within \\boxed{{}}.
+"""
+
+
+class ExampleMathLearn(Workflow):
+    name: str = "math_agent_workflow"
+
+    async def execute(self, workflow_task: WorkflowTask, tuner: AjetTuner) -> WorkflowOutput:
+        from agentscope.agent import ReActAgent
+        from agentscope.formatter import DashScopeChatFormatter
+        from agentscope.memory import InMemoryMemory
+        from agentscope.tool import Toolkit, execute_python_code
+
+        query = workflow_task.task.main_query
+        self.toolkit = Toolkit()
+        self.toolkit.register_tool_function(execute_python_code)
+        self.agent = ReActAgent(
+            name="math_react_agent",
+            sys_prompt=system_prompt,
+            model=tuner.as_agentscope_model(),
+            formatter=DashScopeChatFormatter(),
+            toolkit=self.toolkit,
+            memory=InMemoryMemory(),
+            max_iters=2,
+        )
+        self.agent.set_console_output_enabled(False)
+        msg = Msg("user", query, role="user")
+        result = await self.agent.reply(msg)
+        final_answer = extract_final_answer(result)
+        return WorkflowOutput(reward=None, metadata={"final_answer": final_answer})
diff --git a/tutorial/example_math_lora/math_agent.yaml b/tutorial/example_math_lora/math_agent.yaml
@@ -0,0 +1,90 @@
+# ------------------ main configuration ------------------
+ajet:
+  project_name: example_math_agent
+  task_reader:
+    type: huggingface_dat_repo # ✨✨✨✨ `env_service` or `dataset_file` or `huggingface_dat_repo`
+    # effective when `type: huggingface_dat_repo`
+    huggingface_dat_repo:
+      dataset_path: '/mnt/data_cpfs/model_cache/modelscope/dataset/openai/gsm8k/main'
+      training_split: "train"
+      validation_split: "test"
+
+  task_judge:
+    # ✨✨✨✨ define your evaluation function
+    judge_protocol: tutorial.example_math_agent.math_answer_as_judge->MathAnswerAsJudge
+
+  model:
+    # ✨✨✨✨ set the model to be trained
+    path: /mnt/data_cpfs/model_cache/modelscope/hub/Qwen/Qwen/Qwen2___5-7B-Instruct
+
+  rollout:
+    user_workflow: "tutorial.example_math_agent.math_agent->ExampleMathLearn" # ✨✨✨✨ write and select workflow
+    # user_workflow: "tutorial.example_math_agent.math_agent_langchain->ExampleMathLearn"                     # ✨if you prefer langchain version
+    # user_workflow: "tutorial/example_math_agent/math_agent_oai_sdk.py->ExampleMathLearn_Simple_NoToolCall"  # ✨if you prefer openai sdk version without toolcall
+    # user_workflow: "tutorial/example_math_agent/math_agent_oai_sdk.py->ExampleMathLearn"                    # ✨if you prefer openai sdk version with toolcall
+    # user_workflow: "tutorial/example_math_agent/math_agent_raw_http.py->ExampleMathLearn"                   # ✨if you do not want to use any agentic framwork at all
+    # user_workflow: "tutorial/example_math_agent/math_agent_simplify.py->MathToolWorkflow"                   # ✨if you prefer to compute reward inside workflow
+    temperature: 1.0
+    max_env_worker: 64
+    num_repeat: 6
+    agent_madness_reward: 0.0
+    tensor_model_parallel_size: 1
+    max_num_seqs: 40
+    multi_turn:
+      max_sample_per_task: 2
+    compute_madness_checklist:
+      - "nonsense"
+      - "wrong_toolcall"
+    max_response_length_in_one_turn: 1024
+    max_model_len: 10000
+    n_vllm_engine: 2
+
+  data:
+    train_batch_size: 100
+    max_prompt_length:   3000
+    max_response_length: 7000
+
+  debug:
+    debug_max_parallel: 1
+    debug_first_n_tasks: 1
+
+  trainer_common:
+    save_freq: 100
+    test_freq: 100
+    total_epochs: 100
+    logger: swanlab
+    val_before_train: true
+
+actor_rollout_ref:
+  model:
+    lora_rank: 32
+    lora_alpha: 32
+    target_modules: all-linear
+  actor:
+    optim:
+      lr: 3e-5
+    fsdp_config:
+      param_offload: true
+      optimizer_offload: true
+  rollout:
+    load_format: safetensors
+
+trinity:
+  synchronizer:
+    sync_offset: 1
+    sync_method: nccl
+
+
+# ------------------ do not modify ------------------
+hydra:
+  searchpath:
+    - file://ajet/default_config
+    - file://ajet/default_config/verl
+    - file://ajet/default_config/trinity
+
+# ------------------ do not modify ------------------
+defaults:
+  - verl_default
+  - trinity_default
+  - ajet_default
+  - _self_
diff --git a/tutorial/example_math_lora/math_answer_as_judge.py b/tutorial/example_math_lora/math_answer_as_judge.py
@@ -0,0 +1,65 @@
+import re
+
+from ajet.task_judge.base_judge import BaseJudge
+from ajet.task_rollout.dashscope_llm_bridge import create_external_llm_fn
+from ajet.workflow import WorkflowOutput, WorkflowTask
+
+
+class MathAnswerAsJudge(BaseJudge):
+    def __init__(self, config):
+        self.config = config
+
+    def compute_reward(self, workflow_task: WorkflowTask, workflow_output: WorkflowOutput) -> tuple:
+        raw_reward = 0
+        final_answer = workflow_output.metadata[
+            "final_answer"
+        ]  # By default there's no final_answer; register it by calling ajet_proxy.update_judge_input_dictionary(final_answer=final_answer) in the workflow
+        reference_answer = workflow_task.task.metadata["answer"]
+        reference_answer = reference_answer.split("####")[-1].strip()
+
+        pattern = r"\\boxed\{([^}]*)\}"
+        match = re.search(pattern, final_answer)
+        if match:
+            result = match.group(1)
+            is_success = result == reference_answer
+        else:
+            is_success = False
+
+        raw_reward = 1.0 if is_success else 0.0
+        return raw_reward, is_success
+
+
+class MathAnswerAndLlmAsJudge(BaseJudge):
+    def __init__(self, config):
+        self.config = config
+
+    def compute_reward(self, workflow_task: WorkflowTask, workflow_output: WorkflowOutput) -> tuple:
+        raw_reward = 0
+        final_answer = workflow_output.metadata[
+            "final_answer"
+        ]  # By default there's no final_answer; register it by calling ajet_proxy.update_judge_input_dictionary(final_answer=final_answer) in the workflow
+        reference_answer = workflow_task.task.metadata["answer"]
+        reference_answer = reference_answer.split("####")[-1].strip()
+
+        external_llm_fn = create_external_llm_fn(
+            alien_llm_model=self.config.ajet.task_judge.alien_llm_model,
+            alien_llm_response_length=self.config.ajet.task_judge.alien_llm_response_length,
+        )
+        messages = [
+            {
+                "role": "system",
+                "content": "Is my result correct? If correct, say <Correct>, otherwise say <NotCorrect>.",
+            },
+            {
+                "role": "user",
+                "content": f"Is my result correct?\n\n\n----\nMy result: {final_answer}\n\n\n----\nReal result: {reference_answer}",
+            },
+        ]
+        res = external_llm_fn(messages=messages)
+        if "<Correct>" in res["content"]:
+            is_success = True
+            raw_reward = 1.0
+        else:
+            is_success = False
+            raw_reward = 0.0
+        return raw_reward, is_success

-Original file line number
+Diff line change
@@ @@ -0,0 +1,4 @@ @@
 +# Training a basic math agent
++
++
 +Please refer to document at [`docs/en/example_app_world.md`](docs/en/example_app_world.md)