PaddlePaddle
diff --git a/‎fastdeploy/engine/common_engine.py‎
Lines changed: 135 additions & 3 deletions b/‎fastdeploy/engine/common_engine.py‎
Lines changed: 135 additions & 3 deletions
diff --git a/‎fastdeploy/entrypoints/engine_client.py‎
Lines changed: 12 additions & 0 deletions b/‎fastdeploy/entrypoints/engine_client.py‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎fastdeploy/entrypoints/openai/serving_chat.py‎
Lines changed: 23 additions & 0 deletions b/‎fastdeploy/entrypoints/openai/serving_chat.py‎
Lines changed: 23 additions & 0 deletions
diff --git a/‎fastdeploy/entrypoints/openai/serving_completion.py‎
Lines changed: 23 additions & 0 deletions b/‎fastdeploy/entrypoints/openai/serving_completion.py‎
Lines changed: 23 additions & 0 deletions
@@ -47,7 +47,7 @@
 from fastdeploy.plugins.token_processor import load_token_processor_plugins
 from fastdeploy.splitwise.internal_adapter_utils import InternalAdapter
 from fastdeploy.splitwise.splitwise_connector import SplitwiseConnector
-from fastdeploy.utils import EngineError, envs, get_logger, llm_logger
+from fastdeploy.utils import EngineError, envs, get_logger, llm_logger, trace_logger
 
 try:
     TokenProcessor = load_token_processor_plugins()
@@ -384,7 +384,17 @@ def insert_tasks(self, tasks, current_id=-1, allocated=False):
 
         for item in tasks:
             item.schedule_start_time = time.time()
-
+            trace_logger.info(
+                "resource allocate start",
+                extra={
+                    "attributes": {
+                        "request_id": f"{item.request_id}",
+                        "user_id": f"{getattr(item, 'user', '')}",
+                        "event": "RESOURCE_ALLOCATE_START",
+                        "stage": "SCHEDULE",
+                    }
+                },
+            )
         available_batch = np.sum(self.resource_manager.stop_flags)
         if len(tasks) > available_batch:
             self.llm_logger.error(f"Inserting batch:{len(tasks)} exceeds the available batch:{available_batch}.")
@@ -418,6 +428,39 @@ def insert_tasks(self, tasks, current_id=-1, allocated=False):
             self.llm_logger.info(f"Tasks are sent to engine, req_ids={req_ids}")
             for task in tasks:
                 task.inference_start_time = time.time()
+                trace_logger.info(
+                    "resource allocate end",
+                    extra={
+                        "attributes": {
+                            "request_id": f"{task.request_id}",
+                            "user_id": f"{getattr(task, 'user', '')}",
+                            "event": "RESOURCE_ALLOCATE_END",
+                            "stage": "SCHEDULE",
+                        }
+                    },
+                )
+                trace_logger.info(
+                    "request schedule end",
+                    extra={
+                        "attributes": {
+                            "request_id": f"{task.request_id}",
+                            "user_id": f"{getattr(task, 'user', '')}",
+                            "event": "REQUEST_SCHEDULE_END",
+                            "stage": "SCHEDULE",
+                        }
+                    },
+                )
+                trace_logger.info(
+                    "request inference start",
+                    extra={
+                        "attributes": {
+                            "request_id": f"{task.request_id}",
+                            "user_id": f"{getattr(task, 'user', '')}",
+                            "event": "INFERENCE_START",
+                            "stage": "PREFILL",
+                        }
+                    },
+                )
             if not is_prefill:
                 if not self.cfg.model_config.enable_mm:
                     self.update_requests_chunk_size(tasks)
@@ -611,7 +654,18 @@ def _insert_task_to_worker(self):
                     max_num_batched_tokens=self.cfg.scheduler_config.max_num_batched_tokens,
                     batch=num_prefill_batch,
                 )
-
+                for task in tasks:
+                    trace_logger.info(
+                        "request queue end",
+                        extra={
+                            "attributes": {
+                                "request_id": f"{task.request_id}",
+                                "user_id": f"{getattr(task, 'user', '')}",
+                                "event": "REQUEST_QUEUE_END",
+                                "stage": "SCHEDULE",
+                            }
+                        },
+                    )
                 if len(tasks) == 0:
                     time.sleep(0.001)
                     continue
@@ -702,6 +756,18 @@ def _fetch_request():
                                 time.sleep(0.001)
                 # Fetch requests and add them to the scheduling queue
                 if tasks:
+                    for task in tasks:
+                        trace_logger.info(
+                            "resource allocate start",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{task.request_id}",
+                                    "user_id": f"{getattr(task, 'user', '')}",
+                                    "event": "RESOURCE_ALLOCATE_START",
+                                    "stage": "SCHEDULE",
+                                }
+                            },
+                        )
                     if self.cfg.scheduler_config.splitwise_role == "prefill":
                         self.resource_manager.add_request_in_p(tasks)
                     else:
@@ -756,6 +822,39 @@ def _fetch_request():
                                     ]
                                 )
                     self.resource_manager.get_real_bsz()
+                    for task in tasks:
+                        trace_logger.info(
+                            "resource allocate end",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{task.request_id}",
+                                    "user_id": f"{getattr(task, 'user', '')}",
+                                    "event": "RESOURCE_ALLOCATE_END",
+                                    "stage": "SCHEDULE",
+                                }
+                            },
+                        )
+                        trace_logger.info(
+                            "request schedule end",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{task.request_id}",
+                                    "user_id": f"{getattr(task, 'user', '')}",
+                                    "event": "REQUEST_SCHEDULE_END",
+                                    "stage": "SCHEDULE",
+                                }
+                            },
+                        )
+                        trace_logger.info(
+                            "request inference start",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{task.request_id}",
+                                    "user_id": f"{getattr(task, 'user', '')}",
+                                    "event": "INFERENCE_START",
+                                }
+                            },
+                        )
                     self.engine_worker_queue.put_tasks((tasks, self.resource_manager.real_bsz))
                 else:
                     time.sleep(0.005)
@@ -813,6 +912,39 @@ def _insert_zmq_task_to_scheduler(self):
                         start_span("ENQUEUE_ZMQ", data, trace.SpanKind.PRODUCER)
                         main_process_metrics.requests_number.inc()
                         self.llm_logger.debug(f"Receive request: {request}")
+                        trace_logger.info(
+                            "preprocess end",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{data['request_id']}",
+                                    "user_id": f"{data.get('user', '')}",
+                                    "event": "PREPROCESSING_END",
+                                    "stage": "PREPROCESSING",
+                                }
+                            },
+                        )
+                        trace_logger.info(
+                            "request schedule start",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{data['request_id']}",
+                                    "user_id": f"{data.get('user', '')}",
+                                    "event": "REQUEST_SCHEDULE_START",
+                                    "stage": "SCHEDULE",
+                                }
+                            },
+                        )
+                        trace_logger.info(
+                            "request queue start",
+                            extra={
+                                "attributes": {
+                                    "request_id": f"{data['request_id']}",
+                                    "user_id": f"{data.get('user', '')}",
+                                    "event": "REQUEST_QUEUE_START",
+                                    "stage": "SCHEDULE",
+                                }
+                            },
+                        )
                     except Exception as e:
                         self.llm_logger.error(f"Receive request error: {e}, {traceback.format_exc()!s}")
                         err_msg = str(e)
 
@@ -43,6 +43,7 @@
     ParameterError,
     StatefulSemaphore,
     api_server_logger,
+    trace_logger,
 )
 
 
@@ -185,6 +186,17 @@ async def add_requests(self, task):
         """
 
         task["preprocess_start_time"] = time.time()
+        trace_logger.info(
+            "preprocess is started",
+            extra={
+                "attributes": {
+                    "request_id": f"{task['request_id']}",
+                    "user_id": f"{task.get('user', '')}",
+                    "event": "PREPROCESSING_START",
+                    "stage": "PREPROCESSING",
+                }
+            },
+        )
         try:
             chat_template_kwargs = task.get("chat_template_kwargs") or {}
             chat_template_kwargs.update({"chat_template": task.get("chat_template")})
 
@@ -46,6 +46,7 @@
     ParameterError,
     api_server_logger,
     get_host_ip,
+    trace_logger,
 )
 from fastdeploy.worker.output import LogprobsLists
 
@@ -445,6 +446,17 @@ async def chat_completion_stream_generator(
         finally:
             await self.engine_client.connection_manager.cleanup_request(request_id)
             self.engine_client.semaphore.release()
+            trace_logger.info(
+                "request end",
+                extra={
+                    "attributes": {
+                        "request_id": f"{request_id}",
+                        "user_id": f"{getattr(request, 'user', '')}",
+                        "event": "POSTPROCESSING_END",
+                        "stage": "POSTPROCESSING",
+                    }
+                },
+            )
             api_server_logger.info(f"release {request_id} {self.engine_client.semaphore.status()}")
             yield "data: [DONE]\n\n"
 
@@ -598,6 +610,17 @@ async def chat_completion_full_generator(
             choices=choices,
             usage=usage,
         )
+        trace_logger.info(
+            "request end",
+            extra={
+                "attributes": {
+                    "request_id": f"{request_id}",
+                    "user_id": f"{getattr(request, 'user', '')}",
+                    "event": "POSTPROCESSING_END",
+                    "stage": "POSTPROCESSING",
+                }
+            },
+        )
         api_server_logger.info(f"Chat response: {res.model_dump_json()}")
         return res
 
 
@@ -42,6 +42,7 @@
     ParameterError,
     api_server_logger,
     get_host_ip,
+    trace_logger,
 )
 from fastdeploy.worker.output import LogprobsLists
 
@@ -312,6 +313,17 @@ async def completion_full_generator(
         except Exception as e:
             api_server_logger.error(f"Error in completion_full_generator: {e}", exc_info=True)
         finally:
+            trace_logger.info(
+                "request end",
+                extra={
+                    "attributes": {
+                        "request_id": f"{request_id}",
+                        "user_id": f"{getattr(request, 'user', '')}",
+                        "event": "POSTPROCESSING_END",
+                        "stage": "POSTPROCESSING",
+                    }
+                },
+            )
             self.engine_client.semaphore.release()
             if dealer is not None:
                 await self.engine_client.connection_manager.cleanup_request(request_id)
@@ -547,6 +559,17 @@ async def completion_stream_generator(
             api_server_logger.error(f"Error in completion_stream_generator: {e}, {str(traceback.format_exc())}")
             yield f"data: {ErrorResponse(error=ErrorInfo(message=str(e), code='400', type=ErrorType.INTERNAL_ERROR)).model_dump_json(exclude_unset=True)}\n\n"
         finally:
+            trace_logger.info(
+                "request end",
+                extra={
+                    "attributes": {
+                        "request_id": f"{request_id}",
+                        "user_id": f"{getattr(request, 'user', '')}",
+                        "event": "POSTPROCESSING_END",
+                        "stage": "POSTPROCESSING",
+                    }
+                },
+            )
             del request
             if dealer is not None:
                 await self.engine_client.connection_manager.cleanup_request(request_id)