[feat] add metrics for yiyan adapter (#3615)

* [feat] add metrics for yiyan adapter (#3219) * [feat] add metrics for yiyan adapter * [fix] fix metrics num_requests_waiting and num_requests_running * [fix] fix metrics gpu_cache_usage_perc * [refactor] change where requests_number increases * [chore] rename xxx_block_num as xxx_gpu_block_num, and update their values accordingly * [chore] delete useless code * [fix] fix error
2025-10-06 00:57:33 +08:00 · 2025-08-28 21:16:58 +08:00
parent 6039cdc2c5
commit aad9d3564e
7 changed files with 186 additions and 20 deletions
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -381,6 +381,8 @@ class LLMEngine:
                    get_request_pool.submit(_fetch_request)
                # 2. Schedule requests
                tasks = self.resource_manager.schedule()
+                main_process_metrics.num_requests_waiting.dec(len(tasks))
+                main_process_metrics.num_requests_running.inc(len(tasks))
                # 3. Send to engine
                if tasks:
                    self.resource_manager.get_real_bsz()
@@ -414,6 +416,7 @@ class LLMEngine:
                    request = Request.from_dict(data)
                    start_span("ENQUEUE_ZMQ", data, trace.SpanKind.PRODUCER)

+                    main_process_metrics.requests_number.inc()
                    llm_logger.debug(f"Receive request: {request}")

                    err_msg = None