[Bug fix] Test td cache messager (#3242)

* support disable cache task in decode node * fix busg * Update engine.py * Update expert_service.py * Update splitwise_connector.py * Optimize log for debug * Optimize log for debug * fix bug --------- Co-authored-by: ltd0924 <ltd0924@sina.com> Co-authored-by: ltd0924 <32387785+ltd0924@users.noreply.github.com>
2025-10-05 16:48:03 +08:00 · 2025-08-06 15:52:45 +08:00
parent a4572a5e5d
commit 110f33a530
5 changed files with 144 additions and 57 deletions
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -113,6 +113,8 @@ class LLMEngine:

        self.start_queue_service()

+        self.enable_decode_cache_task = envs.FD_ENABLE_CACHE_TASK == "1"
+
        if envs.ENABLE_V1_KVCACHE_SCHEDULER:
            self.resource_manager = ResourceManagerV1(
                cfg.max_num_seqs, cfg, cfg.tensor_parallel_size, cfg.splitwise_role
@@ -630,11 +632,15 @@ class LLMEngine:
                                        if self.resource_manager.is_resource_sufficient(task.prompt_token_ids_len):
                                            self.insert_tasks([task])
                                        else:
+                                            if not self.enable_decode_cache_task:
+                                                task.error_msg = "Not enough resources"
                                            new_waiting.append(task)
-
                                    if new_waiting:
-                                        self.waiting_requests.extend(new_waiting)
-                                        llm_logger.info(f"Added {len(new_waiting)} tasks to waiting queue")
+                                        if not self.enable_decode_cache_task:
+                                            self.split_connector.send_cache_infos(new_waiting, -1)
+                                        else:
+                                            self.waiting_requests.extend(new_waiting)
+                                            llm_logger.info(f"Added {len(new_waiting)} tasks to waiting queue")

                    else:
                        time.sleep(0.001)
@@ -805,6 +811,22 @@ class LLMEngine:

        for task in tasks:
            start_span_request("DEQUEUE", task, trace.SpanKind.CONSUMER)
+            if self.cfg.splitwise_role != "mixed":
+                status, msg = self.split_connector.check_decode_allocated(task)
+                if not status:
+                    llm_logger.error(f"{task.request_id} prefill failed with msg:{msg}.")
+                    self.scheduler.put_results(
+                        [
+                            RequestOutput(
+                                request_id=task.request_id,
+                                finished=True,
+                                error_code=500,
+                                error_msg=msg,
+                            )
+                        ]
+                    )
+                    tasks.remove(task)
+                    continue
            if task.sampling_params.bad_words is not None:
                task.sampling_params.update_from_tokenizer(self.data_processor.tokenizer)

@@ -1020,7 +1042,6 @@ class LLMEngine:
            except Exception as e:
                print(f"Error extracting sub services: {e}")

-
        for worker_queue in self.engine_worker_queue_server:
            worker_queue.cleanup()
        if hasattr(self, "send_response_server") and self.send_response_server is not None: