fix ENABLE_V1_KVCACHE_SCHEDULER (#3625)

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
2025-09-26 20:41:53 +08:00 · 2025-08-27 21:21:29 +08:00
parent 2974016103
commit b28a0343a6
2 changed files with 7 additions and 1 deletions
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -27,6 +27,7 @@ import time
 import traceback
 import uuid
 import weakref
+from dataclasses import asdict

 import numpy as np
 import paddle
@@ -190,6 +191,8 @@ class LLMEngine:
        """
        # TODO 输入输出长度确认

+        if sampling_params is not None:
+            task.update(asdict(sampling_params))
        request = Request.from_dict(task)
        llm_logger.info(f"Receive request {request}")
        if sampling_params is not None:
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -263,7 +263,10 @@ class GPUModelRunner(ModelRunnerBase):
                        position_ids, request.get("max_tokens", 2048)
                    )

-                input_ids = request.prompt_token_ids + request.output_token_ids
+                if len(request.output_token_ids) == 0:
+                    input_ids = request.prompt_token_ids
+                else:
+                    input_ids = request.prompt_token_ids + request.output_token_ids
                logger.debug(
                    f"Handle prefill request {request} at idx {idx}, "
                    f"{prefill_start_index=}, {prefill_end_index=}, "