[Bug fix] Fix prompt token ids dtype in v1 (#3860)

2025-10-05 16:48:03 +08:00 · 2025-09-08 11:34:13 +08:00
parent 7833f2f6cb
commit b5e20e3015
1 changed files with 4 additions and 3 deletions
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -290,10 +290,11 @@ class GPUModelRunner(ModelRunnerBase):
                        position_ids, request.get("max_tokens", 2048)
                    )
-                if len(request.output_token_ids) == 0:
+                if isinstance(request.prompt_token_ids, np.ndarray):
-                    input_ids = request.prompt_token_ids
+                    prompt_token_ids = request.prompt_token_ids.tolist()
                else:
-                    input_ids = request.prompt_token_ids + request.output_token_ids
+                    prompt_token_ids = request.prompt_token_ids
                input_ids = prompt_token_ids + request.output_token_ids
                logger.debug(
                    f"Handle prefill request {request} at idx {idx}, "
                    f"{prefill_start_index=}, {prefill_end_index=}, "