[Serving] fix offline inference sampling parameters overwrite (#2654)

2025-09-26 20:41:53 +08:00 · 2025-07-01 10:17:46 +08:00
parent d5af78945b
commit 50aa4080c0
1 changed files with 4 additions and 2 deletions
--- a/fastdeploy/entrypoints/llm.py
+++ b/fastdeploy/entrypoints/llm.py
@@ -251,13 +251,15 @@ class LLM:
                )
            req_ids.append(request_id)
            if isinstance(sampling_params, list):
-                sampling_params = sampling_params[i]
+                current_sampling_params = sampling_params[i]
+            else:
+                current_sampling_params = sampling_params
            enable_thinking = None
            if chat_template_kwargs is not None:
                enable_thinking = chat_template_kwargs.get(
                    "enable_thinking", None)
            self.llm_engine.add_requests(tasks,
-                                         sampling_params,
+                                         current_sampling_params,
                                         enable_thinking=enable_thinking)
        return req_ids