Support limit thinking lengths (#4070)

Co-authored-by: K11OntheBoat <“ruianmaidanglao@163.com”>
2025-10-05 16:48:03 +08:00 · 2025-09-17 12:40:08 +08:00
parent b41988f4bc
commit 7f9a9b37f3
8 changed files with 184 additions and 26 deletions
--- a/fastdeploy/entrypoints/engine_client.py
+++ b/fastdeploy/entrypoints/engine_client.py
@@ -177,8 +177,6 @@ class EngineClient:
            task["prompt_token_ids_len"] = len(task["prompt_token_ids"])
            input_ids_len = task["prompt_token_ids_len"]
            task["max_tokens"] = min(self.max_model_len - input_ids_len, task.get("max_tokens"))
-            if task.get("reasoning_max_tokens", None) is None:
-                task["reasoning_max_tokens"] = max(int(task["max_tokens"] * 0.8), 1)
            min_tokens = task.get("min_tokens", 1)
            if "messages" in task:
                del task["messages"]