[FDConfig]Remove max_num_batched_tokens/max_num_seqs in parallel config (#4116)

* remove max_num_batched_tokens in parallel config * remove max_num_seqs * update test case * fix test * fix --------- Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
2025-12-24 13:28:13 +08:00 · 2025-09-17 10:43:35 +08:00
parent c01a756912
commit 2e9e53ff7e
30 changed files with 169 additions and 131 deletions
--- a/fastdeploy/spec_decode/base.py
+++ b/fastdeploy/spec_decode/base.py
@@ -50,8 +50,9 @@ class Proposer(ABC):
        self.speculative_config = self.cfg.speculative_config
        self.cache_config = self.cfg.cache_config
        self.quant_config = self.cfg.quant_config
+        self.scheduler_config = self.cfg.scheduler_config

-        self.max_num_seqs = self.parallel_config.max_num_seqs
+        self.max_num_seqs = self.scheduler_config.max_num_seqs
        self.max_model_len = self.parallel_config.max_model_len
        self.speculative_method = self.speculative_config.method
        self.max_draft_token_num = self.speculative_config.num_speculative_tokens