[optimize] Optimize prefix caching in v1 release/2.1 (#3823)

* [optimize] Optimize prefix caching in v1 * [optimize] Optimize prefix caching in v1 --------- Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
2025-10-06 00:57:33 +08:00 · 2025-09-04 19:25:02 +08:00
parent c2f5c99b1e
commit ffec66097c
3 changed files with 49 additions and 41 deletions
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -355,9 +355,9 @@ class LLMEngine:
                self.cfg.max_prefill_batch,
            )

-            self.resource_manager.check_and_free_block_tables()
+            # self.resource_manager.check_and_free_block_tables()
            tasks = self.scheduler.get_requests(
-                available_blocks=self.resource_manager.available_block_num(),
+                available_blocks=self.cfg.cache_config.max_block_num_per_seq,
                block_size=self.cfg.cache_config.block_size,
                reserved_output_blocks=self.cfg.cache_config.enc_dec_block_num,
                max_num_batched_tokens=self.cfg.max_model_len,