[Optimization] Fuse get_max_len and get_kv_max_len (#4369)

* opt split_q_block * fuse max_lens and max kv_len
2025-11-03 00:44:23 +08:00 · 2025-10-13 20:35:00 +08:00
parent 425205b03c
commit a751d977bc
15 changed files with 29 additions and 116 deletions
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -247,7 +247,6 @@ class MTPProposer(Proposer):
        self.model_inputs["kv_num_blocks_x_cpu"] = paddle.zeros_like(
            self.target_model_inputs["kv_num_blocks_x_cpu"]
        ).cpu()
-        self.model_inputs["max_len_kv_cpu"] = paddle.zeros_like(self.target_model_inputs["max_len_kv_cpu"]).cpu()

        # Get the attention backend
        attn_cls = get_attention_backend()
@@ -374,7 +373,6 @@ class MTPProposer(Proposer):
        self.model_inputs["kv_batch_ids"] = None
        self.model_inputs["kv_tile_ids_per_batch"] = None
        self.model_inputs["kv_num_blocks_x_cpu"] = None  # CPU
-        self.model_inputs["max_len_kv_cpu"] = None  # CPU

        # Input tokens
        self.model_inputs["draft_tokens"] = paddle.full(
@@ -583,7 +581,6 @@ class MTPProposer(Proposer):
            kv_batch_ids=self.model_inputs["kv_batch_ids"],
            kv_tile_ids_per_batch=self.model_inputs["kv_tile_ids_per_batch"],
            kv_num_blocks_x_cpu=self.model_inputs["kv_num_blocks_x_cpu"],
-            max_len_kv_cpu=self.model_inputs["max_len_kv_cpu"],
        )

        # Initialzie attention meta data