delete max-len (#2959)

2025-10-18 22:44:39 +08:00 · 2025-07-23 15:11:39 +08:00
parent 5b59a97030
commit 9b22b8d2c3
5 changed files with 3 additions and 7 deletions
--- a/fastdeploy/worker/gcu_model_runner.py
+++ b/fastdeploy/worker/gcu_model_runner.py
@@ -449,7 +449,6 @@ class GCUModelRunner(ModelRunnerBase):
            output_cum_offsets,
            output_padding_offset,
        ) = pre_process(
-            self.parallel_config.max_model_len,
            self.share_inputs["input_ids"],
            self.share_inputs["seq_lens_this_time"],
            self.speculative_decoding,
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -601,7 +601,6 @@ class GPUModelRunner(ModelRunnerBase):
            output_cum_offsets,
            output_padding_offset,
        ) = pre_process(
-            self.parallel_config.max_model_len,
            self.share_inputs["input_ids"],
            self.share_inputs["seq_lens_this_time"],
            self.speculative_decoding,
--- a/fastdeploy/worker/xpu_model_runner.py
+++ b/fastdeploy/worker/xpu_model_runner.py
@@ -41,7 +41,6 @@ logger = get_logger("xpu_model_runner", "xpu_model_runner.log")


 def xpu_pre_process(
-    max_len: int,
    input_ids: paddle.Tensor,
    seq_lens_this_time: int,
    share_inputs: Dict,
@@ -51,6 +50,7 @@ def xpu_pre_process(
    seq_lens_decoder: Optional[paddle.Tensor] = None,
 ) -> XPUForwardMeta:
    """ """
+    max_len = input_ids.shape[1]
    cum_offsets_now = paddle.cumsum(max_len - seq_lens_this_time)
    token_num = paddle.sum(seq_lens_this_time)
    from fastdeploy.model_executor.ops.xpu import (
@@ -458,7 +458,6 @@ class XPUModelRunner(ModelRunnerBase):
    def _prepare_inputs(self) -> None:
        """prepare the model inputs"""
        self.forward_meta = xpu_pre_process(
-            self.parallel_config.max_model_len,
            self.share_inputs["input_ids"],
            self.share_inputs["seq_lens_this_time"],
            self.share_inputs,