fix ep prefill (#2762)

2025-10-05 08:37:06 +08:00 · 2025-07-09 14:03:05 +08:00
parent c4718fd693
commit fee544e808
7 changed files with 66 additions and 32 deletions
--- a/fastdeploy/model_executor/layers/attention/mla_attention_backend.py
+++ b/fastdeploy/model_executor/layers/attention/mla_attention_backend.py
@@ -41,6 +41,7 @@ from fastdeploy.config import FDConfig
 from fastdeploy.model_executor.layers.attention.attention import Attention
 from fastdeploy.model_executor.layers.attention.base_attention_backend import (
    AttentionBackend, AttentionMetadata)
+from fastdeploy.model_executor.layers.attention.utils import init_rank_and_device_id
 from fastdeploy.worker.forward_meta import ForwardMeta


@@ -109,7 +110,6 @@ class MLAAttentionBackend(AttentionBackend):
        self.use_speculate: bool = self.speculative_method is not None
        self.speculate_max_draft_token_num: int = fd_config.speculative_config.num_speculative_tokens
        self.keep_pd_step_flag: bool = fd_config.speculative_config.model_type == "mtp"
-        self.rank: int = fd_config.parallel_config.tensor_parallel_rank

        self.kv_num_heads: int = kv_num_heads
        self.num_heads: int = num_heads
@@ -135,10 +135,8 @@ class MLAAttentionBackend(AttentionBackend):
            os.getenv("FLAGS_use_pd_disaggregation", 0))
        self.start_layer_index: int = fd_config.model_config.start_layer_index
        self.device_id: int = os.getenv("CUDA_VISIBLE_DEVICES", None)
-        if self.device_id is None:
-            self.device_id = self.rank
-        else:
-            self.device_id = self.device_id.split(",")[self.rank]
+        
+        self.rank, self.device_id = init_rank_and_device_id(fd_config)

    def init_attention_metadata(self, forward_meta: ForwardMeta):
        """Initialize attention metadata hence all layers in the forward pass can reuse it."""