fix mask_offset in append_attn (#3745)

* fix mask_offset in append_attn * fix test
2025-10-06 00:57:33 +08:00 · 2025-08-31 15:03:16 +08:00
parent 753772ace8
commit bed09ae8f8
8 changed files with 46 additions and 44 deletions
--- a/fastdeploy/model_executor/layers/attention/append_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -63,7 +63,6 @@ class AppendAttentionMetadata(AttentionMetadata):
    block_tables: Optional[paddle.Tensor] = None
    rotary_embs: Optional[paddle.Tensor] = None
    attn_mask: Optional[paddle.Tensor] = None
-    mask_offset: Optional[paddle.Tensor] = None
    _fuse_kernel_compute_dtype: str = "bf16"

    # pd_disaggregation
@@ -142,7 +141,6 @@ class AppendAttentionBackend(AttentionBackend):
        metadata.block_tables = forward_meta.block_tables
        metadata.rotary_embs = forward_meta.rotary_embs
        metadata.attn_mask = forward_meta.attn_mask
-        metadata.mask_offset = forward_meta.attn_mask_offsets
        metadata.pre_caches_length = forward_meta.pre_caches_length
        (
            metadata.encoder_batch_ids,
@@ -303,7 +301,7 @@ class AppendAttentionBackend(AttentionBackend):
                getattr(layer, "cache_v_zp", None),
                layer.linear_shift,
                layer.linear_smooth,
-                metadata.mask_offset,
+                forward_meta.attn_mask_offsets,
                metadata.kv_signal_data_list[layer.layer_id],
                getattr(layer, "q_norm_weight", None),
                getattr(layer, "k_norm_weight", None),
@@ -358,7 +356,7 @@ class AppendAttentionBackend(AttentionBackend):
                getattr(layer, "cache_v_zp", None),
                layer.linear_shift,
                layer.linear_smooth,
-                metadata.mask_offset,
+                forward_meta.attn_mask_offsets,
                metadata.kv_signal_data_list[layer.layer_id],
                getattr(layer, "q_norm_weight", None),
                getattr(layer, "k_norm_weight", None),
--- a/fastdeploy/model_executor/layers/attention/attention.py
+++ b/fastdeploy/model_executor/layers/attention/attention.py
@@ -163,14 +163,14 @@ class Attention(nn.Layer):
    def init_weight(self):
        self.q_norm_weight = self.create_parameter(
            shape=[self.qk_head_dim],
-            dtype=self._dtype,
+            dtype="float32",
            is_bias=False,
            default_initializer=paddle.nn.initializer.Constant(0),
        )

        self.k_norm_weight = self.create_parameter(
            shape=[self.qk_head_dim],
-            dtype=self._dtype,
+            dtype="float32",
            is_bias=False,
            default_initializer=paddle.nn.initializer.Constant(0),
        )
@@ -184,8 +184,8 @@ class Attention(nn.Layer):
        if self.use_qk_norm:
            q_norm_weight_tensor = paddle.to_tensor(get_tensor(state_dict.pop(self.q_norm_key + ".weight")))
            k_norm_weight_tensor = paddle.to_tensor(get_tensor(state_dict.pop(self.k_norm_key + ".weight")))
-            self.q_norm_weight.set_value(q_norm_weight_tensor)
-            self.k_norm_weight.set_value(k_norm_weight_tensor)
+            self.q_norm_weight.set_value(q_norm_weight_tensor.astype("float32"))
+            self.k_norm_weight.set_value(k_norm_weight_tensor.astype("float32"))

    def forward(
        self,