make append_attn supports mask_offset (#3138)

* make append_attn supports mask_offset * add unittest
2025-10-04 08:16:42 +08:00 · 2025-08-14 18:40:55 +08:00
parent 6031f9a5f5
commit 1e06b9fa6d
10 changed files with 88 additions and 20 deletions
--- a/fastdeploy/model_executor/layers/attention/append_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -62,6 +62,7 @@ class AppendAttentionMetadata(AttentionMetadata):
    block_tables: Optional[paddle.Tensor] = None
    rotary_embs: Optional[paddle.Tensor] = None
    attn_mask: Optional[paddle.Tensor] = None
+    mask_offset: Optional[paddle.Tensor] = None
    _fuse_kernel_compute_dtype: str = "bf16"

    # pd_disaggregation
@@ -261,6 +262,7 @@ class AppendAttentionBackend(AttentionBackend):
            getattr(layer, "cache_v_zp", None),
            layer.linear_shift,
            layer.linear_smooth,
+            metadata.mask_offset,
            metadata.kv_signal_data_list[layer.layer_id],
            getattr(layer, "q_norm_weight", None),
            getattr(layer, "k_norm_weight", None),