native top_p_sampling (#2901)

2025-10-05 16:48:03 +08:00 · 2025-07-22 14:09:59 +08:00
parent 0eedbdaee0
commit 2c6a9e887e
14 changed files with 93 additions and 7 deletions
--- a/fastdeploy/model_executor/layers/attention/mla_attention_backend.py
+++ b/fastdeploy/model_executor/layers/attention/mla_attention_backend.py
@@ -32,7 +32,7 @@ from fastdeploy.model_executor.layers.attention.ops import (
 )
 from fastdeploy.platforms import current_platform

-if current_platform.is_cuda() and not current_platform.is_dcu():
+if current_platform.is_cuda():
    from fastdeploy.model_executor.ops.gpu import (
        decode_mla_write_cache,
        multi_head_latent_attention,