【New Feature】支持Fp8 group Gemm 24稀疏 (#3463)

* 支持24稀疏 * code style * 增加stmatrix 宏定义判断 * code style
2025-12-24 13:28:13 +08:00 · 2025-08-19 17:54:47 +08:00
parent d587fb257f
commit b047681c5d
10 changed files with 1609 additions and 0 deletions
--- a/custom_ops/setup_ops.py
+++ b/custom_ops/setup_ops.py
@@ -510,6 +510,8 @@ elif paddle.is_compiled_with_cuda():
        sources += ["gpu_ops/flash_mask_attn/flash_mask_attn.cu"]
        os.system("python utils/auto_gen_w4afp8_gemm_kernel.py")
        sources += find_end_files("gpu_ops/w4afp8_gemm", ".cu")
+        os.system("python utils/auto_gen_wfp8afp8_sparse_gemm_kernel.py")
+        sources += find_end_files("gpu_ops/wfp8afp8_sparse_gemm", ".cu")

    setup(
        name="fastdeploy_ops",