MoE Default use triton's blockwise fp8 in TP Case (#3678)

2025-10-05 08:37:06 +08:00 · 2025-08-29 11:07:30 +08:00
parent b6edd15d55
commit 17b414c2df
7 changed files with 5 additions and 10 deletions
--- a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
+++ b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
@@ -61,7 +61,7 @@ class BlockWiseFP8Config(QuantConfigBase):
        Get quantization method.
        """
        if isinstance(layer, FusedMoE):
-            if self.use_deep_gemm:
+            if layer.ep_size > 1 or self.use_deep_gemm:
                from fastdeploy.model_executor.layers.moe.fused_moe_deepgemm_backend import (
                    DeepGemmFusedMoeMethod,
                )