custom all reduce support cuda graph (#2938)

* Support enabling cuda graph and custom all reduce at the same time, and fix the overwritten custom all reduce flag * rename communication_op to communication
2025-11-03 11:02:01 +08:00 · 2025-07-21 22:52:03 +08:00
parent ff4569f135
commit 0262ef7eb3
21 changed files with 88 additions and 51 deletions
--- a/fastdeploy/model_executor/layers/backends/dcu/fused_moe_triton_backends.py
+++ b/fastdeploy/model_executor/layers/backends/dcu/fused_moe_triton_backends.py
@@ -17,7 +17,7 @@
 import paddle
 from paddle import nn

-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.model_executor.layers.quantization.quant_base import QuantMethodBase
 from fastdeploy.utils import ceil_div

--- a/fastdeploy/model_executor/layers/backends/gcu/moe/fused_moe_method_gcu_backend.py
+++ b/fastdeploy/model_executor/layers/backends/gcu/moe/fused_moe_method_gcu_backend.py
@@ -190,7 +190,7 @@ class GCUFusedMoeMethod(MoEMethodBase):
        fused_moe_out = fused_moe_out.reshape_([token_num, hidden_size])

        if layer.tp_size > 1:
-            from fastdeploy.distributed.communication_op import (
+            from fastdeploy.distributed.communication import (
                tensor_model_parallel_all_reduce,
            )

--- a/fastdeploy/model_executor/layers/linear.py
+++ b/fastdeploy/model_executor/layers/linear.py
@@ -18,7 +18,7 @@ import paddle
 from paddle import nn

 from fastdeploy.config import FDConfig
-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.platforms import current_platform

 from .utils import _set_var_distributed, divide, get_tensor
--- a/fastdeploy/model_executor/layers/moe/fused_moe_cutlass_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_cutlass_backend.py
@@ -20,7 +20,7 @@ from paddle.nn.quant import weight_quantize
 from paddleformers.utils.log import logger

 import fastdeploy
-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.platforms import current_platform

 from ..utils import create_and_set_parameter, get_tensor
--- a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -19,7 +19,7 @@ from paddle import nn
 from paddleformers.utils.log import logger

 import fastdeploy
-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.model_executor.layers.utils import get_tensor
 from fastdeploy.model_executor.ops.gpu import count_tokens_per_expert_func, deep_gemm

--- a/fastdeploy/model_executor/layers/moe/fused_moe_marlin_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_marlin_backend.py
@@ -18,7 +18,7 @@ import paddle
 from paddle import nn

 import fastdeploy
-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.model_executor.ops.gpu import (
    MoeWna16MarlinGemmApi,
    tritonmoe_preprocess_func,
--- a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -18,7 +18,7 @@ import paddle
 from paddle import nn

 import fastdeploy
-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.model_executor.layers.utils import create_and_set_parameter, get_tensor
 from fastdeploy.utils import ceil_div

--- a/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py
@@ -18,7 +18,7 @@ import paddle
 from paddle import nn

 import fastdeploy
-from fastdeploy.distributed.communication_op import tensor_model_parallel_all_reduce
+from fastdeploy.distributed.communication import tensor_model_parallel_all_reduce
 from fastdeploy.utils import ceil_div

 from ..quantization.quant_base import QuantMethodBase
--- a/fastdeploy/model_executor/layers/moe/fused_moe_xpu_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_xpu_backend.py
@@ -82,7 +82,7 @@ class XPUMoEMethod(MoEMethodBase):
            False,  # moe group, used in deepseek
        )
        if layer.tp_size > 1:
-            from fastdeploy.distributed.communication_op import (
+            from fastdeploy.distributed.communication import (
                tensor_model_parallel_all_reduce,
            )

@@ -210,7 +210,7 @@ class XPUWeightOnlyMoEMethod(QuantMethodBase):
            False,  # moe group, used in deepseek
        )
        if layer.tp_size > 1:
-            from fastdeploy.distributed.communication_op import (
+            from fastdeploy.distributed.communication import (
                tensor_model_parallel_all_reduce,
            )