ep support logprob (#4089)

2025-10-24 17:10:35 +08:00 · 2025-09-12 21:11:16 +08:00
parent 10768a4d79
commit 2485333f71
3 changed files with 11 additions and 17 deletions
--- a/custom_ops/gpu_ops/get_output_msg_with_topk.cc
+++ b/custom_ops/gpu_ops/get_output_msg_with_topk.cc
@@ -39,9 +39,6 @@ void GetOutputTopK(const paddle::Tensor& x,
                   int k,
                   int64_t rank_id,
                   bool wait_flag) {
-    if (rank_id > 0) {
-        return;
-    }

    static struct msgdata msg_rcv;
    int msg_queue_id = 1;
--- a/fastdeploy/engine/args_utils.py
+++ b/fastdeploy/engine/args_utils.py
@@ -400,8 +400,6 @@ class EngineArgs:
        if self.enable_logprob:
            if self.speculative_config is not None:
                raise NotImplementedError("Logprob does not support speculation_config.")
-            if self.enable_expert_parallel:
-                raise NotImplementedError("Logprob does not support enable_expert_parallel.")
            if not current_platform.is_cuda():
                raise NotImplementedError("Only CUDA platform supports logprob.")
        if self.splitwise_role != "mixed":
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -160,13 +160,6 @@ class TokenProcessor:
                    if self.output_tokens[0] == -2:
                        continue

-                else:
-                    if (
-                        self.cfg.parallel_config.enable_expert_parallel
-                        and self.cfg.parallel_config.data_parallel_size > 1
-                    ):
-                        get_output_ep(self.output_tokens, rank_id, is_blocking)
-
                else:
                    if self.use_logprobs:
                        get_output_topk(
@@ -177,6 +170,12 @@ class TokenProcessor:
                            rank_id,
                            is_blocking,
                        )
+                    elif (
+                        self.cfg.parallel_config.enable_expert_parallel
+                        and self.cfg.parallel_config.data_parallel_size > 1
+                    ):
+                        get_output_ep(self.output_tokens, rank_id, is_blocking)
+
                    else:
                        get_output(self.output_tokens, rank_id, is_blocking)