[Feature] Support batched tokens for EP (#3415)

* Support batched tokens for EP * Support batched tokens for EP * Support batched tokens for EP * Support batched tokens for EP * Support batched tokens for EP and fix bug * Support batched tokens for EP and fix bug * Support batched tokens for EP and fix bug * Support batched tokens for EP and fix bug
2025-10-06 00:57:33 +08:00 · 2025-08-18 11:43:36 +08:00
parent 3f86ae0007
commit aba94169dc
9 changed files with 235 additions and 97 deletions
--- a/fastdeploy/engine/expert_service.py
+++ b/fastdeploy/engine/expert_service.py
@@ -186,7 +186,8 @@ class ExpertService:
                    int(self.resource_manager.available_batch()),
                    self.cfg.max_prefill_batch,
                )
-
+                if envs.FD_ENABLE_INTERNAL_ADAPTER:
+                    num_prefill_batch = int(self.resource_manager.available_batch())
                self.resource_manager.check_and_free_block_tables()
                tasks = self.scheduler.get_requests(
                    available_blocks=self.resource_manager.available_block_num(),
@@ -294,6 +295,15 @@ class ExpertService:
                cur_task_idx = self.resource_manager.req_dict[task.request_id]
                del self.resource_manager.req_dict[task.request_id]
                cur_task = self.resource_manager.tasks_list[cur_task_idx]
+                if envs.FD_ENABLE_INTERNAL_ADAPTER:
+                    if not task.outputs.token_ids:  # first token is eos in Prefill, just recycle resource and continue
+                        self.resource_manager.stop_flags[cur_task_idx] = True
+                        self.resource_manager.tasks_list[cur_task_idx] = None
+                        self.resource_manager._recycle_block_tables(cur_task)
+                        if task.request_id in self.token_processor.tokens_counter:
+                            del self.token_processor.tokens_counter[task.request_id]
+                        self.llm_logger.warning(f"{task.request_id} need not decode after first token")
+                        continue
                cur_task.prompt_token_ids[0] = task.outputs.token_ids[0]
                if self.cfg.speculative_config.method in ["mtp"] and self.cfg.splitwise_role == "decode":
                    cur_task.draft_token_ids = copy.deepcopy(task.outputs.draft_token_ids)
@@ -303,16 +313,14 @@ class ExpertService:
                    self.resource_manager._recycle_block_tables(cur_task)
                    if task.request_id in self.token_processor.tokens_counter:
                        del self.token_processor.tokens_counter[task.request_id]
-                    self.scheduler.put_results([task])
                    self.llm_logger.warning(
                        f"{task.request_id} prefill failed with msg:{task.error_msg}, recycle resource."
                    )
                    continue
-                self.llm_logger.info(f"{cur_task_idx} {task.request_id}")
-                cur_task.prompt_token_ids[0] = task.outputs.token_ids[0]
                self.token_processor.tokens_counter[task.request_id] = 1
                current_tasks.append(cur_task)
-            self.engine_worker_queue.put_tasks((current_tasks, self.resource_manager.real_bsz))
+            if current_tasks:
+                self.engine_worker_queue.put_tasks((current_tasks, self.resource_manager.real_bsz))
            return True

        self.resource_manager.check_and_free_block_tables()