From 0100ee885fcf1c2776c734fad623e0ca0ae7d993 Mon Sep 17 00:00:00 2001
From: chenjian <1435317881@qq.com>
Date: Mon, 15 Dec 2025 17:25:35 +0800
Subject: [PATCH] Fix bug for caching output when preempted (#5502)

---
 fastdeploy/output/token_processor.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index 197b7f64d..03e00a0a3 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -799,7 +799,9 @@ class TokenProcessor:
                         and self.cfg.cache_config.enable_prefix_caching
                         and self.cfg.cache_config.enable_output_caching
                     ):
-                        if (task.num_total_tokens - 1) % self.cfg.cache_config.block_size == 0:
+                        if (task.num_total_tokens - 1) % self.cfg.cache_config.block_size == 0 and (
+                            task_id not in self.resource_manager.to_be_rescheduled_request_id_set
+                        ):
                             self.resource_manager.cache_output_tokens(
                                 task
                             )  # when enable prefix caching, cache kv cache for output tokens