[Feature] Optimize prefix cache (#3208)

* [LLM] support ep * Update worker_process.py * Update expert_service.py * Update worker_process.py * format files * optimize prefix cache * optimize prefix cache * optimize prefix cache * pre commit format * pre commit format * pre commit format * Update cache_messager.py
2025-10-05 16:48:03 +08:00 · 2025-08-05 17:13:11 +08:00
parent 9f9971844f
commit dcf9c2daff
7 changed files with 314 additions and 147 deletions
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -408,7 +408,7 @@ class PaddleDisWorkerProc:

        logger.info(f"------- num_blocks_global: {num_blocks_local} --------")
        # wait engine launch cache_manager
-        if self.cache_config.enable_prefix_caching or self.parallel_config.splitwise_role != "mixed":
+        if self.parallel_config.splitwise_role != "mixed":
            launched_cache_manager_signal_data = np.zeros([1], dtype=np.int32)
            self.launched_cache_manager_signal = IPCSignal(
                name="launched_cache_manager_signal",