[NewFeature]Support dp multi api server && Fix some bug in mixed ep && merge develop (#3598)

* [Feature] update ep * fix ci * fix ci * fix ci * fix ci * fix ci * fix ci * fix ci * fix queue ports idx * fix ci * fix ci * fix ci * fix ci * fix ci * fix ci * fix ci * fix ci * Update engine.py * fix ci * fix some bug in mixed ep * add server fix and op fix * rm some log * fix code style * ltd fix * fix * fix * fix some bug * fix bug * fix bug * fix style * Update config.py * Update splitwise_connector.py * Update cache_messager.py * Update __init__.py * merge and fix * Update engine.py * Update common_engine.py * Update run_ci_xpu.sh * Update ernie_processor.py * Update ernie_processor.py --------- Co-authored-by: ltd0924 <ltd0924@sina.com> Co-authored-by: ltd0924 <32387785+ltd0924@users.noreply.github.com>
2025-10-05 08:37:06 +08:00 · 2025-08-26 19:59:02 +08:00
parent cbce94a00e
commit 82e64b13e1
24 changed files with 1244 additions and 1200 deletions
--- a/fastdeploy/cache_manager/cache_messager.py
+++ b/fastdeploy/cache_manager/cache_messager.py
@@ -23,7 +23,11 @@ import numpy as np
 import paddle

 from fastdeploy.cache_manager.transfer_factory import IPCCommManager, RDMACommManager
-from fastdeploy.inter_communicator import EngineWorkerQueue, IPCSignal
+from fastdeploy.inter_communicator import (
+    EngineWorkerQueue,
+    IPCSignal,
+    shared_memory_exists,
+)
 from fastdeploy.utils import get_logger

 logger = get_logger("cache_messager", "cache_messager.log")
@@ -159,36 +163,23 @@ class CacheMessager:
        try:
            prefilled_step_idx_data = np.zeros(shape=[1], dtype=np.int32)
            prefilled_layer_idx_data = np.zeros(shape=[1], dtype=np.int32)
-            try:
-                step_shm_value = IPCSignal(
-                    name=f"splitwise_complete_prefilled_step_{self.dp_rank_id}",
-                    array=prefilled_step_idx_data,
-                    dtype=np.int32,
-                    suffix=self.gpu_id,
-                    create=True,
-                )
-                layer_shm_value = IPCSignal(
-                    name=f"splitwise_complete_prefilled_layer_{self.dp_rank_id}",
-                    array=prefilled_layer_idx_data,
-                    dtype=np.int32,
-                    suffix=self.gpu_id,
-                    create=True,
-                )
-            except:
-                step_shm_value = IPCSignal(
-                    name=f"splitwise_complete_prefilled_step_{self.dp_rank_id}",
-                    array=prefilled_step_idx_data,
-                    dtype=np.int32,
-                    suffix=self.gpu_id,
-                    create=False,
-                )
-                layer_shm_value = IPCSignal(
-                    name=f"splitwise_complete_prefilled_layer_{self.dp_rank_id}",
-                    array=prefilled_layer_idx_data,
-                    dtype=np.int32,
-                    suffix=self.gpu_id,
-                    create=False,
-                )
+            prefilled_layer_name = f"splitwise_complete_prefilled_step_{self.dp_rank_id}.{self.gpu_id}"
+            prefilled_step_name = f"splitwise_complete_prefilled_step_{self.dp_rank_id}.{self.gpu_id}"
+            step_shm_value = IPCSignal(
+                name=f"splitwise_complete_prefilled_step_{self.dp_rank_id}",
+                array=prefilled_step_idx_data,
+                dtype=np.int32,
+                suffix=self.gpu_id,
+                create=not shared_memory_exists(prefilled_step_name),
+            )
+            layer_shm_value = IPCSignal(
+                name=f"splitwise_complete_prefilled_layer_{self.dp_rank_id}",
+                array=prefilled_layer_idx_data,
+                dtype=np.int32,
+                suffix=self.gpu_id,
+                create=not shared_memory_exists(prefilled_layer_name),
+            )
+            logger.info(f"splitwise_complete_prefilled_step_{self.dp_rank_id}, gpu_id: {self.gpu_id}")

            step_shm_value.value[0] = -1
            layer_shm_value.value[0] = -1
@@ -220,6 +211,7 @@ class CacheMessager:
                            self.cache_info[info["request_id"]] = info
                prefilled_layer_idx = layer_shm_value.value[0]
                prefilled_step_idx = step_shm_value.value[0]
+                logger.info(f"prefilled_layer_idx: {prefilled_layer_idx}, prefilled_step_idx: {prefilled_step_idx}")
                if prefilled_layer_idx == self.num_layers - 1:
                    time.sleep(0.001)
                    prefilled_layer_idx = layer_shm_value.value[0]