Unify server-side and model-side Config(Part-5) (#3497)

* move config * fix xpu * fix * fix vl * fix vl * fix unitest * fix args * add unitest * fix test
2025-10-05 08:37:06 +08:00 · 2025-08-21 19:00:21 +08:00
parent e5aa7087db
commit c389a4013c
15 changed files with 480 additions and 499 deletions
--- a/fastdeploy/engine/expert_service.py
+++ b/fastdeploy/engine/expert_service.py
@@ -50,8 +50,8 @@ class ExpertService:
            cfg (Config): Config object containing all the configuration parameters.
        """
        self.cfg = cfg
-        start_pos = (local_data_parallel_id * self.cfg.tensor_parallel_size) % cfg.worker_num_per_node
-        end_pos = start_pos + self.cfg.tensor_parallel_size
+        start_pos = (local_data_parallel_id * self.cfg.parallel_config.tensor_parallel_size) % cfg.worker_num_per_node
+        end_pos = start_pos + self.cfg.parallel_config.tensor_parallel_size
        if cfg.splitwise_role != "mixed":
            self.cfg.cache_config.rdma_comm_ports = self.cfg.cache_config.rdma_comm_ports[start_pos:end_pos]
        self.cfg.local_device_ids = self.cfg.device_ids.split(",")[start_pos:end_pos]
@@ -69,13 +69,13 @@ class ExpertService:
            address=address,
            is_server=False,
            client_id=0,
-            num_client=cfg.tensor_parallel_size,
+            num_client=cfg.parallel_config.tensor_parallel_size,
            local_data_parallel_id=local_data_parallel_id,
        )
        self.resource_manager = ResourceManager(
            cfg.max_num_seqs,
            cfg,
-            cfg.tensor_parallel_size,
+            cfg.parallel_config.tensor_parallel_size,
            cfg.splitwise_role,
            local_data_parallel_id,
        )
@@ -125,7 +125,7 @@ class ExpertService:
        if self.cfg.splitwise_role != "mixed":
            self.cache_manager_processes = self.resource_manager.cache_manager.launch_cache_manager(
                cache_config=self.cfg.cache_config,
-                tensor_parallel_size=self.cfg.tensor_parallel_size,
+                tensor_parallel_size=self.cfg.parallel_config.tensor_parallel_size,
                device_ids=self.cfg.local_device_ids,
                pod_ip=self.cfg.master_ip,
                engine_worker_queue_port=self.cfg.engine_worker_queue_port,
@@ -343,7 +343,7 @@ class ExpertService:
        if not is_decode:
            llm_logger.info(f"Tasks are sent to engine, req_ids={req_ids}")
            if not is_prefill and self.cfg.cache_config.enable_chunked_prefill:
-                if not self.cfg.enable_mm:
+                if not self.cfg.model_config.enable_mm:
                    self.update_requests_chunk_size(tasks)
                else:
                    self.update_mm_requests_chunk_size(tasks)