[Feature] support tensor-parallel-size>num_key_value_heads for qwen3 (#2799)

2025-10-04 16:22:57 +08:00 · 2025-07-11 15:09:43 +08:00
parent 2c3607407f
commit c08561c13a
4 changed files with 23 additions and 99 deletions
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -711,9 +711,9 @@ class GPUModelRunner(ModelRunnerBase):
        assert len(self.attn_backends) == 0

        num_heads = self.model_config.num_attention_heads // self.parallel_config.tensor_parallel_degree
-        self.model_config.kv_num_heads = int(
+        self.model_config.kv_num_heads = max(1, int(
            self.model_config.num_key_value_heads
-        ) // self.parallel_config.tensor_parallel_degree
+        ) // self.parallel_config.tensor_parallel_degree)
        head_dim = self.model_config.head_dim

        # Get the attention backend