fix and refine vl (#2866)

* refine vl config * delete attn_sep * fix vl accuracy
2025-10-05 08:37:06 +08:00 · 2025-07-16 20:59:28 +08:00
parent aa76085d1f
commit 63d6e7ce06
11 changed files with 63 additions and 117 deletions
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1447,20 +1447,15 @@ class GPUModelRunner(ModelRunnerBase):

        self.fd_config.model_config.tensor_parallel_degree = self.parallel_config.tensor_parallel_size
        self.fd_config.model_config.tensor_parallel_rank = self.parallel_config.tensor_parallel_rank
-        self.fd_config.model_config.moe_group="dummy"
-        self.fd_config.parallel_config.column_cut = False
        vision_config = self.fd_config.model_config.vision_config
-        vision_config.attn_sep = False
-        vision_config.dtype = "bfloat16"
+        vision_config.dtype = self.fd_config.model_config.dtype
        vision_config.tensor_parallel_degree = self.parallel_config.tensor_parallel_size
        vision_config.tensor_parallel_rank = self.parallel_config.tensor_parallel_rank
-        self.fd_config.model_config.pixel_hidden_size = vision_config.hidden_size
        self.fd_config.model_config.im_patch_id = tokenizer.get_vocab()[
            "<|IMAGE_PLACEHOLDER|>"
        ]
        self.fd_config.model_config.think_end_id = tokenizer.get_vocab()["</think>"]
-        self.fd_config.model_config.max_text_id = self.fd_config.model_config.im_patch_id
-        self.fd_config.model_config.sequence_parallel = False
+        self.fd_config.model_config.sequence_parallel = self.parallel_config.sequence_parallel
        self.model_config = self.fd_config.model_config
        self._init_image_preprocess()

@@ -1558,9 +1553,9 @@ class GPUModelRunner(ModelRunnerBase):
        rope_emb = get_rope_3d(
            position_ids=position_ids_3d_real,
            rotary_dim=self.model_config.head_dim,
-            paritial_rotary_factor=1.0,
+            partial_rotary_factor=1.0,
            base=self.model_config.rope_theta,
            max_position=self.parallel_config.max_model_len,
-            freq_allocation=self.model_config.freq_allocation,
+            freq_allocation=getattr(self.model_config, "freq_allocation", 20),
        )
        return rope_emb