[Feature][MTP] Support cacheKV transfer in per_chunk mode (#2890)

* support chunk_prefill both normal and speculative_decoding(mtp) * optimize pd-disaggregation config * fix bug
2025-10-05 08:37:06 +08:00 · 2025-07-17 17:58:08 +08:00
parent 67180c1ff9
commit d49f8fb30a
10 changed files with 110 additions and 27 deletions
--- a/fastdeploy/model_executor/load_weight_utils.py
+++ b/fastdeploy/model_executor/load_weight_utils.py
@@ -73,7 +73,7 @@ def load_ep_checkpoint(model_path: str,
                        range(base_range.start + config.moe_num_experts[0], base_range.stop + config.moe_num_experts[0]))
        return base_range

-    for i in range(config.moe_layer_start_index, config.num_layers):
+    for i in range(config.moe_layer_start_index, config.num_hidden_layers):
        for j in get_expert_ranges(config):
            up_gate_proj_key = f"ernie.layers.{i}.mlp.experts.{j}.up_gate_proj.weight"
            down_proj_key = (f"ernie.layers.{i}.mlp.experts.{j}.down_proj.weight")