FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2025-10-11 19:40:25 +08:00

Files

AIbin a7392a0ff9 【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886 )

* support MLA chunk_size auto search & cuda_graph

2025-09-11 10:46:09 +08:00

__init__.py

…

append_attention.py

…

get_block_shape_and_split_kv_block.py

…

gqa_rope_write_cache.py

…

init_kv_signal_per_query.py

…

init_signal_layerwise.py

…

open_shm_and_get_meta_signal.py

…

pre_cache_len_concat.py

…