FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2025-10-13 20:34:02 +08:00

Files

AIbin a7392a0ff9 【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886 )

* support MLA chunk_size auto search & cuda_graph

2025-09-11 10:46:09 +08:00

attention_updater.cuh

…

batch_mla_with_paged_kv_cache.cu

2025-09-11 10:46:09 +08:00

batch_mla_with_paged_kv_cache.h

2025-09-11 10:46:09 +08:00

epilogue.cuh

…

kernel_traits.cuh

…

mainloop_load.cuh

2025-09-11 10:46:09 +08:00

mainloop_mma.cuh

2025-09-11 10:46:09 +08:00

mla_hopper.cuh

2025-09-11 10:46:09 +08:00

named_barrier.cuh

…

utils.cuh

2025-09-11 10:46:09 +08:00