FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2025-10-05 16:48:03 +08:00

Files

AIbin a7392a0ff9 【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886 )

* support MLA chunk_size auto search & cuda_graph

2025-09-11 10:46:09 +08:00

attention_updater.cuh

2025-07-03 15:43:53 +08:00

batch_mla_with_paged_kv_cache.cu

2025-09-11 10:46:09 +08:00

batch_mla_with_paged_kv_cache.h

2025-09-11 10:46:09 +08:00

epilogue.cuh

2025-07-03 15:43:53 +08:00

kernel_traits.cuh

2025-07-03 15:43:53 +08:00

mainloop_load.cuh

2025-09-11 10:46:09 +08:00

mainloop_mma.cuh

2025-09-11 10:46:09 +08:00

mla_hopper.cuh

2025-09-11 10:46:09 +08:00

named_barrier.cuh

2025-07-03 15:43:53 +08:00

utils.cuh

2025-09-11 10:46:09 +08:00