【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886)

* support MLA chunk_size auto search & cuda_graph
2025-10-04 16:22:57 +08:00 · 2025-09-11 10:46:09 +08:00
parent 637d96c6ae
commit a7392a0ff9
23 changed files with 375 additions and 310 deletions
--- a/docs/quantization/wint2.png
+++ b/docs/quantization/wint2.png
--- a/docs/zh/quantization/wint2.png
+++ b/docs/zh/quantization/wint2.png