FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2025-10-11 11:30:20 +08:00

Files

YuanRisheng 2e9e53ff7e [FDConfig]Remove max_num_batched_tokens/max_num_seqs in parallel config (#4116 )

* remove max_num_batched_tokens in parallel config

* remove max_num_seqs

* update test case

* fix test

* fix

---------

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>

2025-09-17 10:43:35 +08:00

ops

【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886 )

2025-09-11 10:46:09 +08:00

__init__.py

…

append_attn_backend.py

【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886 )

2025-09-11 10:46:09 +08:00

attention_selecter.py

…

attention.py

[FDConfig]Remove max_num_batched_tokens/max_num_seqs in parallel config (#4116 )

2025-09-17 10:43:35 +08:00

base_attention_backend.py

…

block_multihead_attn_backend.py

…

flash_attn_backend.py

[FDConfig]Remove max_num_batched_tokens/max_num_seqs in parallel config (#4116 )

2025-09-17 10:43:35 +08:00

iluvatar_attn_backend.py

…

mla_attention_backend.py

【Inference Optimize】DeepSeek-V3-model MLA Optimize (#3886 )

2025-09-11 10:46:09 +08:00

moba_attention_backend.py

[FDConfig]Remove max_num_batched_tokens/max_num_seqs in parallel config (#4116 )

2025-09-17 10:43:35 +08:00

native_paddle_backend.py

…

utils.py

…

xpu_attn_backend.py

…