FastDeploy/fastdeploy/model_executor/layers/quantization at 87179cb744e5fb35e2190b19142d249ff970bd92 - FastDeploy - 子说镜像小站

apps/FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2025-12-24 13:28:13 +08:00

Files

History

chen 7c1fd19f0f [OPs] MoE support wfp8afp8(channelwise) and improve per_token_quant_fp8 (#4238 )

2025-09-24 16:39:51 +08:00

..

[Optimize] Support WINT8 and group scale for Machete (#3905 )

2025-09-15 12:01:34 +08:00

__init__.py

[BugFix]fix v1 loader moe bf16, and supoort dynamic_load_weight create quant param (#4229 )

2025-09-24 14:12:05 +08:00

block_wise_fp8.py

[v1 loader]qwen Offline fp8 (#4036 )

2025-09-15 13:44:11 +08:00

kv_cache.py

[BugFix]Fix load kv cache quant scale (#4077 )

2025-09-12 17:44:03 +08:00

mix_quant.py

[v1 loader]qwen Offline fp8 (#4036 )

2025-09-15 13:44:11 +08:00

quant_base.py

polish code with new pre-commit rule (#2923 )

2025-07-19 23:19:27 +08:00

tensor_wise_fp8.py

[NewFeatures] support eplb (#3547 )

2025-08-26 16:19:30 +08:00

w4a8.py

load hadamard_block_size from config (#3797 )

2025-09-05 17:07:58 +08:00

w4afp8.py

load hadamard_block_size from config (#3797 )

2025-09-05 17:07:58 +08:00

w8a8.py

fix w8a8.py (#3733 )

2025-09-03 10:57:26 +08:00

weight_only.py

[Optimize] Machete using group scale default (#4121 )

2025-09-18 13:51:11 +08:00

wfp8afp8.py

[OPs] MoE support wfp8afp8(channelwise) and improve per_token_quant_fp8 (#4238 )

2025-09-24 16:39:51 +08:00

wint2.py

polish code with new pre-commit rule (#2923 )

2025-07-19 23:19:27 +08:00