FastDeploy

mirror of https://github.com/PaddlePaddle/FastDeploy.git synced 2025-10-05 16:48:03 +08:00

Files

AIbin fd91da7b41 【Inference Optimize】Support wint2 triton kernel about triton_utils_v2 (#2842 )

* update supported_models doc

2025-07-15 14:35:40 +08:00

2025-06-29 23:29:37 +00:00

__init__.py

2025-06-29 23:29:37 +00:00

block_wise_fp8.py

2025-07-09 19:22:47 +08:00

kv_cache.py

2025-06-29 23:29:37 +00:00

mix_quant.py

2025-07-03 22:33:27 +08:00

quant_base.py

2025-06-29 23:29:37 +00:00

tensor_wise_fp8.py

2025-07-07 20:06:28 +08:00

w4a8.py

2025-06-29 23:29:37 +00:00

w4afp8.py

2025-06-29 23:29:37 +00:00

w8a8.py

2025-06-29 23:29:37 +00:00

weight_only.py

2025-07-09 18:56:27 +08:00

wfp8afp8.py

2025-06-29 23:29:37 +00:00

wint2.py

2025-07-15 14:35:40 +08:00