mirror of
https://github.com/PaddlePaddle/FastDeploy.git
synced 2025-12-24 13:28:13 +08:00
[Docx] add language (en/cn) switch links (#4470)
* add install docs * 修改文档 * 修改文档
This commit is contained in:
@@ -1,3 +1,5 @@
|
||||
[English](../../quantization/README.md)
|
||||
|
||||
# 量化
|
||||
|
||||
FastDeploy支持FP8、INT8、INT4、2-bit等多种量化推理精度,支持模型权重、激活和KVCache 3种张量的不同精度推理,可以满足低成本、低时延、长上下文等不同场景的推理需求。
|
||||
|
||||
@@ -1,3 +1,5 @@
|
||||
[English](../../quantization/online_quantization.md)
|
||||
|
||||
# 在线量化
|
||||
|
||||
在线量化是指推理引擎在加载 BF16 权重后对权重做量化,而不是加载离线量化好的低精度权重。FastDeploy 支持将 BF16 在线量化到多种精度,包括:INT4, INT8 和 FP8.
|
||||
|
||||
@@ -1,3 +1,5 @@
|
||||
[English](../../quantization/wint2.md)
|
||||
|
||||
# WINT2量化
|
||||
|
||||
权重经过 [CCQ(卷积编码量化)](https://arxiv.org/pdf/2507.07145) 方法进行离线压缩。权重的实际存储数值类型为INT8,每个INT8数值中打包了4个权重,等价于每个权重2bits。激活不做量化。在推理过程中,权重会被实时反量化并解码为BF16数值类型,并使用BF16数值类型进行计算。
|
||||
|
||||
Reference in New Issue
Block a user