[Docx] add language (en/cn) switch links (#4470)

* add install docs

* 修改文档

* 修改文档
This commit is contained in:
yangjianfengo1
2025-10-17 15:47:41 +08:00
committed by GitHub
parent a3e0a15495
commit ba5c2b7e37
106 changed files with 206 additions and 0 deletions

View File

@@ -1,3 +1,5 @@
[English](../../quantization/README.md)
# 量化
FastDeploy支持FP8、INT8、INT4、2-bit等多种量化推理精度支持模型权重、激活和KVCache 3种张量的不同精度推理可以满足低成本、低时延、长上下文等不同场景的推理需求。

View File

@@ -1,3 +1,5 @@
[English](../../quantization/online_quantization.md)
# 在线量化
在线量化是指推理引擎在加载 BF16 权重后对权重做量化而不是加载离线量化好的低精度权重。FastDeploy 支持将 BF16 在线量化到多种精度包括INT4, INT8 和 FP8.

View File

@@ -1,3 +1,5 @@
[English](../../quantization/wint2.md)
# WINT2量化
权重经过 [CCQ卷积编码量化](https://arxiv.org/pdf/2507.07145) 方法进行离线压缩。权重的实际存储数值类型为INT8每个INT8数值中打包了4个权重等价于每个权重2bits。激活不做量化。在推理过程中权重会被实时反量化并解码为BF16数值类型并使用BF16数值类型进行计算。