mirror of
https://github.com/PaddlePaddle/FastDeploy.git
synced 2025-12-24 13:28:13 +08:00
update_wint2_doc (#3968)
This commit is contained in:
@@ -5,7 +5,7 @@
|
||||
- **支持结构**:MoE结构
|
||||
|
||||
该方法依托卷积算法利用重叠的Bit位将2Bit的数值映射到更大的数值表示空间,使得模型权重量化后既保留原始数据更多的信息,同时将真实数值压缩到极低的2Bit大小,大致原理可参考下图:
|
||||
[卷积编码量化示意图](./wint2.png)
|
||||

|
||||
|
||||
CCQ WINT2一般用于资源受限的低门槛场景,以ERNIE-4.5-300B-A47B为例,将权重压缩到89GB,可支持141GB H20单卡部署。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user