更新文档 (#3975)

2025-12-24 13:28:13 +08:00 · 2025-09-08 16:53:37 +08:00
parent 571ddc677b
commit 9ead10e1bc
13 changed files with 429 additions and 130 deletions
--- a/docs/zh/supported_models.md
+++ b/docs/zh/supported_models.md
@@ -2,9 +2,9 @@

 FastDeploy目前支持模型列表如下，在FastDeploy部署时，指定 ``model``参数为如下表格中的模型名，即可自动下载模型权重（均支持断点续传），支持如下3种下载源，

- 1. [AIStudio/PaddlePaddle](https://aistudio.baidu.com/modelsoverview) 搜索相应Paddle后缀ERNIE模型，如ERNIE-4.5-0.3B-Paddle
- 2. [ModelScope/PaddlePaddle](https://www.modelscope.cn/models?name=PaddlePaddle&page=1&tabKey=task) 搜索相应Paddle后缀ERNIE模型，如ERNIE-4.5-0.3B-Paddle
- 3. [HuggingFace/baidu/models](https://huggingface.co/baidu/models) 下载Paddle后缀ERNIE模型，如baidu/ERNIE-4.5-0.3B-Paddle
+- [AIStudio](https://aistudio.baidu.com/modelsoverview)
+- [ModelScope](https://www.modelscope.cn/models)
+- [HuggingFace](https://huggingface.co/models)

 使用自动下载时，默认从AIStudio下载，用户可以通过配置环境变量 ``FD_MODEL_SOURCE``修改默认下载来源，可取值"AISTUDIO"，"MODELSCOPE"或"HUGGINGFACE"；默认下载路径为 ``~/``(即用户主目录)，用户可以通过配置环境变量 ``FD_MODEL_CACHE``修改默认下载的路径，例如

@@ -13,25 +13,51 @@ export FD_MODEL_SOURCE=AISTUDIO # "AISTUDIO", "MODELSCOPE" or "HUGGINGFACE"
 export FD_MODEL_CACHE=/ssd1/download_models
 ```

-| 模型名                                      | 上下文长度 | 量化方式 | 最小部署资源          | 说明                                            |
-| :------------------------------------------ | :--------- | :------- | :-------------------- | :---------------------------------------------- |
-| baidu/ERNIE-4.5-VL-424B-A47B-Paddle         | 32K/128K   | WINT4    | 4卡*80G显存/1T内存    | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-VL-424B-A47B-Paddle         | 32K/128K   | WINT8    | 8卡*80G显存/1T内存    | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-300B-A47B-Paddle            | 32K/128K   | WINT4    | 4卡*64G显存/600G内存  | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-300B-A47B-Paddle            | 32K/128K   | WINT8    | 8卡*64G显存/600G内存  | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-300B-A47B-2Bits-Paddle      | 32K/128K   | WINT2    | 1卡*141G显存/600G内存 | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-300B-A47B-W4A8C8-TP4-Paddle | 32K/128K   | W4A8C8   | 4卡*64G显存/160G内存  | 限定4卡，建议开启Chunked Prefill                |
-| baidu/ERNIE-4.5-300B-A47B-FP8-Paddle        | 32K/128K   | FP8      | 8卡*64G显存/600G内存  | 建议开启Chunked Prefill，仅在PD分离EP并行下支持 |
-| baidu/ERNIE-4.5-300B-A47B-Base-Paddle       | 32K/128K   | WINT4    | 4卡*64G显存/600G内存  | 建议开启Chunked Prefill                         |
-| baidu/ERNIE-4.5-300B-A47B-Base-Paddle       | 32K/128K   | WINT8    | 8卡*64G显存/600G内存  | 建议开启Chunked Prefill                         |
-| baidu/ERNIE-4.5-VL-28B-A3B-Paddle           | 32K        | WINT4    | 1卡*24G/128G内存      | 需要开启Chunked Prefill                         |
-| baidu/ERNIE-4.5-VL-28B-A3B-Paddle           | 128K       | WINT4    | 1卡*48G/128G内存      | 需要开启Chunked Prefill                         |
-| baidu/ERNIE-4.5-VL-28B-A3B-Paddle           | 32K/128K   | WINT8    | 1卡*48G/128G内存      | 需要开启Chunked Prefill                         |
-| baidu/ERNIE-4.5-21B-A3B-Paddle              | 32K/128K   | WINT4    | 1卡*24G/128G内存      | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-21B-A3B-Paddle              | 32K/128K   | WINT8    | 1卡*48G/128G内存      | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-21B-A3B-Base-Paddle         | 32K/128K   | WINT4    | 1卡*24G/128G内存      | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-21B-A3B-Base-Paddle         | 32K/128K   | WINT8    | 1卡*48G/128G内存      | 128K需要开启Chunked Prefill                     |
-| baidu/ERNIE-4.5-0.3B-Paddle                 | 32K/128K   | BF16     | 1卡*6G/12G显存/2G内存 |                                                 |
-| baidu/ERNIE-4.5-0.3B-Base-Paddle            | 32K/128K   | BF16     | 1卡*6G/12G显存/2G内存 |                                                 |
+> ⭐ **说明**：带星号的模型可直接使用 **HuggingFace Torch 权重**，支持 **FP8/WINT8/WINT4 动态量化** 和 **BF16 精度** 推理，推理时需启用 **`--load_choices "default_v1"`**。
+
+> 以baidu/ERNIE-4.5-21B-A3B-PT为例启动命令如下
+```
+python -m fastdeploy.entrypoints.openai.api_server \
+       --model baidu/ERNIE-4.5-0.3B-PT \
+       --port 8180 \
+       --metrics-port 8181 \
+       --engine-worker-queue-port 8182 \
+       --max-model-len 32768 \
+       --max-num-seqs 32 \
+       --load_choices "default_v1"
+```
+
+## 纯文本模型列表
+
+|模型|DataType|模型案例|
+|-|-|-|
+|⭐ERNIE|BF16\WINT4\WINT8\W4A8C8\WINT2\FP8|baidu/ERNIE-4.5-VL-424B-A47B-Paddle;<br>baidu/ERNIE-4.5-300B-A47B-Paddle<br>&emsp;[快速部署](./get_started/ernie-4.5.md) &emsp; [最佳实践](./best_practices/ERNIE-4.5-300B-A47B-Paddle.md);<br>baidu/ERNIE-4.5-300B-A47B-2Bits-Paddle;<br>baidu/ERNIE-4.5-300B-A47B-W4A8C8-TP4-Paddle;<br>baidu/ERNIE-4.5-300B-A47B-FP8-Paddle;<br>baidu/ERNIE-4.5-300B-A47B-Base-Paddle;<br>[baidu/ERNIE-4.5-21B-A3B-Paddle](./best_practices/ERNIE-4.5-21B-A3B-Paddle.md);<br>baidu/ERNIE-4.5-21B-A3B-Base-Paddle;<br>baidu/ERNIE-4.5-0.3B-Paddle<br>&emsp;[快速部署](./get_started/quick_start.md) &emsp; [最佳实践](./best_practices/ERNIE-4.5-0.3B-Paddle.md);<br>baidu/ERNIE-4.5-0.3B-Base-Paddle, etc.|
+|⭐QWEN3-MOE|BF16/WINT4/WINT8/FP8|Qwen/Qwen3-235B-A22B;<br>Qwen/Qwen3-30B-A3B, etc.|
+|⭐QWEN3|BF16/WINT8/FP8|Qwen/qwen3-32B;<br>Qwen/qwen3-14B;<br>Qwen/qwen3-8B;<br>Qwen/qwen3-4B;<br>Qwen/qwen3-1.7B;<br>[Qwen/qwen3-0.6B](./get_started/quick_start_qwen.md), etc.|
+|⭐QWEN2.5|BF16/WINT8/FP8|Qwen/qwen2.5-72B;<br>Qwen/qwen2.5-32B;<br>Qwen/qwen2.5-14B;<br>Qwen/qwen2.5-7B;<br>Qwen/qwen2.5-3B;<br>Qwen/qwen2.5-1.5B;<br>Qwen/qwen2.5-0.5B, etc.|
+|⭐QWEN2|BF16/WINT8/FP8|Qwen/Qwen/qwen2-72B;<br>Qwen/Qwen/qwen2-7B;<br>Qwen/qwen2-1.5B;<br>Qwen/qwen2-0.5B;<br>Qwen/QwQ-32, etc.|
+|DEEPSEEK|BF16/WINT4|unsloth/DeepSeek-V3.1-BF16;<br>unsloth/DeepSeek-V3-0324-BF16;<br>unsloth/DeepSeek-R1-BF16, etc.|
+
+## 多模态语言模型列表
+
+根据模型不同，支持多种模态(文本、图像等)组合：
+
+|模型|DataType|模型案例|
+|-|-|-|
+| ERNIE-VL  |BF16/WINT4/WINT8| baidu/ERNIE-4.5-VL-424B-A47B-Paddle<br>&emsp;[快速部署](./get_started/ernie-4.5-vl.md) &emsp; [最佳实践](./best_practices/ERNIE-4.5-VL-424B-A47B-Paddle.md) ;<br>baidu/ERNIE-4.5-VL-28B-A3B-Paddle<br>&emsp;[快速部署](./get_started/quick_start_vl.md) &emsp; [最佳实践](./best_practices/ERNIE-4.5-VL-28B-A3B-Paddle.md) ;|
+| QWEN-VL  |BF16/WINT4/FP8| Qwen/Qwen2.5-VL-72B-Instruct;<br>Qwen/Qwen2.5-VL-32B-Instruct;<br>Qwen/Qwen2.5-VL-7B-Instruct;<br>Qwen/Qwen2.5-VL-3B-Instruct|
+
+## 最小资源部署说明
+
+最小部署资源没有普适公式，需要根据上下文长度 和 量化方式
+我们推荐计算显存需求 = 参数量 × 量化方式字节系数（系数列表如下），最终 GPU 数量取决于 总显存需求 ÷ 单卡显存
+
+|量化方式   |对应每参数字节系数 |
+| :---      | :---      |
+|BF16       |2          |
+|FP8        |1          |
+|WINT8      |1          |
+|WINT4      |0.5        |
+|W4A8C8     |0.5        |

 更多模型同步支持中，你可以通过[Github Issues](https://github.com/PaddlePaddle/FastDeploy/issues)向我们提交新模型的支持需求。