Files
FastDeploy/README_CN.md
yangjianfengo1 615930bc05 Update README (#3426)
* 修改READMe

* code style

* code style
2025-08-15 18:46:28 +08:00

5.9 KiB
Raw Blame History

English | 简体中文

PaddlePaddle%2FFastDeploy | Trendshift
安装指导 | 快速入门 | 支持模型列表


FastDeploy :基于飞桨的大语言模型与视觉语言模型推理部署工具包

最新活动

[2025-08] 🔥 FastDeploy v2.1 全新发布: 全新的KV Cache调度策略更多模型支持PD分离和CUDA Graph昆仑、海光等更多硬件支持增强全方面优化服务和推理引擎的性能。

[2025-07] 《FastDeploy2.0推理部署实测》专题活动已上线! 完成文心4.5系列开源模型的推理部署等任务即可获得骨瓷马克杯等FastDeploy2.0官方周边及丰富奖金!🎁 欢迎大家体验反馈~ 📌报名地址 📌活动详情

关于

FastDeploy 是基于飞桨PaddlePaddle的大语言模型LLM与视觉语言模型VLM推理部署工具包提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解工业级解决方案支持上下文缓存与动态实例角色切换在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输轻量级高性能传输库支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术推测解码、多令牌预测MTP及分块预填充
  • 🖥️ 多硬件支持NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU等

要求

  • 操作系统: Linux
  • Python: 3.10 ~ 3.12

安装

FastDeploy 支持在英伟达NVIDIAGPU昆仑芯KunlunxinXPU天数IluvatarGPU燧原EnflameGCU海光HygonDCU 以及其他硬件上进行推理部署。详细安装说明如下:

注意: 我们正在积极拓展硬件支持范围。目前包括昇腾AscendNPU 和 沐曦MetaXGPU 在内的其他硬件平台正在开发测试中。敬请关注更新!

入门指南

通过我们的文档了解如何使用 FastDeploy

支持模型列表

Model Data Type PD Disaggregation Chunked Prefill Prefix Caching MTP CUDA Graph Maximum Context Length
ERNIE-4.5-300B-A47B BF16/WINT4/WINT8/W4A8C8/WINT2/FP8 128K
ERNIE-4.5-300B-A47B-Base BF16/WINT4/WINT8 128K
ERNIE-4.5-VL-424B-A47B BF16/WINT4/WINT8 WIP WIP WIP 128K
ERNIE-4.5-VL-28B-A3B BF16/WINT4/WINT8 WIP WIP 128K
ERNIE-4.5-21B-A3B BF16/WINT4/WINT8/FP8 128K
ERNIE-4.5-21B-A3B-Base BF16/WINT4/WINT8/FP8 128K
ERNIE-4.5-0.3B BF16/WINT8/FP8 128K

进阶用法

致谢

FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。