Files
FastDeploy/README_CN.md
yangjianfengo1 f556561584 【docs】 update readme (#4000)
* 更新文档

* update readme

* update docs
2025-09-09 11:04:08 +08:00

5.4 KiB
Raw Permalink Blame History

English | 简体中文

PaddlePaddle%2FFastDeploy | Trendshift
安装指导 | 快速入门 | 支持模型列表


FastDeploy :基于飞桨的大语言模型与视觉语言模型推理部署工具包

最新活动

[2025-09] 🔥 FastDeploy v2.2 全新发布: HuggingFace生态模型兼容性能进一步优化更新增对baidu/ERNIE-21B-A3B-Thinking支持!

[2025-08] FastDeploy v2.1 发布:全新的KV Cache调度策略更多模型支持PD分离和CUDA Graph昆仑、海光等更多硬件支持增强全方面优化服务和推理引擎的性能。

[2025-07] 《FastDeploy2.0推理部署实测》专题活动已上线! 完成文心4.5系列开源模型的推理部署等任务即可获得骨瓷马克杯等FastDeploy2.0官方周边及丰富奖金!🎁 欢迎大家体验反馈~ 📌报名地址 📌活动详情

关于

FastDeploy 是基于飞桨PaddlePaddle的大语言模型LLM与视觉语言模型VLM推理部署工具包提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解工业级解决方案支持上下文缓存与动态实例角色切换在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输轻量级高性能传输库支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术推测解码、多令牌预测MTP及分块预填充
  • 🖥️ 多硬件支持NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU等

要求

  • 操作系统: Linux
  • Python: 3.10 ~ 3.12

安装

FastDeploy 支持在英伟达NVIDIAGPU昆仑芯KunlunxinXPU天数IluvatarGPU燧原EnflameGCU海光HygonDCU 以及其他硬件上进行推理部署。详细安装说明如下:

注意: 我们正在积极拓展硬件支持范围。目前包括昇腾AscendNPU 等其他硬件平台正在开发测试中。敬请关注更新!

入门指南

通过我们的文档了解如何使用 FastDeploy

支持模型列表

通过我们的文档了解如何下载模型如何支持torch格式等

进阶用法

致谢

FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。