mirror of
https://github.com/PaddlePaddle/FastDeploy.git
synced 2025-09-26 20:41:53 +08:00
5.4 KiB
5.4 KiB
English | 简体中文
FastDeploy :基于飞桨的大语言模型与视觉语言模型推理部署工具包
最新活动
[2025-09] 🔥 FastDeploy v2.2 全新发布: HuggingFace生态模型兼容,性能进一步优化,更新增对baidu/ERNIE-21B-A3B-Thinking支持!
[2025-08] FastDeploy v2.1 发布:全新的KV Cache调度策略,更多模型支持PD分离和CUDA Graph,昆仑、海光等更多硬件支持增强,全方面优化服务和推理引擎的性能。
[2025-07] 《FastDeploy2.0推理部署实测》专题活动已上线! 完成文心4.5系列开源模型的推理部署等任务,即可获得骨瓷马克杯等FastDeploy2.0官方周边及丰富奖金!🎁 欢迎大家体验反馈~ 📌报名地址 📌活动详情
关于
FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供开箱即用的生产级部署方案,核心技术特性包括:
- 🚀 负载均衡式PD分解:工业级解决方案,支持上下文缓存与动态实例角色切换,在保障SLO达标和吞吐量的同时优化资源利用率
- 🔄 统一KV缓存传输:轻量级高性能传输库,支持智能NVLink/RDMA选择
- 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
- 🧮 全量化格式支持:W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
- ⏩ 高级加速技术:推测解码、多令牌预测(MTP)及分块预填充
- 🖥️ 多硬件支持:NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU等
要求
- 操作系统: Linux
- Python: 3.10 ~ 3.12
安装
FastDeploy 支持在英伟达(NVIDIA)GPU、昆仑芯(Kunlunxin)XPU、天数(Iluvatar)GPU、燧原(Enflame)GCU、海光(Hygon)DCU 以及其他硬件上进行推理部署。详细安装说明如下:
注意: 我们正在积极拓展硬件支持范围。目前,包括昇腾(Ascend)NPU 等其他硬件平台正在开发测试中。敬请关注更新!
入门指南
通过我们的文档了解如何使用 FastDeploy:
支持模型列表
通过我们的文档了解如何下载模型,如何支持torch格式等:
进阶用法
致谢
FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。