Files
FastDeploy/README_CN.md
fmiao2372 f1b5392e20 [Intel HPU] Support intel hpu platform (#4161)
* [Intel HPU] Support intel hpu platform

* fix some issues

* apply precommit and move AttentionBackend_HPU

* fix format issue

* correct ops import

* fix ci issue

* update code in layers

* fix code style issue

* remove dense tp moe ep mode

* fix enc_dec_block_num

* fix rebase issue

* rename hpu to gaudi in readme

* rename ForwardMeta_HPU to HPUForwardMeta
2025-09-24 12:27:50 +08:00

5.5 KiB
Raw Permalink Blame History

English | 简体中文

PaddlePaddle%2FFastDeploy | Trendshift
安装指导 | 快速入门 | 支持模型列表


FastDeploy :基于飞桨的大语言模型与视觉语言模型推理部署工具包

最新活动

[2025-09] 🔥 FastDeploy v2.2 全新发布: HuggingFace生态模型兼容性能进一步优化更新增对baidu/ERNIE-21B-A3B-Thinking支持!

[2025-08] FastDeploy v2.1 发布:全新的KV Cache调度策略更多模型支持PD分离和CUDA Graph昆仑、海光等更多硬件支持增强全方面优化服务和推理引擎的性能。

[2025-07] 《FastDeploy2.0推理部署实测》专题活动已上线! 完成文心4.5系列开源模型的推理部署等任务即可获得骨瓷马克杯等FastDeploy2.0官方周边及丰富奖金!🎁 欢迎大家体验反馈~ 📌报名地址 📌活动详情

关于

FastDeploy 是基于飞桨PaddlePaddle的大语言模型LLM与视觉语言模型VLM推理部署工具包提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解工业级解决方案支持上下文缓存与动态实例角色切换在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输轻量级高性能传输库支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术推测解码、多令牌预测MTP及分块预填充
  • 🖥️ 多硬件支持NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等

要求

  • 操作系统: Linux
  • Python: 3.10 ~ 3.12

安装

FastDeploy 支持在英伟达NVIDIAGPU昆仑芯KunlunxinXPU天数IluvatarGPU燧原EnflameGCU海光HygonDCU 以及其他硬件上进行推理部署。详细安装说明如下:

注意: 我们正在积极拓展硬件支持范围。目前包括昇腾AscendNPU 等其他硬件平台正在开发测试中。敬请关注更新!

入门指南

通过我们的文档了解如何使用 FastDeploy

支持模型列表

通过我们的文档了解如何下载模型如何支持torch格式等

进阶用法

致谢

FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。