Files
FastDeploy/docs/zh/index.md
2025-09-09 10:44:15 +08:00

3.3 KiB
Raw Blame History

FastDeploy

FastDeploy 是基于飞桨PaddlePaddle的大语言模型LLM与视觉语言模型VLM推理部署工具包提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解工业级解决方案支持上下文缓存与动态实例角色切换在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输轻量级高性能传输库支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术推测解码、多令牌预测MTP及分块预填充
  • 🖥️ 多硬件支持NVIDIA GPU、昆仑芯XPU、海光DCU、昇腾NPU、天数智芯GPU、燧原GCU、沐曦GPU等

支持模型

Model Data Type PD Disaggregation Chunked Prefill Prefix Caching MTP CUDA Graph Maximum Context Length
ERNIE-4.5-300B-A47B BF16\WINT4\WINT8\W4A8C8\WINT2\FP8 128K
ERNIE-4.5-300B-A47B-Base BF16/WINT4/WINT8 128K
ERNIE-4.5-VL-424B-A47B BF16/WINT4/WINT8 🚧 🚧 🚧 128K
ERNIE-4.5-VL-28B-A3B BF16/WINT4/WINT8 🚧 🚧 128K
ERNIE-4.5-21B-A3B BF16/WINT4/WINT8/FP8 128K
ERNIE-4.5-21B-A3B-Thinking BF16/WINT4/WINT8/FP8 128K
ERNIE-4.5-21B-A3B-Base BF16/WINT4/WINT8/FP8 128K
ERNIE-4.5-0.3B BF16/WINT8/FP8 128K
QWEN3-MOE BF16/WINT4/WINT8/FP8 🚧 128K
QWEN3 BF16/WINT8/FP8 🚧 128K
QWEN-VL BF16/WINT8/FP8 🚧 128K
QWEN2 BF16/WINT8/FP8 🚧 128K
DEEPSEEK-V3 BF16/WINT4 🚧 🚧 128K
DEEPSEEK-R1 BF16/WINT4 🚧 🚧 128K
✅ 已支持 🚧 适配中 ⛔ 暂无计划

支持硬件

模型 英伟达GPU 昆仑芯P800 昇腾910B 海光K100-AI 天数天垓150 沐曦曦云C550 燧原S60/L600
ERNIE4.5-VL-424B-A47B 🚧 🚧
ERNIE4.5-300B-A47B 🚧
ERNIE4.5-VL-28B-A3B 🚧 🚧 🚧 🚧
ERNIE4.5-21B-A3B 🚧
ERNIE4.5-0.3B 🚧
✅ 已支持 🚧 适配中 ⛔ 暂无计划

文档说明

本项目文档基于mkdocs支持编译可视化查看参考如下命令进行编译预览

pip install requirements.txt

cd FastDeploy
mkdocs build

mkdocs serve

根据提示打开相应地址即可。