飞桨大语言模型推理部署工具包
English
简体中文
正在初始化搜索引擎
FastDeploy
飞桨大语言模型推理部署工具包
FastDeploy
FastDeploy
快速入门
快速入门
安装
安装
英伟达 GPU
昆仑芯 XPU
英特尔 Gaudi
海光 DCU
燧原 S60
天数 CoreX
沐曦 C550
ERNIE-4.5-0.3B快速部署
ERNIE-4.5-VL-28B-A3B快速部署
ERNIE-4.5-300B-A47B
ERNIE-4.5-VL-424B-A47B
Qwen3-0.6b快速部署
Qwen2.5-VL系列快速部署
在线服务
在线服务
兼容 OpenAI 协议的服务化部署
监控Metrics
调度器
服务优雅关闭
离线推理
Best Practices
Best Practices
ERNIE-4.5-0.3B
ERNIE-4.5-21B-A3B
ERNIE-4.5-300B-A47B
ERNIE-4.5-21B-A3B-Thinking
ERNIE-4.5-VL-28B-A3B
ERNIE-4.5-VL-424B-A47B
PaddleOCR-VL-0.9B
常见问题
量化
量化
概述
在线量化
WINT2量化
特性
特性
前缀缓存
分离式部署
分块预填充
负载均衡
投机解码
结构化输出
思考链内容
早停功能
插件机制
采样策略
多机部署
图优化
数据并行
PLAS
支持模型列表
基准测试
用法
用法
日志说明
代码概述
环境变量
CLI 使用说明
CLI 使用说明
概述
Chat命令
Complete命令
Server命令
Collect Env命令
Bench命令
Run Batch命令
Tokenizer命令
可观测性
可观测性
Trace服务
404 - Not found