[Docx] add language (en/cn) switch links (#4470)

* add install docs

* 修改文档

* 修改文档
This commit is contained in:
yangjianfengo1
2025-10-17 15:47:41 +08:00
committed by GitHub
parent a3e0a15495
commit ba5c2b7e37
106 changed files with 206 additions and 0 deletions

View File

@@ -1,3 +1,5 @@
[English](../../features/chunked_prefill.md)
# Chunked Prefill 与 128K 长文推理部署
Chunked Prefill 采用分块策略将预填充Prefill阶段请求拆解为小规模子任务与解码Decode请求混合批处理执行。可以更好地平衡计算密集型Prefill和访存密集型Decode操作优化GPU资源利用率减少单次Prefill的计算量和显存占用从而降低显存峰值避免显存不足的问题。

View File

@@ -1,3 +1,5 @@
[English](../../features/data_parallel_service.md)
# 数据并行
在MOE模型下开启专家并行EP与数据并行DP相结合EP 分摊专家负载,结合 DP 实现请求并行处理。

View File

@@ -1,3 +1,5 @@
[English](../../features/disaggregated.md)
# 分离式部署
大模型推理分为两个部分Prefill和Decode阶段分别为计算密集型Prefill和存储密集型Decode两部分。将Prefill 和 Decode 分开部署在一定场景下可以提高硬件利用率,有效提高吞吐,降低整句时延,

View File

@@ -1,3 +1,4 @@
[English](../../features/early_stop.md)
# 早停功能

View File

@@ -1,3 +1,5 @@
[English](../../features/graph_optimization.md)
# FastDeploy 中的图优化技术
FastDeploy 的 `GraphOptimizationBackend` 中集成了多种图优化技术:

View File

@@ -1,3 +1,5 @@
[English](../../features/load_balance.md)
# 全局调度器: 多实例负载均衡
## 设计方案

View File

@@ -1,3 +1,5 @@
[English](../../features/multi-node_deployment.md)
# 多节点部署
## 概述

View File

@@ -1,3 +1,5 @@
[English](../../features/plas_attention.md)
# PLAS
## 介绍

View File

@@ -1,3 +1,5 @@
[English](../../features/plugins.md)
# FastDeploy 插件机制说明文档
FastDeploy 支持插件机制,允许用户在不修改核心代码的前提下扩展功能。插件通过 Python 的 `entry_points` 机制实现自动发现与加载。

View File

@@ -1,3 +1,5 @@
[English](../../features/prefix_caching.md)
# Prefix Caching
Prefix Caching前缀缓存是一种优化生成式模型推理效率的技术核心思想是通过缓存输入序列的中间计算结果KV Cache避免重复计算从而加速具有相同前缀的多个请求的响应速度。

View File

@@ -1,3 +1,5 @@
[English](../../features/reasoning_output.md)
# 思考链内容
思考模型在输出中返回 `reasoning_content` 字段,表示思考链内容,即得出最终结论的思考步骤.

View File

@@ -1,3 +1,5 @@
[English](../../features/sampling.md)
# 采样策略
采样策略用于决定如何从模型的输出概率分布中选择下一个token。FastDeploy目前支持 Top-p 、 Top-k_Top-p 和 Min-p Sampling 多种采样策略。

View File

@@ -1,3 +1,5 @@
[English](../../features/speculative_decoding.md)
# 🔮 投机解码
本项目基于 PaddlePaddle 实现了高效的 **投机解码Speculative Decoding** 推理框架,支持多 Token 预测Multi-token Proposing, MTP用于加速大语言模型LLM的生成显著降低时延并提升吞吐量。

View File

@@ -1,3 +1,5 @@
[English](../../features/structured_outputs.md)
# Structured Outputs
## 概述