Update disaggregated.md (#3495)

修复文档错误
This commit is contained in:
Zhang Yulong
2025-08-20 19:39:18 +08:00
committed by GitHub
parent e197894977
commit 33ff0bfe38

View File

@@ -1,6 +1,6 @@
# 分离式部署
大模型推理分为两个部分Prefill和Decode阶段分别为计算密集型Prefill计算密集型Decode两部分。将Prefill 和 Decode 分开部署在一定场景下可以提高硬件利用率,有效提高吞吐,降低整句时延,
大模型推理分为两个部分Prefill和Decode阶段分别为计算密集型Prefill存储密集型Decode两部分。将Prefill 和 Decode 分开部署在一定场景下可以提高硬件利用率,有效提高吞吐,降低整句时延,
* Prefill阶段处理输入的全部Token如用户输入的Prompt完成模型的前向传播Forward生成首token。
* Decode阶段从生成第首token后采用自回归一次生成一个token直到生成到stop token结束设输出N✖tokenDecode阶段需要执行N-1次前向传播只能串行执行并且在生成过程中需要关注的token数越来越多计算量也逐渐增大。