Modified to support custom all reduce by default (#3538)

This commit is contained in:
zhink
2025-08-22 16:59:05 +08:00
committed by GitHub
parent 27666ee586
commit df7c31012b
15 changed files with 18 additions and 30 deletions

View File

@@ -77,8 +77,7 @@ CUDAGraph 是 NVIDIA 提供的一项 GPU 计算加速技术,通过将 CUDA 操
```
注:
1. 通常情况下不需要额外设置其他参数但CUDAGraph会产生一些额外的显存开销在一些显存受限的场景下可能需要调整。详细的参数调整请参考[GraphOptimizationBackend](../features/graph_optimization.md) 相关配置参数说明
2. 开启CUDAGraph时如果是TP>1的多卡推理场景需要同时指定 `--enable-custom-all-reduce`
3. 开启CUDAGraph时暂时不支持`max-model-len > 32768`的场景。
2. 开启CUDAGraph时暂时不支持`max-model-len > 32768`的场景。
#### 2.2.5 拒绝采样
**原理:**

View File

@@ -87,8 +87,7 @@ CUDAGraph 是 NVIDIA 提供的一项 GPU 计算加速技术,通过将 CUDA 操
```
注:
1. 通常情况下不需要额外设置其他参数但CUDAGraph会产生一些额外的显存开销在一些显存受限的场景下可能需要调整。详细的参数调整请参考[GraphOptimizationBackend](../features/graph_optimization.md) 相关配置参数说明
2. 开启CUDAGraph时如果是TP>1的多卡推理场景需要同时指定 `--enable-custom-all-reduce`
3. 开启CUDAGraph时暂时不支持`max-model-len > 32768`的场景。
2. 开启CUDAGraph时暂时不支持`max-model-len > 32768`的场景。
#### 2.2.6 拒绝采样
**原理:**

View File

@@ -133,12 +133,10 @@ CUDAGraph 是 NVIDIA 提供的一项 GPU 计算加速技术,通过将 CUDA 操
在启动命令中增加
```
--use-cudagraph
--enable-custom-all-reduce
```
注:
1. 通常情况下不需要额外设置其他参数但CUDAGraph会产生一些额外的显存开销在一些显存受限的场景下可能需要调整。详细的参数调整请参考[GraphOptimizationBackend](../features/graph_optimization.md) 相关配置参数说明
2. 开启CUDAGraph时如果是TP>1的多卡推理场景需要同时指定 `--enable-custom-all-reduce`
3. 开启CUDAGraph时暂时不支持`max-model-len > 32768`的场景。
2. 开启CUDAGraph时暂时不支持`max-model-len > 32768`的场景。
## 三、常见问题FAQ
如果您在使用过程中遇到问题,可以在[FAQ](./FAQ.md)中查阅。