Files
FastDeploy/docs/zh/best_practices/FAQ.md
yangjianfengo1 b808c49585 [Doc] 增加中英文切换 (#3318)
* 增加中英文切换

* 增加中英文切换

* 修改readme
2025-08-12 11:20:45 +08:00

38 lines
1.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 常见问题FAQ
## 1.显存不足
1. 启动服务时显存不足:
- 核对模型和量化方式对应的部署最小卡数,如果不满足则需要增加部署卡数
- 如果开启了CUDAGraph尝试通过降低 `gpu_memory_utilization`来为CUDAGraph留存更多的显存或通过减少 `max_num_seqs`,设置`cudagraph_capture_sizes`来减少CUDAGraph的显存占用。
2. 服务运行期间显存不足:
- 检查log中是否有类似如下信息如有通常是输出block不足导致需要减小`kv-cache-ratio`
```
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 133 encoder block len: 24
recover seq_id: 2 free_list_len: 144 used_list_len: 134
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 144 encoder_block_len: 24
```
建议启用服务管理全局 Block功能在启动服务前加入环境变量
```
export ENABLE_V1_KVCACHE_SCHEDULER=1
```
## 2.模型性能差
1. 首先检查输出长度是否符合预期,是否是解码过长导致。
如果场景输出本身较长请检查log中是否有类似如下信息如有通常是输出block不足导致需要减小`kv-cache-ratio`
```
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 133 encoder block len: 24
recover seq_id: 2 free_list_len: 144 used_list_len: 134
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 144 encoder_block_len: 24
```
同样建议启用服务管理全局 Block功能在启动服务前加入环境变量
```
export ENABLE_V1_KVCACHE_SCHEDULER=1
```
2. 检查自动profile分配的KVCache block是否符合预期如果自动profile中受到显存波动影响可能导致分配偏少可以通过手工设置`num_gpu_blocks_override`参数扩大KVCache block。