Files
FastDeploy/docs/zh/best_practices/FAQ.md
yangjianfengo1 b808c49585 [Doc] 增加中英文切换 (#3318)
* 增加中英文切换

* 增加中英文切换

* 修改readme
2025-08-12 11:20:45 +08:00

1.7 KiB
Raw Permalink Blame History

常见问题FAQ

1.显存不足

  1. 启动服务时显存不足:
  • 核对模型和量化方式对应的部署最小卡数,如果不满足则需要增加部署卡数
  • 如果开启了CUDAGraph尝试通过降低 gpu_memory_utilization来为CUDAGraph留存更多的显存或通过减少 max_num_seqs,设置cudagraph_capture_sizes来减少CUDAGraph的显存占用。
  1. 服务运行期间显存不足:
  • 检查log中是否有类似如下信息如有通常是输出block不足导致需要减小kv-cache-ratio
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 133 encoder block len: 24
recover seq_id: 2 free_list_len: 144 used_list_len: 134
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 144 encoder_block_len: 24

建议启用服务管理全局 Block功能在启动服务前加入环境变量

export ENABLE_V1_KVCACHE_SCHEDULER=1

2.模型性能差

  1. 首先检查输出长度是否符合预期,是否是解码过长导致。 如果场景输出本身较长请检查log中是否有类似如下信息如有通常是输出block不足导致需要减小kv-cache-ratio
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 133 encoder block len: 24
recover seq_id: 2 free_list_len: 144 used_list_len: 134
need_block_len: 1 free_list_len: 0
step max_id: 2 max_num: 144 encoder_block_len: 24

同样建议启用服务管理全局 Block功能在启动服务前加入环境变量

export ENABLE_V1_KVCACHE_SCHEDULER=1
  1. 检查自动profile分配的KVCache block是否符合预期如果自动profile中受到显存波动影响可能导致分配偏少可以通过手工设置num_gpu_blocks_override参数扩大KVCache block。