bench:基准测试
1 bench latency:离线延迟测试
参数
| 参数 |
说明 |
默认值 |
| --input-len |
输入序列长度(token) |
32 |
| --output-len |
输出序列长度(token) |
128 |
| --batch-size |
批量大小 |
8 |
| --n |
每个提示生成序列数 |
1 |
| --use-beam-search |
是否使用束搜索 |
False |
| --num-iters-warmup |
预热迭代次数 |
10 |
| --num-iters |
实际测试迭代次数 |
30 |
| --profile |
是否进行性能分析 |
False |
| --output-json |
保存延迟结果 JSON 文件路径 |
None |
| --disable-detokenize |
是否禁用 detokenization |
False |
示例
2 bench serve:在线延迟与吞吐量测试
参数
| 参数 |
说明 |
默认值 |
| --backend |
后端类型 |
"openai-chat" |
| --base-url |
服务器或 API 基础 URL |
None |
| --host |
主机地址 |
"127.0.0.1" |
| --port |
端口 |
8000 |
| --endpoint |
API 路径 |
"/v1/chat/completions" |
| --model |
模型名称 |
必需 |
| --dataset-name |
数据集名称 |
"sharegpt" |
| --dataset-path |
数据集路径 |
None |
| --num-prompts |
处理提示数 |
1000 |
| --request-rate |
每秒请求数 |
inf |
| --max-concurrency |
最大并发数 |
None |
| --top-p |
采样 top-p (OpenAI 后端) |
None |
| --top-k |
采样 top-k (OpenAI 后端) |
None |
| --temperature |
采样温度 (OpenAI 后端) |
None |
示例
3 bench throughput:吞吐量测试
参数
| 参数 |
说明 |
默认值 |
| --backend |
推理后端 |
"fastdeploy" |
| --dataset-name |
数据集 |
"random" |
| --model |
模型名称 |
必需 |
| --input-len |
输入序列长度 |
None |
| --output-len |
输出序列长度 |
None |
| --prefix-len |
前缀长度 |
0 |
| --n |
每个 prompt 生成序列数 |
1 |
| --num-prompts |
prompt 数量 |
50 |
| --output-json |
保存 JSON 文件路径 |
None |
| --disable-detokenize |
是否禁用 detokenization |
False |
| --lora-path |
LoRA adapter 路径 |
None |
示例
4 bench eval:在线任务效果评估
参数
| 参数 |
说明 |
默认值 |
| --model, -m |
模型名称 |
"hf" |
| --tasks, -t |
任务列表 |
None |
| --model_args, -a |
模型参数 |
"" |
| --num_fewshot, -f |
Few-shot 样本数量 |
None |
| --samples, -E |
样本数量 |
None |
| --batch_size, -b |
批量大小 |
1 |
| --device |
设备 |
None |
| --output_path, -o |
输出路径 |
None |
| --write_out, -w |
是否写出结果 |
False |
示例