FastDeploy/docs/zh/cli/bench.md

# bench：基准测试
## 1 bench latency：离线延迟测试
### 参数
|参数|说明|默认值|
|-|-|-|
|--input-len|输入序列长度（token）|32|
|--output-len|输出序列长度（token）|128|
|--batch-size|批量大小|8|
|--n|每个提示生成序列数|1|
|--use-beam-search|是否使用束搜索|False|
|--num-iters-warmup|预热迭代次数|10|
|--num-iters|实际测试迭代次数|30|
|--profile|是否进行性能分析|False|
|--output-json|保存延迟结果 JSON 文件路径|None|
|--disable-detokenize|是否禁用 detokenization|False|

### 示例
```
#对推理引擎进行延迟测试
fastdeploy bench latency --model baidu/ERNIE-4.5-0.3B-Paddle
```

## 2 bench serve：在线延迟与吞吐量测试
### 参数
|参数|说明|默认值|
|-|-|-|
|--backend|后端类型|"openai-chat"|
|--base-url|服务器或 API 基础 URL|None|
|--host|主机地址|"127.0.0.1"|
|--port|端口|8000|
|--endpoint|API 路径|"/v1/chat/completions"|
|--model|模型名称|必需|
|--dataset-name|数据集名称|"sharegpt"|
|--dataset-path|数据集路径|None|
|--num-prompts|处理提示数|1000|
|--request-rate|每秒请求数|inf|
|--max-concurrency|最大并发数|None|
|--top-p|采样 top-p (OpenAI 后端)|None|
|--top-k|采样 top-k (OpenAI 后端)|None|
|--temperature|采样温度 (OpenAI 后端)|None|

### 示例
```
#对在线服务进行性能测试
fastdeploy bench serve --backend openai-chat \
  --model baidu/ERNIE-4.5-0.3B-Paddle \
  --endpoint /v1/chat/completions \
  --host 0.0.0.0 \
  --port 8891 \
  --dataset-name EBChat \
  --dataset-path /datasets/filtered_sharedgpt_2000_input_1136_output_200.json \
  --percentile-metrics ttft,tpot,itl,e2el,s_ttft,s_itl,s_e2el,s_decode,input_len,s_input_len,output_len \
  --metric-percentiles 80,95,99,99.9,99.95,99.99 \
  --num-prompts 1 \
  --max-concurrency 1 \
  --save-result
```

## 3 bench throughput：吞吐量测试
### 参数
|参数|说明|默认值|
|-|-|-|
|--backend|推理后端|"fastdeploy"|
|--dataset-name|数据集|"random"|
|--model|模型名称|必需|
|--input-len|输入序列长度|None|
|--output-len|输出序列长度|None|
|--prefix-len|前缀长度|0|
|--n|每个 prompt 生成序列数|1|
|--num-prompts|prompt 数量|50|
|--output-json|保存 JSON 文件路径|None|
|--disable-detokenize|是否禁用 detokenization|False|
|--lora-path|LoRA adapter 路径|None|

### 示例
```
#对推理引擎进行吞吐量测试
fastdeploy bench throughput --model baidu/ERNIE-4.5-0.3B-Paddle \
--backend fastdeploy-chat \
--dataset-name EBChat \
--dataset-path /datasets/filtered_sharedgpt_2000_input_1136_output_200.json \
--max-model-len 32768
```

## 4 bench eval：在线任务效果评估
### 参数
|参数|说明|默认值|
|-|-|-|
|--model, -m|模型名称|"hf"|
|--tasks, -t|任务列表|None|
|--model_args, -a|模型参数|""|
|--num_fewshot, -f|Few-shot 样本数量|None|
|--samples, -E|样本数量|None|
|--batch_size, -b|批量大小|1|
|--device|设备|None|
|--output_path, -o|输出路径|None|
|--write_out, -w|是否写出结果|False|

### 示例
```
#对服务进行相关任务的效果评估
fastdeploy bench eval
--model local-completions
--model_args pretrained=./baidu/ERNIE-4.5-0.3B-Paddle,base_url=http://0.0.0.0:8490/v1/completions
--write_out --tasks ceval-valid_accountant
```