# 参数说明 ## 服务启动参数 | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | | :---------------------: | :------: | :-----------------------------------------------: | :------: | :---------: | | model | str | 模型路径 | 是 | llama-7b | | tokenizer | str | tokenizer的地址 | 否 | 模型地址 | | max_model_len | int | 模型支持的最长的上下文长度 | 否 | 2048 | | tensor_parallel_size | int | tensor 并行度 | 否 | 1 | | block_size | int | 每个block的token数量 | 否 | 64 | | task | str | 任务类型,目前仅支持generate:token 返回 | 否 | generate | | max_num_seqs | int | 同时推理的最大条数 | 否 | 8 | | mm_processor_kwargs | dict | 多模态输入参数 | 否 | None | | gpu_memory_utilization | float | 最大显存利用率,用于计算block 数目 | 否 | 0.9 | | num_gpu_blocks_override | int | 设置分配的gpu的KV Cache的block 数目 | 否 | None | | max_num_batched_tokens | int | 单次支持的最大prefill的token 数目 | 否 | None | | kv_cache_ratio | float | 模型输入的长度 / 模型支持的最长的上下文长度的比例 | 否 | 0.75 | | nnode | int | 节点数量 | 否 | 1 | | pod_ips | str | 各个节点的ip | 否 | None | | use_warmup | bool | 是否进行预热 | 否 | False | | enable_prefix_caching | bool | 是否开启前缀缓存 | 否 | False | | enabe_mm | bool | 是否开启多模态 | 否 | False | ## 请求参数 | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | | :---------------------: | :------: | :-----------------------------------------------: | :------: | :---------: | | request_id | str | 请求id | 是 | None | | prompt | str | 输入prompt | 是 | None | | prompt_token_ids | list[int] | 输入prompt的token id | 否 | None | | prompt_token_ids_len | int | 输入prompt的token id的长度 | 否 | None | | messages | list[list[dict[str, Any]]] | 上下文对话信息 | 否 | None | | history | list[list[str]] | 历史对话信息 | 否 | None | | system | str | 系统prompt | 否 | None | | sampling_params | SamplingParams | 推理超参设置(具体参数说明见下表) | 是 | None | | eos_token_ids | list[int] | 结束token id | 否 | None | | arrival_time | float | 请求到达时间 | 是 | None | | preprocess_start_time | float | 预处理开始时间 | 否 | None | | preprocess_end_time | float | 预处理结束时间 | 否 | None | | multi_modal_inputs | dict | 多模态输入 (目前不支持) | 否 | None | ### 推理参数Sampling Parameters | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | |---------------------|-------------------|------------------------------------------------------------|----------|-------------| | `n` | int | 需要返回的生成序列数量(当前仅支持1) | 是 | - | | `presence_penalty` | float | 话题新鲜度 | 否 | - | | `frequency_penalty`| float | 频率惩罚度 | 否 | - | | `repetition_penalty`| float | 重复词或短语的惩罚系数 | 否 | - | | `temperature` | float | 表示输出的确定性 | 否 | - | | `top_p` | float | 仅考虑累积概率超过此值的候选词 | 否 | 1 | | `seed` | int | 控制生成随机性的种子 | 否 | - | | `stop` | list[str] | 生成遇到这些字符串时停止(结果不包含它们) | 否 | - | | `stop_token_ids` | list[int] | 生成遇到这些token时停止(结果包含token,除非是特殊token) | 否 | - | | `bad_words` | list[int] | 禁止生成的token id | 否 | None | | `max_tokens` | int | 每个序列生成的最大token数 | 是 | - | | `min_tokens` | int | 生成的最少token数(遇到停止条件前必须生成) | 否 | 1 | | `logprobs` | int | 返回每个token的前N个概率(None表示不返回) (目前暂不支持) | 否 | `None` | ### OpenAI Compatible API 请求参数 | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | |---------------------|-------------------|------------------------------------------------------------|----------|-------------| | `model` | str | 模型名称 | 否 | default | | `prompt` | Union[List[int], List[List[int]], str, List[str]] | 输入prompt | 是 | - | | `best_of` | int | 生成多个序列,返回最好的一个 (当前仅支持1) | 否 | 1 | | `echo` | bool | 是否返回输入prompt | 否 | False | | `frequency_penalty`| float | 话题新鲜度 | 否 | - | | `logprobs` | int | 返回每个token的前N个概率(None表示不返回) (目前暂不支持) | 否 | `None` | | `max_tokens` | int | 每个序列生成的最大token数 | 是 | - | | `n` | int | 需要返回的生成序列数量(当前仅支持1) | 是 | - | | `presence_penalty` | float | 话题新鲜度 | 否 | - | | `repetition_penalty`| float | 频率惩罚度 | 否 | - | | `seed` | int | 控制生成随机性的种子 | 否 | - | | `stop` | Union[str, List[str]] | 生成遇到这些字符串时停止(结果不包含它们) | 否 | - | | `stream` | bool | 是否流式返回结果 | 否 | False | | `stream_options` | StreamOptions | 流式返回的选项,包含输入输出token 数目的统计 | 否 | None | | `suffix` | str | 生成序列后添加的后缀 (当前不支持) | 否 | None | | `temperature` | float | 表示输出的确定性 | 否 | - | | `top_p` | float | 仅考虑累积概率超过此值的候选词 | 否 | 1 | | `user` | str | 用户信息(当前不支持) | 否 | None | | `stop_token_ids` | list[int] | 生成遇到这些token时停止(结果包含token,除非是特殊token) | 否 | - | ### OpenAI Chat API 请求参数 | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | |---------------------|-------------------|------------------------------------------------------------|----------|-------------| | `model` | str | 模型名称 | 否 | default | | `messages` | List[Dict[str, Union[str, List[int], List[List[int]]]]] | 输入prompt | 是 | - | | `best_of` | int | 生成多个序列,返回最好的一个 (当前仅支持1) | 否 | 1 | | `echo` | bool | 是否返回输入prompt | 否 | False | | `frequency_penalty`| float | 话题新鲜度 | 否 | - | | `logprobs` | int | 返回每个token的前N个概率(None表示不返回) (目前暂不支持) | 否 | `None` | | `max_tokens` | int | 每个序列生成的最大token数 | 是 | - | | `n` | int | 需要返回的生成序列数量(当前仅支持1) | 是 | - | | `presence_penalty` | float | 话题新鲜度 | 否 | - | | `repetition_penalty`| float | 频率惩罚度 | 否 | - | | `seed` | int | 控制生成随机性的种子 | 否 | - | | `stop` | Union[str, List[str]] | 生成遇到这些字符串时停止(结果不包含它们) | 否 | - | | `stream` | bool | 是否流式返回结果 | 否 | False | | `stream_options` | StreamOptions | 流式返回的选项,包含输入输出token 数目的统计 | 否 | None | | `suffix` | str | 生成序列后添加的后缀 (当前不支持) | 否 | None | | `temperature` | float | 表示输出的确定性 | 否 | - | | `top_p` | float | 仅考虑累积概率超过此值的候选词 | 否 | 1 | | `user` | str | 用户信息(当前不支持) | 否 | None | ## 输出参数说明 ### 离线推理输出 RequestOutput | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | |---------------------|-------------------|------------------------------------------------------------|----------|-------------| | `request_id` | str | 请求id | 否 | default | | `prompt` | Optional[str] | 输入prompt | 否 | None | | `prompt_token_ids` | Optional[list[int]] | 输入prompt的token id | 否 | None | | `outputs` | CompletionOutput | 推理输出 | 是 | - | | `finished` | bool | 是否完成 | 是 | False | | `num_cached_tokens`| Optional[int] | 缓存的token数量 | 否 | 0 | | `metrics` | Optional[RequestMetrics] | 请求指标 | 否 | None | | `error_code` | Optional[int] | 错误代码 | 否 | None | | `error_msg` | Optional[str] | 错误信息 | 否 | None | #### 离线推理输出 CompletionOutput | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | |---------------------|-------------------|------------------------------------------------------------|----------|-------------| | `index` | int | 输出序列的索引 | 是 | - | | `token_ids` | list[int] | 输出的token id | 是 | - | | `text` | Optional[str] | 输出文本 | 否 | None | | `reasoning_content`| Optional[str] | 输出的思考链 (仅思考模型) | 否 | None | #### 离线推理输出 RequestMetrics | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | |---------------------|-------------------|------------------------------------------------------------|----------|-------------| | `arrival_time` | float | 请求到达时间 | 是 | - | | `inference_start_time`| Optional[float] | 推理开始时间 | 否 | None | | `first_token_time` | Optional[float] | 第一个token生成耗时 | 否 | None | | `time_in_queue` | Optional[float] | 请求在队列中排队时间 | 否 | None | | `preprocess_cost_time`| Optional[float] | 预处理耗时 | 否 | None | | `model_forward_time`| Optional[float] | 模型前向推理耗时 | 否 | None | | `model_execute_time`| Optional[float] | 模型执行耗时(包含预处理及排队时间) | 否 | None | | `request_start_time`| Optional[float] | 请求开始时间 | 否 | None |