Files
FastDeploy/docs/parameters.md
2025-06-16 00:04:48 +08:00

16 KiB
Raw Blame History

参数说明

服务启动参数

字段名 字段类型 说明 是否必填 默认值
model str 模型路径 llama-7b
tokenizer str tokenizer的地址 模型地址
max_model_len int 模型支持的最长的上下文长度 2048
tensor_parallel_size int tensor 并行度 1
block_size int 每个block的token数量 64
task str 任务类型目前仅支持generatetoken 返回 generate
max_num_seqs int 同时推理的最大条数 8
mm_processor_kwargs dict 多模态输入参数 None
gpu_memory_utilization float 最大显存利用率用于计算block 数目 0.9
num_gpu_blocks_override int 设置分配的gpu的KV Cache的block 数目 None
max_num_batched_tokens int 单次支持的最大prefill的token 数目 None
kv_cache_ratio float 模型输入的长度 / 模型支持的最长的上下文长度的比例 0.75
nnode int 节点数量 1
pod_ips str 各个节点的ip None
use_warmup bool 是否进行预热 False
enable_prefix_caching bool 是否开启前缀缓存 False
enabe_mm bool 是否开启多模态 False

请求参数

字段名 字段类型 说明 是否必填 默认值
request_id str 请求id None
prompt str 输入prompt None
prompt_token_ids list[int] 输入prompt的token id None
prompt_token_ids_len int 输入prompt的token id的长度 None
messages list[list[dict[str, Any]]] 上下文对话信息 None
history list[list[str]] 历史对话信息 None
system str 系统prompt None
sampling_params SamplingParams 推理超参设置(具体参数说明见下表) None
eos_token_ids list[int] 结束token id None
arrival_time float 请求到达时间 None
preprocess_start_time float 预处理开始时间 None
preprocess_end_time float 预处理结束时间 None
multi_modal_inputs dict 多模态输入 (目前不支持) None

推理参数Sampling Parameters

字段名 字段类型 说明 是否必填 默认值
n int 需要返回的生成序列数量当前仅支持1 -
presence_penalty float 话题新鲜度 -
frequency_penalty float 频率惩罚度 -
repetition_penalty float 重复词或短语的惩罚系数 -
temperature float 表示输出的确定性 -
top_p float 仅考虑累积概率超过此值的候选词 1
seed int 控制生成随机性的种子 -
stop list[str] 生成遇到这些字符串时停止(结果不包含它们) -
stop_token_ids list[int] 生成遇到这些token时停止结果包含token除非是特殊token -
bad_words list[int] 禁止生成的token id None
max_tokens int 每个序列生成的最大token数 -
min_tokens int 生成的最少token数遇到停止条件前必须生成 1
logprobs int 返回每个token的前N个概率None表示不返回 (目前暂不支持) None

OpenAI Compatible API 请求参数

字段名 字段类型 说明 是否必填 默认值
model str 模型名称 default
prompt Union[List[int], List[List[int]], str, List[str]] 输入prompt -
best_of int 生成多个序列,返回最好的一个 当前仅支持1 1
echo bool 是否返回输入prompt False
frequency_penalty float 话题新鲜度 -
logprobs int 返回每个token的前N个概率None表示不返回 (目前暂不支持) None
max_tokens int 每个序列生成的最大token数 -
n int 需要返回的生成序列数量当前仅支持1 -
presence_penalty float 话题新鲜度 -
repetition_penalty float 频率惩罚度 -
seed int 控制生成随机性的种子 -
stop Union[str, List[str]] 生成遇到这些字符串时停止(结果不包含它们) -
stream bool 是否流式返回结果 False
stream_options StreamOptions 流式返回的选项包含输入输出token 数目的统计 None
suffix str 生成序列后添加的后缀 (当前不支持) None
temperature float 表示输出的确定性 -
top_p float 仅考虑累积概率超过此值的候选词 1
user str 用户信息(当前不支持) None
stop_token_ids list[int] 生成遇到这些token时停止结果包含token除非是特殊token -

OpenAI Chat API 请求参数

字段名 字段类型 说明 是否必填 默认值
model str 模型名称 default
messages List[Dict[str, Union[str, List[int], List[List[int]]]]] 输入prompt -
best_of int 生成多个序列,返回最好的一个 当前仅支持1 1
echo bool 是否返回输入prompt False
frequency_penalty float 话题新鲜度 -
logprobs int 返回每个token的前N个概率None表示不返回 (目前暂不支持) None
max_tokens int 每个序列生成的最大token数 -
n int 需要返回的生成序列数量当前仅支持1 -
presence_penalty float 话题新鲜度 -
repetition_penalty float 频率惩罚度 -
seed int 控制生成随机性的种子 -
stop Union[str, List[str]] 生成遇到这些字符串时停止(结果不包含它们) -
stream bool 是否流式返回结果 False
stream_options StreamOptions 流式返回的选项包含输入输出token 数目的统计 None
suffix str 生成序列后添加的后缀 (当前不支持) None
temperature float 表示输出的确定性 -
top_p float 仅考虑累积概率超过此值的候选词 1
user str 用户信息(当前不支持) None

输出参数说明

离线推理输出 RequestOutput

字段名 字段类型 说明 是否必填 默认值
request_id str 请求id default
prompt Optional[str] 输入prompt None
prompt_token_ids Optional[list[int]] 输入prompt的token id None
outputs CompletionOutput 推理输出 -
finished bool 是否完成 False
num_cached_tokens Optional[int] 缓存的token数量 0
metrics Optional[RequestMetrics] 请求指标 None
error_code Optional[int] 错误代码 None
error_msg Optional[str] 错误信息 None

离线推理输出 CompletionOutput

字段名 字段类型 说明 是否必填 默认值
index int 输出序列的索引 -
token_ids list[int] 输出的token id -
text Optional[str] 输出文本 None
reasoning_content Optional[str] 输出的思考链 (仅思考模型) None

离线推理输出 RequestMetrics

字段名 字段类型 说明 是否必填 默认值
arrival_time float 请求到达时间 -
inference_start_time Optional[float] 推理开始时间 None
first_token_time Optional[float] 第一个token生成耗时 None
time_in_queue Optional[float] 请求在队列中排队时间 None
preprocess_cost_time Optional[float] 预处理耗时 None
model_forward_time Optional[float] 模型前向推理耗时 None
model_execute_time Optional[float] 模型执行耗时(包含预处理及排队时间) None
request_start_time Optional[float] 请求开始时间 None