Files
FastDeploy/docs/zh/cli/tokenizer.md
2025-10-28 10:35:11 +08:00

58 lines
1.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# tokenizer
## 说明
Tokenizer 子命令提供文本与 token 序列之间的编码与解码功能,并可查看或导出模型的词表信息。支持文本模型与多模态模型。
## 用法
```
fastdeploy tokenizer --model MODEL (--encode TEXT | --decode TOKENS | --vocab-size | --info)
```
## 参数
|参数|说明|默认值|
|-|-|-|
|--model, -m|模型路径或名称|None|
|--encode, -e|将文本编码为 token 列表|None|
|--decode, -d|将 token 列表解码为文本|None|
|--vocab-size, -vs|查看词表大小|None|
|--info, -i|查看 tokenizer 详细信息特殊符号、ID、最大长度等|None|
|--vocab-export FILE, -ve FILE|导出词表到文件|None|
## 示例
```
# 1. 编码文本为 tokens
# 将输入文本转换为模型可识别的 token 序列
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --encode "Hello, world!"
# 2. 解码 tokens 为文本
# 将 token 序列转换回可读文本
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --decode "[1, 2, 3]"
# 3. 查看词表大小
# 输出模型 tokenizer 的总词表数量
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --vocab-size
# 4. 查看 tokenizer 详细信息
# 包括特殊符号、ID 映射、最大长度等信息
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --info
# 5. 导出词表到文件
# 将 tokenizer 的词表保存到本地文件
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --vocab-export ./vocab.txt
# 6. 支持多模模型
# 对多模态模型进行解码
fastdeploy tokenizer --model baidu/EB-VL-Lite-d --decode "[5300, 96382]"
# 7. 多功能组合使用
# 可以同时进行编码、解码、查看词表、导出词表等操作
fastdeploy tokenizer \
-m baidu/ERNIE-4.5-0.3B-PT \
-e "你好哇" \
-d "[5300, 96382]" \
-i \
-vs \
-ve vocab.json
```