mirror of
https://github.com/PaddlePaddle/FastDeploy.git
synced 2025-12-24 13:28:13 +08:00
58 lines
1.8 KiB
Markdown
58 lines
1.8 KiB
Markdown
|
||
# tokenizer
|
||
## 说明
|
||
Tokenizer 子命令提供文本与 token 序列之间的编码与解码功能,并可查看或导出模型的词表信息。支持文本模型与多模态模型。
|
||
|
||
## 用法
|
||
```
|
||
fastdeploy tokenizer --model MODEL (--encode TEXT | --decode TOKENS | --vocab-size | --info)
|
||
```
|
||
|
||
## 参数
|
||
|参数|说明|默认值|
|
||
|-|-|-|
|
||
|--model, -m|模型路径或名称|None|
|
||
|--encode, -e|将文本编码为 token 列表|None|
|
||
|--decode, -d|将 token 列表解码为文本|None|
|
||
|--vocab-size, -vs|查看词表大小|None|
|
||
|--info, -i|查看 tokenizer 详细信息(特殊符号、ID、最大长度等)|None|
|
||
|--vocab-export FILE, -ve FILE|导出词表到文件|None|
|
||
|
||
## 示例
|
||
```
|
||
# 1. 编码文本为 tokens
|
||
# 将输入文本转换为模型可识别的 token 序列
|
||
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --encode "Hello, world!"
|
||
|
||
# 2. 解码 tokens 为文本
|
||
# 将 token 序列转换回可读文本
|
||
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --decode "[1, 2, 3]"
|
||
|
||
# 3. 查看词表大小
|
||
# 输出模型 tokenizer 的总词表数量
|
||
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --vocab-size
|
||
|
||
# 4. 查看 tokenizer 详细信息
|
||
# 包括特殊符号、ID 映射、最大长度等信息
|
||
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --info
|
||
|
||
# 5. 导出词表到文件
|
||
# 将 tokenizer 的词表保存到本地文件
|
||
fastdeploy tokenizer --model baidu/ERNIE-4.5-0.3B-Paddle --vocab-export ./vocab.txt
|
||
|
||
# 6. 支持多模模型
|
||
# 对多模态模型进行解码
|
||
fastdeploy tokenizer --model baidu/EB-VL-Lite-d --decode "[5300, 96382]"
|
||
|
||
# 7. 多功能组合使用
|
||
# 可以同时进行编码、解码、查看词表、导出词表等操作
|
||
fastdeploy tokenizer \
|
||
-m baidu/ERNIE-4.5-0.3B-PT \
|
||
-e "你好哇" \
|
||
-d "[5300, 96382]" \
|
||
-i \
|
||
-vs \
|
||
-ve vocab.json
|
||
|
||
```
|