Files
FastDeploy/examples/vision/classification/paddleclas/quantize
Jason 3ff562aa77 Bump up to version 0.3.0 (#371)
* Update VERSION_NUMBER

* Update paddle_inference.cmake

* Delete docs directory

* release new docs

* update version number

* add vision result doc

* update version

* fix dead link

* fix vision

* fix dead link

* Update README_EN.md

* Update README_EN.md

* Update README_EN.md

* Update README_EN.md

* Update README_EN.md

* Update README_CN.md

* Update README_EN.md

* Update README_CN.md

* Update README_EN.md

* Update README_CN.md

* Update README_EN.md

* Update README_EN.md

Co-authored-by: leiqing <54695910+leiqing1@users.noreply.github.com>
2022-10-15 22:01:27 +08:00
..
2022-10-15 22:01:27 +08:00
2022-10-15 22:01:27 +08:00

PaddleClas 量化模型部署

FastDeploy已支持部署量化模型,并提供一键模型量化的工具. 用户可以使用一键模型量化工具,自行对模型量化后部署, 也可以直接下载FastDeploy提供的量化模型进行部署.

FastDeploy一键模型量化工具

FastDeploy 提供了一键量化工具, 能够简单地通过输入一个配置文件, 对模型进行量化. 详细教程请见: 一键模型量化工具 注意: 推理量化后的分类模型仍然需要FP32模型文件夹下的inference_cls.yaml文件, 自行量化的模型文件夹内不包含此yaml文件, 用户从FP32模型文件夹下复制此yaml文件到量化后的模型文件夹内即可。

下载量化完成的PaddleClas模型

用户也可以直接下载下表中的量化模型进行部署.

模型 推理后端 部署硬件 FP32推理时延 INT8推理时延 加速比 FP32 Top1 INT8 Top1 量化方式
ResNet50_vd ONNX Runtime CPU 86.87 59 .32 1.46 79.12 78.87 离线量化
ResNet50_vd TensorRT GPU 7.85 5.42 1.45 79.12 79.06 离线量化
MobileNetV1_ssld ONNX Runtime CPU 40.32 16.87 2.39 77.89 75.09 离线量化
MobileNetV1_ssld TensorRT GPU 5.10 3.35 1.52 77.89 76.86 离线量化

上表中的数据, 为模型量化前后在FastDeploy部署的端到端推理性能.

  • 测试图片为ImageNet-2012验证集中的图片.
  • 推理时延为端到端推理(包含前后处理)的平均时延, 单位是毫秒.
  • CPU为Intel(R) Xeon(R) Gold 6271C, GPU为Tesla T4, TensorRT版本8.4.15, 所有测试中固定CPU线程数为1.

详细部署文档