diff --git a/docs/version3.x/pipeline_usage/OCR.md b/docs/version3.x/pipeline_usage/OCR.md index 4c0390ad64d..29db6c01a64 100644 --- a/docs/version3.x/pipeline_usage/OCR.md +++ b/docs/version3.x/pipeline_usage/OCR.md @@ -723,6 +723,8 @@ paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_im paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 ``` + +
命令行支持更多参数设置,点击展开以查看命令行参数的详细说明 @@ -736,324 +738,341 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 - - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - - + - - + - - + - - + - - + - + - + - + - + + - + - -
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
input待预测数据,必填。如图像文件或者PDF文件的本地路径:/root/data/img.jpg如URL链接,如图像文件或PDF文件的网络URL:示例如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。 +含义:待预测数据,必填。
说明:如图像文件或者PDF文件的本地路径:/root/data/img.jpg
如URL链接,如图像文件或PDF文件的网络URL:示例
如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
str
save_path指定推理结果文件保存的路径。如果不设置,推理结果将不会保存到本地。含义:指定推理结果文件保存的路径。
说明:如果不设置,推理结果将不会保存到本地。
str
doc_orientation_classify_model_name文档方向分类模型的名称。如果不设置,将会使用产线默认模型。含义:文档方向分类模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
doc_orientation_classify_model_dir文档方向分类模型的目录路径。如果不设置,将会下载官方模型。含义:文档方向分类模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
doc_unwarping_model_name文本图像矫正模型的名称。如果不设置,将会使用产线默认模型。含义:文本图像矫正模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
doc_unwarping_model_dir文本图像矫正模型的目录路径。如果不设置,将会下载官方模型。含义:文本图像矫正模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
text_detection_model_name文本检测模型的名称。如果不设置,将会使用产线默认模型。含义:文本检测模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
text_detection_model_dir文本检测模型的目录路径。如果不设置,将会下载官方模型。含义:文本检测模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
textline_orientation_model_name文本行方向模型的名称。如果不设置,将会使用产线默认模型。含义:文本行方向模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
textline_orientation_model_dir文本行方向模型的目录路径。如果不设置,将会下载官方模型。含义:文本行方向模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
textline_orientation_batch_size文本行方向模型的batch size。如果不设置,将默认设置batch size为1含义:文本行方向模型的batch size。
说明:如果不设置,将默认设置batch size为1
int1
text_recognition_model_name文本识别模型的名称。如果不设置,将会使用产线默认模型。含义:文本识别模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
text_recognition_model_dir文本识别模型的目录路径。如果不设置,将会下载官方模型。含义:文本识别模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
text_recognition_batch_size文本识别模型的batch size。如果不设置,将默认设置batch size为1含义:文本识别模型的batch size。
说明:如果不设置,将默认设置batch size为1
int1
use_doc_orientation_classify是否加载并使用文档方向分类模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文档方向分类模块。
说明:如果不设置,将使用产线初始化的该参数值,默认初始化为True
boolTrue
use_doc_unwarping是否加载并使用文本图像矫正模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文本图像矫正模块。
说明:如果不设置,将使用产线初始化的该参数值,默认初始化为True
boolTrue
use_textline_orientation是否加载并使用文本行方向模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文本行方向模块。
说明:如果不设置,将使用产线初始化的该参数值,默认初始化为True
boolTrue
text_det_limit_side_len文本检测的图像边长限制。 -大于 0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 64。 +含义:文本检测的图像边长限制。 +
说明:大于 0 的任意整数。
如果不设置,将使用产线初始化的该参数值,默认初始化为 64
int64
text_det_limit_type文本检测的边长度限制类型。支持 minmaxmin 表示保证图像最短边不小于 det_limit_side_lenmax 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 min。 +含义:文本检测的边长度限制类型。 +
说明:支持 minmaxmin 表示保证图像最短边不小于det_limit_side_lenmax 表示保证图像最长边不大于 limit_side_len
如果不设置,将使用产线初始化的该参数值,默认初始化为 min
strmin
text_det_thresh文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 -大于0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.3)。 +含义:文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +
说明:大于0的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 0.3)。
float0.3
text_det_box_thresh文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 -大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.6)。 +含义:文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +
说明:大于 0 的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 0.6)。
float0.6
text_det_unclip_ratio文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 2.0)。 +含义:文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +
说明:大于 0 的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 2.0)。
float2.0
text_det_input_shape文本检测的输入形状,您可以设置3个值代表C,H,W。含义:文本检测的输入形状。
说明:可以设置3个值代表C,H,W。
int
text_rec_score_thresh文本识别阈值,得分大于该阈值的文本结果会被保留。 -大于0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.0,即不设阈值)。 -含义:文本识别阈值,得分大于该阈值的文本结果会被保留。 +
说明:大于0的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 0.0,即不设阈值)。
float0.0
return_word_box如果不设置,将使用产线初始化的该参数值,默认初始化为False含义:是否返回识别结果的文字框坐标。 +说明:
如果不设置,将使用产线初始化的该参数值,默认初始化为False
boolFalse
text_rec_input_shape文本识别的输入形状。含义:文本识别的输入形状。 tuple
lang使用指定语言的 OCR 模型。 -附录中的表格中列举了全部支持的语言。 +含义:使用指定语言的 OCR 模型。 +
说明:附录中的表格中列举了全部支持的语言。
str
ocr_versionOCR 模型版本。 +含义:OCR 模型版本。 +
说明:
  • PP-OCRv5:使用PP-OCRv5系列模型;
  • PP-OCRv4:使用PP-OCRv4系列模型;
  • PP-OCRv3:使用PP-OCRv3系列模型。
注意不是每个ocr_version都支持所有的lang,请查看附录中的对应关系表。 +
str
device含义:用于推理的设备。
说明:支持指定具体卡号: +
    +
  • CPU:如 cpu 表示使用 CPU 进行推理;
  • +
  • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
  • +
  • NPU:如 npu:0 表示使用第 1 块 NPU 进行推理;
  • +
  • XPU:如 xpu:0 表示使用第 1 块 XPU 进行推理;
  • +
  • MLU:如 mlu:0 表示使用第 1 块 MLU 进行推理;
  • +
  • DCU:如 dcu:0 表示使用第 1 块 DCU 进行推理;
  • +
如果不设置,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。
str
enable_hpi含义:是否启用高性能推理。 +
说明:如果不设置,将使用默认值False
boolFalse
use_tensorrt含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
+对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
+ +
boolFalse
precision含义:计算精度,如 fp32、fp16。
说明:如果不设置,将使用默认值fp32
strfp32
enable_mkldnn含义:是否启用 MKL-DNN 加速推理。
说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
+
boolTrue
mkldnn_cache_capacity +含义:MKL-DNN 缓存容量。
说明:如果不设置,将使用默认值10
int10
cpu_threads含义:在 CPU 上进行推理时使用的线程数。
说明:如果不设置,将使用默认值8
int8
paddlex_config含义:PaddleX产线配置文件路径。str
+以下参数在2.x版本已经废弃,为方便之前版本使用者故列出 + + + + + + + + + + - + - + - - - - - + - + - + - + - + - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
参数参数说明参数类型默认值
det_model_dir已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。说明:已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。 str
det_limit_side_len已废弃,请参考text_det_limit_side_len,且与新的参数不能同时指定。说明:已废弃,请参考text_det_limit_side_len,且与新的参数不能同时指定。 int
det_limit_type已废弃,请参考text_det_limit_type,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_limit_type,且与新的参数不能同时指定。 str
det_db_thresh已废弃,请参考text_det_thresh,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_thresh,且与新的参数不能同时指定。 float
det_db_box_thresh已废弃,请参考text_det_box_thresh,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_box_thresh,且与新的参数不能同时指定。 float
det_db_unclip_ratio已废弃,请参考text_det_unclip_ratio,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_unclip_ratio,且与新的参数不能同时指定。 float
rec_model_dir已废弃,请参考text_recognition_model_dir,且与新的参数不能同时指定。说明:已废弃,请参考text_recognition_model_dir,且与新的参数不能同时指定。 str
rec_batch_num已废弃,请参考text_recognition_batch_size,且与新的参数不能同时指定。说明:已废弃,请参考text_recognition_batch_size,且与新的参数不能同时指定。 int
use_angle_cls已废弃,请参考use_textline_orientation,且与新的参数不能同时指定。说明:已废弃,请参考use_textline_orientation,且与新的参数不能同时指定。 bool
cls_model_dir已废弃,请参考textline_orientation_model_dir,且与新的参数不能同时指定。说明:已废弃,请参考textline_orientation_model_dir,且与新的参数不能同时指定。 str
cls_batch_num已废弃,请参考textline_orientation_batch_size,且与新的参数不能同时指定。说明:已废弃,请参考textline_orientation_batch_size,且与新的参数不能同时指定。 int
device用于推理的设备。支持指定具体卡号: -
    -
  • CPU:如 cpu 表示使用 CPU 进行推理;
  • -
  • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
  • -
  • NPU:如 npu:0 表示使用第 1 块 NPU 进行推理;
  • -
  • XPU:如 xpu:0 表示使用第 1 块 XPU 进行推理;
  • -
  • MLU:如 mlu:0 表示使用第 1 块 MLU 进行推理;
  • -
  • DCU:如 dcu:0 表示使用第 1 块 DCU 进行推理;
  • -
如果不设置,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。 -
str
enable_hpi是否启用高性能推理。boolFalse
use_tensorrt是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
-对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
- -
boolFalse
precision计算精度,如 fp32、fp16。strfp32
enable_mkldnn是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 -boolTrue
mkldnn_cache_capacity -MKL-DNN 缓存容量。 -int10
cpu_threads在 CPU 上进行推理时使用的线程数。int8
paddlex_configPaddleX产线配置文件路径。str
@@ -1116,7 +1135,7 @@ for res in result: res.save_to_img("output") res.save_to_json("output") ``` - + 在上述 Python 脚本中,执行了如下几个步骤:
(1)通过 PaddleOCR() 实例化 OCR 产线对象,具体参数说明如下: @@ -1133,156 +1152,177 @@ for res in result: doc_orientation_classify_model_name -文档方向分类模型的名称。如果设置为None,将会使用产线默认模型。 +含义:文档方向分类模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None doc_orientation_classify_model_dir -文档方向分类模型的目录路径。如果设置为None,将会下载官方模型。 +含义:文档方向分类模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None doc_unwarping_model_name -文本图像矫正模型的名称。如果设置为None,将会使用产线默认模型。 +含义:文本图像矫正模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None doc_unwarping_model_dir -文本图像矫正模型的目录路径。如果设置为None,将会下载官方模型。 +含义:文本图像矫正模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None text_detection_model_name -文本检测模型的名称。如果设置为None,将会使用产线默认模型。 +含义:文本检测模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None text_detection_model_dir -文本检测模型的目录路径。如果设置为None,将会下载官方模型。 +含义:文本检测模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None textline_orientation_model_name -文本行方向模型的名称。如果设置为None,将会使用产线默认模型。 +含义:文本行方向模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None textline_orientation_model_dir -文本行方向模型的目录路径。如果设置为None,将会下载官方模型。 +含义:文本行方向模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None textline_orientation_batch_size -文本行方向模型的batch size。如果设置为None,将默认设置batch size为1。 +含义:文本行方向模型的batch size。 +
说明:如果设置为None,将默认设置batch size为1
int|None None text_recognition_model_name -文本识别模型的名称。如果设置为None,将会使用产线默认模型。 +含义:文本识别模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None text_recognition_model_dir -文本识别模型的目录路径。如果设置为None,将会下载官方模型。 +含义:文本识别模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None text_recognition_batch_size -文本识别模型的batch size。如果设置为None,将默认设置batch size为1。 +含义:文本识别模型的batch size。 +
说明:如果设置为None,将默认设置batch size为1
int|None None use_doc_orientation_classify -是否加载并使用文档方向分类模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 +含义:是否加载并使用文档方向分类模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None use_doc_unwarping -是否加载并使用文本图像矫正模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 +含义:是否加载并使用文本图像矫正模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None use_textline_orientation -是否加载并使用文本行方向模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 +含义:是否加载并使用文本行方向模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None text_det_limit_side_len -文本检测的图像边长限制。 +含义:文本检测的图像边长限制。 +
说明: