From 7e8000c692113a40a360c834af4be90409c8e826 Mon Sep 17 00:00:00 2001 From: Luxorion-12 <1227813494@qq.com> Date: Mon, 3 Nov 2025 20:29:51 +0800 Subject: [PATCH 1/7] =?UTF-8?q?=E8=A1=A8=E6=A0=BC=E5=8F=82=E6=95=B0?= =?UTF-8?q?=E8=AF=B4=E6=98=8E=E4=BF=AE=E6=94=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/version3.x/pipeline_usage/OCR.md | 299 +++++++++++++++----------- 1 file changed, 170 insertions(+), 129 deletions(-) diff --git a/docs/version3.x/pipeline_usage/OCR.md b/docs/version3.x/pipeline_usage/OCR.md index 4c0390ad64d..77b332c2660 100644 --- a/docs/version3.x/pipeline_usage/OCR.md +++ b/docs/version3.x/pipeline_usage/OCR.md @@ -723,6 +723,8 @@ paddleocr ocr -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_im paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 ``` + +
命令行支持更多参数设置,点击展开以查看命令行参数的详细说明 @@ -736,264 +738,268 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 - - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - - + - - + - - + - - + - - + - + - + - + - + + - + - - +
- + - + - - - - - + - + - + - + - + - - + - @@ -1023,13 +1030,13 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 - + - @@ -1037,20 +1044,19 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 +含义:MKL-DNN 缓存容量。
说明:如果不设置,将使用默认值10
- + - + @@ -1116,7 +1122,7 @@ for res in result: res.save_to_img("output") res.save_to_json("output") ``` - + 在上述 Python 脚本中,执行了如下几个步骤:
(1)通过 PaddleOCR() 实例化 OCR 产线对象,具体参数说明如下: @@ -1133,156 +1139,177 @@ for res in result:
- + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - +
- +
- - +
- - +
- +
- + - - +
- + - + - +
- +
- + - @@ -1351,33 +1382,34 @@ for res in result: - + - - + - + @@ -1398,60 +1430,69 @@ MKL-DNN 缓存容量。 - +
- + - + - + - + - + - + - + - + - +
input待预测数据,必填。如图像文件或者PDF文件的本地路径:/root/data/img.jpg如URL链接,如图像文件或PDF文件的网络URL:示例如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。 +含义:待预测数据,必填。
说明:如图像文件或者PDF文件的本地路径:/root/data/img.jpg
如URL链接,如图像文件或PDF文件的网络URL:示例
如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
str
save_path指定推理结果文件保存的路径。如果不设置,推理结果将不会保存到本地。含义:指定推理结果文件保存的路径。
说明:如果不设置,推理结果将不会保存到本地。
str
doc_orientation_classify_model_name文档方向分类模型的名称。如果不设置,将会使用产线默认模型。含义:文档方向分类模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
doc_orientation_classify_model_dir文档方向分类模型的目录路径。如果不设置,将会下载官方模型。含义:文档方向分类模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
doc_unwarping_model_name文本图像矫正模型的名称。如果不设置,将会使用产线默认模型。含义:文本图像矫正模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
doc_unwarping_model_dir文本图像矫正模型的目录路径。如果不设置,将会下载官方模型。含义:文本图像矫正模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
text_detection_model_name文本检测模型的名称。如果不设置,将会使用产线默认模型。含义:文本检测模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
text_detection_model_dir文本检测模型的目录路径。如果不设置,将会下载官方模型。含义:文本检测模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
textline_orientation_model_name文本行方向模型的名称。如果不设置,将会使用产线默认模型。含义:文本行方向模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
textline_orientation_model_dir文本行方向模型的目录路径。如果不设置,将会下载官方模型。含义:文本行方向模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
textline_orientation_batch_size文本行方向模型的batch size。如果不设置,将默认设置batch size为1含义:文本行方向模型的batch size。
说明:如果不设置,将默认设置batch size为1
int1
text_recognition_model_name文本识别模型的名称。如果不设置,将会使用产线默认模型。含义:文本识别模型的名称。
说明:如果不设置,将会使用产线默认模型。
str
text_recognition_model_dir文本识别模型的目录路径。如果不设置,将会下载官方模型。含义:文本识别模型的目录路径。
说明:如果不设置,将会下载官方模型。
str
text_recognition_batch_size文本识别模型的batch size。如果不设置,将默认设置batch size为1含义:文本识别模型的batch size。
说明:如果不设置,将默认设置batch size为1
int1
use_doc_orientation_classify是否加载并使用文档方向分类模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文档方向分类模块。
说明:如果不设置,将使用产线初始化的该参数值,默认初始化为True
boolTrue
use_doc_unwarping是否加载并使用文本图像矫正模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文本图像矫正模块。
说明:如果不设置,将使用产线初始化的该参数值,默认初始化为True
boolTrue
use_textline_orientation是否加载并使用文本行方向模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文本行方向模块。
说明:如果不设置,将使用产线初始化的该参数值,默认初始化为True
boolTrue
text_det_limit_side_len文本检测的图像边长限制。 -大于 0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 64。 +含义:文本检测的图像边长限制。 +
说明:大于 0 的任意整数。
如果不设置,将使用产线初始化的该参数值,默认初始化为 64
int64
text_det_limit_type文本检测的边长度限制类型。支持 minmaxmin 表示保证图像最短边不小于 det_limit_side_lenmax 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 min。 +含义:文本检测的边长度限制类型。 +
说明:支持 minmaxmin 表示保证图像最短边不小于det_limit_side_lenmax 表示保证图像最长边不大于 limit_side_len
如果不设置,将使用产线初始化的该参数值,默认初始化为 min
strmin
text_det_thresh文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 -大于0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.3)。 +含义:文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +
说明:大于0的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 0.3)。
float0.3
text_det_box_thresh文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 -大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.6)。 +含义:文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +
说明:大于 0 的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 0.6)。
float0.6
text_det_unclip_ratio文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 2.0)。 +含义:文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +
说明:大于 0 的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 2.0)。
float2.0
text_det_input_shape文本检测的输入形状,您可以设置3个值代表C,H,W。含义:文本检测的输入形状。
说明:可以设置3个值代表C,H,W。
int
text_rec_score_thresh文本识别阈值,得分大于该阈值的文本结果会被保留。 -大于0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.0,即不设阈值)。 -含义:文本识别阈值,得分大于该阈值的文本结果会被保留。 +
说明:大于0的任意浮点数。
如果不设置,将使用产线初始化的该参数值(默认为 0.0,即不设阈值)。
float0.0
return_word_box如果不设置,将使用产线初始化的该参数值,默认初始化为False含义:是否返回识别结果的文字框坐标。 +说明:
如果不设置,将使用产线初始化的该参数值,默认初始化为False
boolFalse
text_rec_input_shape文本识别的输入形状。含义:文本识别的输入形状。 tuple
lang使用指定语言的 OCR 模型。 -附录中的表格中列举了全部支持的语言。 +含义:使用指定语言的 OCR 模型。 +
说明:附录中的表格中列举了全部支持的语言。
str
ocr_versionOCR 模型版本。 +含义:OCR 模型版本。 +
说明:
  • PP-OCRv5:使用PP-OCRv5系列模型;
  • PP-OCRv4:使用PP-OCRv4系列模型;
  • PP-OCRv3:使用PP-OCRv3系列模型。
注意不是每个ocr_version都支持所有的lang,请查看附录中的对应关系表。 -
str
det_model_dir已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。说明:已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。 str
det_limit_side_len已废弃,请参考text_det_limit_side_len,且与新的参数不能同时指定。说明:已废弃,请参考text_det_limit_side_len,且与新的参数不能同时指定。 int
det_limit_type已废弃,请参考text_det_limit_type,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_limit_type,且与新的参数不能同时指定。 str
det_db_thresh已废弃,请参考text_det_thresh,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_thresh,且与新的参数不能同时指定。 float
det_db_box_thresh已废弃,请参考text_det_box_thresh,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_box_thresh,且与新的参数不能同时指定。 float
det_db_unclip_ratio已废弃,请参考text_det_unclip_ratio,且与新的参数不能同时指定。 +说明:已废弃,请参考text_det_unclip_ratio,且与新的参数不能同时指定。 float
rec_model_dir已废弃,请参考text_recognition_model_dir,且与新的参数不能同时指定。说明:已废弃,请参考text_recognition_model_dir,且与新的参数不能同时指定。 str
rec_batch_num已废弃,请参考text_recognition_batch_size,且与新的参数不能同时指定。说明:已废弃,请参考text_recognition_batch_size,且与新的参数不能同时指定。 int
use_angle_cls已废弃,请参考use_textline_orientation,且与新的参数不能同时指定。说明:已废弃,请参考use_textline_orientation,且与新的参数不能同时指定。 bool
cls_model_dir已废弃,请参考textline_orientation_model_dir,且与新的参数不能同时指定。说明:已废弃,请参考textline_orientation_model_dir,且与新的参数不能同时指定。 str
cls_batch_num已废弃,请参考textline_orientation_batch_size,且与新的参数不能同时指定。说明:已废弃,请参考textline_orientation_batch_size,且与新的参数不能同时指定。 int
device用于推理的设备。支持指定具体卡号: +含义:用于推理的设备。
说明:支持指定具体卡号:
  • CPU:如 cpu 表示使用 CPU 进行推理;
  • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
  • @@ -1001,20 +1007,21 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4
  • XPU:如 xpu:0 表示使用第 1 块 XPU 进行推理;
  • MLU:如 mlu:0 表示使用第 1 块 MLU 进行推理;
  • DCU:如 dcu:0 表示使用第 1 块 DCU 进行推理;
  • -
如果不设置,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。 +如果不设置,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。
str
enable_hpi是否启用高性能推理。含义:是否启用高性能推理。 +
说明:如果不设置,将使用默认值False
bool False
use_tensorrt是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
+
含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
precision计算精度,如 fp32、fp16。含义:计算精度,如 fp32、fp16。
说明:如果不设置,将使用默认值fp32
str fp32
enable_mkldnn是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 +含义:是否启用 MKL-DNN 加速推理。
说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
bool True
mkldnn_cache_capacity -MKL-DNN 缓存容量。 - int 10
cpu_threads在 CPU 上进行推理时使用的线程数。含义:在 CPU 上进行推理时使用的线程数。
说明:如果不设置,将使用默认值8
int 8
paddlex_configPaddleX产线配置文件路径。含义:PaddleX产线配置文件路径。 str
doc_orientation_classify_model_name文档方向分类模型的名称。如果设置为None,将会使用产线默认模型。含义:文档方向分类模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None
doc_orientation_classify_model_dir文档方向分类模型的目录路径。如果设置为None,将会下载官方模型。含义:文档方向分类模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None
doc_unwarping_model_name文本图像矫正模型的名称。如果设置为None,将会使用产线默认模型。含义:文本图像矫正模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None
doc_unwarping_model_dir文本图像矫正模型的目录路径。如果设置为None,将会下载官方模型。含义:文本图像矫正模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None
text_detection_model_name文本检测模型的名称。如果设置为None,将会使用产线默认模型。含义:文本检测模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None
text_detection_model_dir文本检测模型的目录路径。如果设置为None,将会下载官方模型。含义:文本检测模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None
textline_orientation_model_name文本行方向模型的名称。如果设置为None,将会使用产线默认模型。含义:文本行方向模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None
textline_orientation_model_dir文本行方向模型的目录路径。如果设置为None,将会下载官方模型。含义:文本行方向模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None
textline_orientation_batch_size文本行方向模型的batch size。如果设置为None,将默认设置batch size为1含义:文本行方向模型的batch size。 +
说明:如果设置为None,将默认设置batch size为1
int|None None
text_recognition_model_name文本识别模型的名称。如果设置为None,将会使用产线默认模型。含义:文本识别模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None
text_recognition_model_dir文本识别模型的目录路径。如果设置为None,将会下载官方模型。含义:文本识别模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None
text_recognition_batch_size文本识别模型的batch size。如果设置为None,将默认设置batch size为1含义:文本识别模型的batch size。 +
说明:如果设置为None,将默认设置batch size为1
int|None None
use_doc_orientation_classify是否加载并使用文档方向分类模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文档方向分类模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None
use_doc_unwarping是否加载并使用文本图像矫正模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文本图像矫正模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None
use_textline_orientation是否加载并使用文本行方向模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True含义:是否加载并使用文本行方向模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None
text_det_limit_side_len文本检测的图像边长限制。 +含义:文本检测的图像边长限制。 +
说明:
  • int:大于 0 的任意整数;
  • None:如果设置为None,将使用产线初始化的该参数值,默认初始化为 64
  • -
int|None None
text_det_limit_type文本检测的边长度限制类型。 +含义:文本检测的边长度限制类型。 +
说明:
  • str:支持 minmaxmin 表示保证图像最短边不小于 det_limit_side_lenmax 表示保证图像最长边不大于 limit_side_len
  • None:如果设置为None,将使用产线初始化的该参数值,默认初始化为 min
  • -
str|None None
text_det_thresh文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +含义:文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +
说明:
  • float:大于0的任意浮点数;
  • None:如果设置为None,将使用产线初始化的该参数值(默认为0.3)。
float|None None
text_det_box_thresh文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +含义:文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +
说明:
  • float:大于0的任意浮点数;
  • None:如果设置为None,将使用产线初始化的该参数值(默认为0.6)。
float|None None
text_det_unclip_ratio文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +含义:文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +
说明:
  • float:大于0的任意浮点数;
  • None:如果设置为None,将使用产线初始化的该参数值(默认为2.0)。 -
float|None None
text_det_input_shape文本检测的输入形状。含义:文本检测的输入形状。 tuple|None None
text_rec_score_thresh文本识别阈值,得分大于该阈值的文本结果会被保留。 +含义:文本识别阈值,得分大于该阈值的文本结果会被保留。 +
说明:
  • float:大于0的任意浮点数;
  • None:如果设置为None,将使用产线初始化的该参数值(默认为0.0,即不设阈值)。 @@ -1290,37 +1317,40 @@ for res in result:
float|None None
text_rec_input_shape文本识别的输入形状。含义:文本识别的输入形状。 tuple|None None
lang使用指定语言的 OCR 模型。 -附录中的表格中列举了全部支持的语言。 -含义:使用指定语言的 OCR 模型。 +
说明:附录中的表格中列举了全部支持的语言。 +
str|None None
ocr_versionOCR 模型版本。 +含义:OCR 模型版本。 +
说明:
  • PP-OCRv5:使用PP-OCRv5系列模型;
  • PP-OCRv4:使用PP-OCRv4系列模型;
  • PP-OCRv3:使用PP-OCRv3系列模型。
注意不是每个ocr_version都支持所有的lang,请查看附录中的对应关系表。 -
str|None None
device用于推理的设备。支持指定具体卡号: +含义:用于推理的设备。 +
说明: +支持指定具体卡号:
  • CPU:如 cpu 表示使用 CPU 进行推理;
  • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
  • @@ -1330,19 +1360,20 @@ for res in result:
  • DCU:如 dcu:0 表示使用第 1 块 DCU 进行推理;
  • None:如果设置为None,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。 -
str|None None
enable_hpi是否启用高性能推理。含义:是否启用高性能推理。 bool False
use_tensorrt是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
+
含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。 +说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
precision计算精度,如 fp32、fp16。含义:计算精度,如 fp32、fp16。 str "fp32"
enable_mkldnn是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 +含义:是否启用 MKL-DNN 加速推理。 +
说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
bool True
mkldnn_cache_capacity -MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 int 10
cpu_threads在 CPU 上进行推理时使用的线程数。含义:在 CPU 上进行推理时使用的线程数。 int 8
paddlex_configPaddleX产线配置文件路径。含义:PaddleX产线配置文件路径。 str|None None
input待预测数据,支持多种输入类型,必填。 +含义:待预测数据 +
说明:支持多种输入类型,必填。
  • Python Var:如 numpy.ndarray 表示的图像数据;
  • -
  • str:如图像文件或者PDF文件的本地路径:/root/data/img.jpg如URL链接,如图像文件或PDF文件的网络URL:示例如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径);
  • +
  • str:如图像文件或者PDF文件的本地路径:/root/data/img.jpg; +
    如URL链接,如图像文件或PDF文件的网络URL:示例
    +如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径);
  • list:列表元素需为上述类型数据,如[numpy.ndarray, numpy.ndarray]["/root/data/img1.jpg", "/root/data/img2.jpg"]["/root/data1", "/root/data2"]。
-
Python Var|str|list
use_doc_orientation_classify是否在推理时使用文档方向分类模块。含义:是否在推理时使用文档方向分类模块。 bool|None None
use_doc_unwarping是否在推理时使用文本图像矫正模块。含义:是否在推理时使用文本图像矫正模块。 bool|None None
use_textline_orientation是否在推理时使用文本行方向分类模块。含义:是否在推理时使用文本行方向分类模块。 bool|None None
text_det_limit_side_len参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
int|None None
text_det_limit_type参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
str|None None
text_det_thresh参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None
text_det_box_thresh参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None
text_det_unclip_ratio参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None
text_rec_score_thresh参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None
@@ -1522,17 +1563,17 @@ MKL-DNN 缓存容量。
float|None None formula_recognition_model_name -公式识别模型的名称。如果设置为None,将会使用产线默认模型。 +含义:公式识别模型的名称。 +
说明:如果设置为None,将会使用产线默认模型。
str|None None formula_recognition_model_dir -公式识别模型的目录路径。如果设置为None,将会下载官方模型。 +含义:公式识别模型的目录路径。 +
说明:如果设置为None,将会下载官方模型。
str|None None formula_recognition_batch_size -公式识别模型的batch size。如果设置为None,将默认设置batch size为1。 +含义:公式识别模型的batch size。 +
说明:如果设置为None,将默认设置batch size为1
int|None None use_doc_orientation_classify -是否加载并使用文档方向分类模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为False。 +含义:是否加载并使用文档方向分类模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为False
bool|None None use_doc_unwarping -是否加载并使用文本图像矫正模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为False。 +含义:是否加载并使用文本图像矫正模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为False
bool|None None use_textline_orientation -是否加载并使用文本行方向分类模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为False。 +含义:是否加载并使用文本行方向分类模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为False
bool|None None use_seal_recognition -是否加载并使用印章文本识别子产线。如果设置为None,将使用产线初始化的该参数值,默认初始化为False。 +含义:是否加载并使用印章文本识别子产线。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为False
bool|None None use_table_recognition -是否加载并使用表格识别子产线。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 +含义:是否加载并使用表格识别子产线。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None use_formula_recognition -是否加载并使用公式识别子产线。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 +含义:是否加载并使用公式识别子产线。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None use_chart_recognition -是否加载并使用图表解析模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为False。 +含义:是否加载并使用图表解析模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为False
bool|None None use_region_detection -是否加载并使用文档区域检测模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 +含义:是否加载并使用文档区域检测模块。 +
说明:如果设置为None,将使用产线初始化的该参数值,默认初始化为True
bool|None None device -用于推理的设备。支持指定具体卡号: +含义:用于推理的设备。 +
说明:支持指定具体卡号: str|None @@ -2143,13 +2228,14 @@ for item in markdown_images: enable_hpi -是否启用高性能推理。 +含义:是否启用高性能推理。 bool False use_tensorrt -是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
+含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。 +
说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
@@ -2158,13 +2244,14 @@ for item in markdown_images: precision -计算精度,如 fp32、fp16。 +含义:计算精度,如 fp32、fp16。 str -"fp32" +fp32 enable_mkldnn -是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 +含义:是否启用 MKL-DNN 加速推理。 +
说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 bool True @@ -2172,20 +2259,20 @@ for item in markdown_images: mkldnn_cache_capacity -MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 int 10 cpu_threads -在 CPU 上进行推理时使用的线程数。 +含义:在 CPU 上进行推理时使用的线程数。 int 8 paddlex_config -PaddleX产线配置文件路径。 +含义:PaddleX产线配置文件路径。 str|None None @@ -2207,193 +2294,219 @@ MKL-DNN 缓存容量。 input -待预测数据,支持多种输入类型,必填。 +含义:待预测数据,支持多种输入类型,必填。 +
说明: +
Python Var|str|list use_doc_orientation_classify -是否在推理时使用文档方向分类模块。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用文档方向分类模块。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_doc_unwarping -是否在推理时使用文本图像矫正模块。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用文本图像矫正模块。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_textline_orientation -是否在推理时使用文本行方向分类模块。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用文本行方向分类模块。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_seal_recognition -是否在推理时使用印章文本识别子产线。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用印章文本识别子产线。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_table_recognition -是否在推理时使用表格识别子产线。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用表格识别子产线。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_formula_recognition -是否在推理时使用公式识别子产线。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用公式识别子产线。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_chart_recognition -是否在推理时使用图表解析模块。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用图表解析模块。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None use_region_detection -是否在推理时使用文档区域检测模块。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:是否在推理时使用文档区域检测模块。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None layout_threshold -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|dict|None None layout_nms -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
bool|None None layout_unclip_ratio -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|Tuple[float,float]|dict|None None layout_merge_bboxes_mode -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
str|dict|None None text_det_limit_side_len -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
int|None None text_det_limit_type -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
str|None None text_det_thresh -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None text_det_box_thresh -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None text_det_unclip_ratio -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None text_rec_score_thresh -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None seal_det_limit_side_len -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
int|None None seal_det_limit_type -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
str|None None seal_det_thresh -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None seal_det_box_thresh -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None seal_det_unclip_ratio -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None seal_rec_score_thresh -参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 +含义:参数含义与实例化参数基本相同。 +
说明:设置为None表示使用实例化参数,否则该参数优先级更高。
float|None None use_wired_table_cells_trans_to_html -是否启用有线表单元格检测结果直转HTML,启用则直接基于有线表单元格检测结果的几何关系构建HTML。 +含义:是否启用有线表单元格检测结果直转HTML,启用则直接基于有线表单元格检测结果的几何关系构建HTML。 bool False use_wireless_table_cells_trans_to_html -是否启用无线表单元格检测结果直转HTML,启用则直接基于无线表单元格检测结果的几何关系构建HTML。 +含义:是否启用无线表单元格检测结果直转HTML,启用则直接基于无线表单元格检测结果的几何关系构建HTML。 bool False use_table_orientation_classify -是否启用表格使用表格方向分类,启用时当图像中的表格存在90/180/270度旋转时,能够将方向校正并正确完成表格识别。 +含义:是否启用表格使用表格方向分类,启用时当图像中的表格存在90/180/270度旋转时,能够将方向校正并正确完成表格识别。 bool True use_ocr_results_with_table_cells -是否启用单元格切分OCR,启用时会基于单元格预测结果对OCR检测结果进行切分和重识别,避免出现文字缺失情况。 +含义:是否启用单元格切分OCR,启用时会基于单元格预测结果对OCR检测结果进行切分和重识别,避免出现文字缺失情况。 bool True use_e2e_wired_table_rec_model -是否启用有线表端到端表格识别模式,启用则不使用单元格检测模型,只使用表格结构识别模型。 +含义:是否启用有线表端到端表格识别模式,启用则不使用单元格检测模型,只使用表格结构识别模型。 bool False use_e2e_wireless_table_rec_model -是否启用无线表端到端表格识别模式,启用则不使用单元格检测模型,只使用表格结构识别模型。 +含义:是否启用无线表端到端表格识别模式,启用则不使用单元格检测模型,只使用表格结构识别模型。 bool True @@ -2497,19 +2610,19 @@ MKL-DNN 缓存容量。 - + +
  • 调用save_to_json() 方法会将上述内容保存到指定的 save_path 中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_res.json,如果指定为文件,则直接保存到该文件中。由于 json 文件不支持保存numpy数组,因此会将其中的 numpy.array 类型转换为列表形式。
  • 调用save_to_img() 方法会将可视化结果保存到指定的 save_path 中,如果指定为目录,则会将版面区域检测可视化图像、全局OCR可视化图像、版面阅读顺序可视化图像等内容保存,如果指定为文件,则直接保存到该文件中。(产线通常包含较多结果图片,不建议直接指定为具体的文件路径,否则多张图会被覆盖,仅保留最后一张图)
  • From 16cd3d27151195b791d09ddba12dc18ff7fcdd9b Mon Sep 17 00:00:00 2001 From: Luxorion-12 <1227813494@qq.com> Date: Tue, 11 Nov 2025 10:57:02 +0800 Subject: [PATCH 3/7] =?UTF-8?q?PaddleOCR-VL=E6=96=87=E6=A1=A3=E4=BF=AE?= =?UTF-8?q?=E6=94=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../version3.x/pipeline_usage/PaddleOCR-VL.md | 387 +++++++++++------- 1 file changed, 243 insertions(+), 144 deletions(-) diff --git a/docs/version3.x/pipeline_usage/PaddleOCR-VL.md b/docs/version3.x/pipeline_usage/PaddleOCR-VL.md index a3e095eb913..634058e0ee4 100644 --- a/docs/version3.x/pipeline_usage/PaddleOCR-VL.md +++ b/docs/version3.x/pipeline_usage/PaddleOCR-VL.md @@ -177,7 +177,7 @@ paddleocr doc_parser -i ./paddleocr_vl_demo.png --use_doc_unwarping True # 通过 --use_layout_detection 指定是否使用版面区域检测排序模块 paddleocr doc_parser -i ./paddleocr_vl_demo.png --use_layout_detection False ``` - +
    命令行支持更多参数设置,点击展开以查看命令行参数的详细说明 @@ -190,47 +190,57 @@ paddleocr doc_parser -i ./paddleocr_vl_demo.png --use_layout_detection False - - + - + - + - - + - - - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - - + - - + - - + - + @@ -495,7 +525,7 @@ for item in markdown_images: - 在示例代码中,`use_doc_orientation_classify`、`use_doc_unwarping` 参数默认均设置为 `False`,分别表示关闭文档方向分类、文本图像矫正功能,如果需要使用这些功能,可以手动设置为 `True`。 在上述 Python 脚本中,执行了如下几个步骤: - +
    (1)实例化对象,具体参数说明如下:
    input待预测数据,必填。 -如图像文件或者PDF文件的本地路径:/root/data/img.jpg如URL链接,如图像文件或PDF文件的网络URL:示例如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。 +含义:待预测数据,必填。
    +说明:如图像文件或者PDF文件的本地路径:/root/data/img.jpg
    +如URL链接,如图像文件或PDF文件的网络URL:示例
    +如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
    str
    save_path指定推理结果文件保存的路径。如果不设置,推理结果将不会保存到本地。含义:指定推理结果文件保存的路径。
    +说明:如果不设置,推理结果将不会保存到本地。
    str
    layout_detection_model_name版面区域检测排序模型名称。如果不设置,将会使用默认模型。含义:版面区域检测排序模型名称。
    +说明:如果不设置,将会使用默认模型。
    str
    layout_detection_model_dir版面区域检测排序模型的目录路径。如果不设置,将会下载官方模型。含义:版面区域检测排序模型的目录路径。
    +说明:如果不设置,将会下载官方模型。
    str
    layout_threshold版面模型得分阈值。0-1 之间的任意浮点数。如果不设置,将使用初始化的默认值。 +含义:版面模型得分阈值。
    +说明:0-1 之间的任意浮点数。
    +如果不设置,将使用初始化的默认值。
    float
    layout_nms版面检测是否使用后处理NMS。如果不设置,将使用初始化的默认值。含义:版面检测是否使用后处理NMS。
    +说明:如果不设置,将使用初始化的默认值。
    bool
    layout_unclip_ratio版面区域检测模型检测框的扩张系数。 -任意大于 0 浮点数。如果不设置,将使用初始化的默认值 +含义:版面区域检测模型检测框的扩张系数。
    +说明:任意大于 0 浮点数。
    +如果不设置,将使用初始化的默认值
    float
    layout_merge_bboxes_mode版面检测中模型输出的检测框的合并处理模式。 +含义:版面检测中模型输出的检测框的合并处理模式。
    +说明:
    • large,设置为large时,表示在模型输出的检测框中,对于互相重叠包含的检测框,只保留外部最大的框,删除重叠的内部框;
    • small,设置为small,表示在模型输出的检测框中,对于互相重叠包含的检测框,只保留内部被包含的小框,删除重叠的外部框;
    • @@ -241,132 +251,148 @@ paddleocr doc_parser -i ./paddleocr_vl_demo.png --use_layout_detection False
    vl_rec_model_name多模态识别模型名称。如果不设置,将会使用默认模型。含义:多模态识别模型名称。
    +说明:如果不设置,将会使用默认模型。
    str
    vl_rec_model_dir多模态识别模型目录路径。如果不设置,将会下载官方模型。含义:多模态识别模型目录路径。
    +说明:如果不设置,将会下载官方模型。
    str
    vl_rec_backend多模态识别模型使用的推理后端。含义:多模态识别模型使用的推理后端。 str
    vl_rec_server_url如果多模态识别模型使用推理服务,该参数用于指定服务器URL。含义:如果多模态识别模型使用推理服务,该参数用于指定服务器URL。 str
    vl_rec_max_concurrency如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。含义:如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。 str
    doc_orientation_classify_model_name文档方向分类模型的名称。如果不设置,将使用初始化的默认值。含义:文档方向分类模型的名称。
    +说明:如果不设置,将使用初始化的默认值。
    str
    doc_orientation_classify_model_dir文档方向分类模型的目录路径。如果不设置,将会下载官方模型。含义:文档方向分类模型的目录路径。
    +说明:如果不设置,将会下载官方模型。
    str
    doc_unwarping_model_name文本图像矫正模型的名称。如果不设置,将使用初始化的默认值。含义:文本图像矫正模型的名称。
    +说明:如果不设置,将使用初始化的默认值。
    str
    doc_unwarping_model_dir文本图像矫正模型的目录路径。如果不设置,将会下载官方模型。含义:文本图像矫正模型的目录路径。
    +说明:如果不设置,将会下载官方模型。
    str
    use_doc_orientation_classify是否加载并使用文档方向分类模块。如果不设置,将使用初始化的默认值,默认初始化为False含义:是否加载并使用文档方向分类模块。
    +说明:如果不设置,将使用初始化的默认值,默认初始化为False
    bool
    use_doc_unwarping是否加载并使用文本图像矫正模块。如果不设置,将使用初始化的默认值,默认初始化为False含义:是否加载并使用文本图像矫正模块。
    +说明:如果不设置,将使用初始化的默认值,默认初始化为False
    bool
    use_layout_detection是否加载并使用版面区域检测排序模块。如果不设置,将使用初始化的默认值,默认初始化为True含义:是否加载并使用版面区域检测排序模块。
    +说明:如果不设置,将使用初始化的默认值,默认初始化为True
    bool
    use_chart_recognition是否使用图表解析功能。如果不设置,将使用初始化的默认值,默认初始化为False含义:是否使用图表解析功能。
    +说明:如果不设置,将使用初始化的默认值,默认初始化为False
    bool
    format_block_content控制是否将 block_content 中的内容格式化为Markdown格式。如果不设置,将使用初始化的默认值,默认初始化为False含义:控制是否将 block_content 中的内容格式化为Markdown格式。
    +说明:如果不设置,将使用初始化的默认值,默认初始化为False
    bool
    use_queues用于控制是否启用内部队列。当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。含义:用于控制是否启用内部队列。
    +说明: +当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。
    bool
    prompt_labelVL模型的 prompt 类型设置,当且仅当 use_layout_detection=False 时生效。含义:VL模型的 prompt 类型设置。
    +说明:当且仅当 use_layout_detection=False 时生效。
    str
    repetition_penaltyVL模型采样使用的重复惩罚参数。含义:VL模型采样使用的重复惩罚参数。 float
    temperatureVL模型采样使用的温度参数。含义:VL模型采样使用的温度参数。 float
    top_pVL模型采样使用的top-p参数。含义:VL模型采样使用的top-p参数。 float
    min_pixelsVL模型预处理图像时允许的最小像素数。含义:VL模型预处理图像时允许的最小像素数。 int
    max_pixelsVL模型预处理图像时允许的最大像素数。含义:VL模型预处理图像时允许的最大像素数。 int
    device用于推理的设备。支持指定具体卡号: +含义:用于推理的设备。
    +说明: +支持指定具体卡号:
    • CPU:如 cpu 表示使用 CPU 进行推理;
    • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
    • @@ -381,42 +407,46 @@ paddleocr doc_parser -i ./paddleocr_vl_demo.png --use_layout_detection False
    enable_hpi是否启用高性能推理。含义:是否启用高性能推理。 bool
    use_tensorrt是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
    +
    含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
    +说明: +如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
    对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
    bool
    precision计算精度,如 fp32、fp16。含义:计算精度,如 fp32、fp16。 str
    enable_mkldnn是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 +含义:是否启用 MKL-DNN 加速推理。
    +说明: +如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
    bool
    mkldnn_cache_capacity -MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 int
    cpu_threads在 CPU 上进行推理时使用的线程数。含义:在 CPU 上进行推理时使用的线程数。 int
    paddlex_configPaddleX产线配置文件路径。含义:PaddleX产线配置文件路径。 str
    @@ -510,19 +540,22 @@ for item in markdown_images: - + - + - - + - - - + - + - + - + - + - + - + - + - + - + - + - + - + - + - - + - @@ -679,13 +729,15 @@ for item in markdown_images: - + - @@ -693,20 +745,20 @@ for item in markdown_images: - + - + @@ -728,7 +780,8 @@ MKL-DNN 缓存容量。 - - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + - + @@ -936,62 +1011,85 @@ MKL-DNN 缓存容量。
    layout_detection_model_name版面区域检测排序模型名称。如果设置为None,将会使用默认模型。含义:版面区域检测排序模型名称。
    +说明:如果设置为None,将会使用默认模型。
    str|None None
    layout_detection_model_dir版面区域检测排序模型的目录路径。如果设置为None,将会下载官方模型。含义:版面区域检测排序模型的目录路径。
    +说明:如果设置为None,将会下载官方模型。
    str|None None
    layout_threshold版面模型得分阈值。 +含义:版面模型得分阈值。
    +说明:
    • float0-1 之间的任意浮点数;
    • dict{0:0.1} key为类别ID,value为该类别的阈值;
    • @@ -534,13 +567,15 @@ for item in markdown_images:
    layout_nms版面检测是否使用后处理NMS。如果设置为None,将使用初始化的默认值。含义:版面检测是否使用后处理NMS。
    +说明:如果设置为None,将使用初始化的默认值。
    bool|None None
    layout_unclip_ratio版面区域检测模型检测框的扩张系数。 +含义:版面区域检测模型检测框的扩张系数。
    +说明:
    • float:任意大于 0 浮点数;
    • Tuple[float,float]:在横纵两个方向各自的扩张系数;
    • @@ -553,7 +588,8 @@ for item in markdown_images:
    layout_merge_bboxes_mode版面区域检测的重叠框过滤方式。 +含义:版面区域检测的重叠框过滤方式。
    +说明:
    • strlargesmallunion,分别表示重叠框过滤时选择保留大框,小框还是同时保留;
    • dict: dict的key为int类型,代表cls_id,value为str类型,如{0: "large", 2: "small"},表示对第0类别检测框使用large模式,对第2类别检测框使用small模式;
    • @@ -565,91 +601,103 @@ for item in markdown_images:
    vl_rec_model_name多模态识别模型名称。如果设置为None,将会使用默认模型。含义:多模态识别模型名称。
    +说明:如果设置为None,将会使用默认模型。
    str|None None
    vl_rec_model_dir多模态识别模型目录路径。如果设置为None,将会下载官方模型。含义:多模态识别模型目录路径。
    +说明:如果设置为None,将会下载官方模型。
    str|None None
    vl_rec_backend多模态识别模型使用的推理后端。含义:多模态识别模型使用的推理后端。 int|None None
    vl_rec_server_url如果多模态识别模型使用推理服务,该参数用于指定服务器URL。含义:如果多模态识别模型使用推理服务,该参数用于指定服务器URL。 str|None None
    vl_rec_max_concurrency如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。含义:如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。 str|None None
    doc_orientation_classify_model_name文档方向分类模型的名称。如果设置为None,将会使用默认模型。含义:文档方向分类模型的名称。
    +说明:如果设置为None,将会使用默认模型。
    str|None None
    doc_orientation_classify_model_dir文档方向分类模型的目录路径。如果设置为None,将会下载官方模型。含义:文档方向分类模型的目录路径。
    +说明:如果设置为None,将会下载官方模型。
    str|None None
    doc_unwarping_model_name文本图像矫正模型的名称。如果设置为None,将会使用默认模型。含义:文本图像矫正模型的名称。
    +说明:如果设置为None,将会使用默认模型。
    str|None None
    doc_unwarping_model_dir文本图像矫正模型的目录路径。如果设置为None,将会下载官方模型。含义:文本图像矫正模型的目录路径。
    +说明:如果设置为None,将会下载官方模型。
    str|None None
    use_doc_orientation_classify是否加载并使用文档方向分类模块。如果设置为None,将使用初始化的默认值,默认初始化为False含义:是否加载并使用文档方向分类模块。
    +说明:如果设置为None,将使用初始化的默认值,默认初始化为False
    bool|None None
    use_doc_unwarping是否加载并使用文本图像矫正模块。如果设置为None,将使用初始化的默认值,默认初始化为False含义:是否加载并使用文本图像矫正模块。
    +说明:如果设置为None,将使用初始化的默认值,默认初始化为False
    bool|None None
    use_layout_detection是否加载并使用版面区域检测排序模块。如果设置为None,将使用初始化的默认值,默认初始化为True含义:是否加载并使用版面区域检测排序模块。
    +说明:如果设置为None,将使用初始化的默认值,默认初始化为True
    bool|None None
    use_chart_recognition是否加载并使用图表解析模块。如果设置为None,将使用初始化的默认值,默认初始化为False含义:是否加载并使用图表解析模块。
    +说明:如果设置为None,将使用初始化的默认值,默认初始化为False
    bool|None None
    format_block_content控制是否将 block_content 中的内容格式化为Markdown格式。如果设置为None,将使用初始化的默认值,默认初始化为False含义:控制是否将 block_content 中的内容格式化为Markdown格式。
    +说明:如果设置为None,将使用初始化的默认值,默认初始化为False
    bool|None None
    device用于推理的设备。支持指定具体卡号: +含义:用于推理的设备。
    +说明:支持指定具体卡号:
    • CPU:如 cpu 表示使用 CPU 进行推理;
    • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
    • @@ -665,13 +713,15 @@ for item in markdown_images:
    enable_hpi是否启用高性能推理。含义:是否启用高性能推理。 bool False
    use_tensorrt是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
    +
    含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
    +说明: +如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
    对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
    bool
    precision计算精度,如 fp32、fp16。含义:计算精度,如 fp32、fp16。 str "fp32"
    enable_mkldnn是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 +含义:是否启用 MKL-DNN 加速推理。
    +说明: +如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
    bool True
    mkldnn_cache_capacity -MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 int 10
    cpu_threads在 CPU 上进行推理时使用的线程数。含义:在 CPU 上进行推理时使用的线程数。 int 8
    paddlex_configPaddleX产线配置文件路径。含义:PaddleX产线配置文件路径。 str|None None
    input待预测数据,支持多种输入类型,必填。 +含义:待预测数据,支持多种输入类型,必填。
    +说明:
    • Python Var:如 numpy.ndarray 表示的图像数据
    • str:如图像文件或者PDF文件的本地路径:/root/data/img.jpg如URL链接,如图像文件或PDF文件的网络URL:示例如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)
    • @@ -740,97 +793,119 @@ MKL-DNN 缓存容量。
    use_doc_orientation_classify是否在推理时使用文档方向分类模块。设置为None表示使用实例化参数,否则该参数优先级更高。含义:是否在推理时使用文档方向分类模块。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    bool|None None
    use_doc_unwarping是否在推理时使用文本图像矫正模块。设置为None表示使用实例化参数,否则该参数优先级更高。含义:是否在推理时使用文本图像矫正模块。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    bool|None None
    use_layout_detection是否在推理时使用版面区域检测排序模块。设置为None表示使用实例化参数,否则该参数优先级更高。含义:是否在推理时使用版面区域检测排序模块。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    bool|None None
    use_chart_recognition是否在推理时使用图表解析模块。设置为None表示使用实例化参数,否则该参数优先级更高。含义:是否在推理时使用图表解析模块。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    bool|None None
    layout_threshold参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    float|dict|None None
    layout_nms参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    bool|None None
    layout_unclip_ratio参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    float|Tuple[float,float]|dict|None None
    layout_merge_bboxes_mode参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    str|dict|None None
    use_queues用于控制是否启用内部队列。当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。含义:用于控制是否启用内部队列。
    +说明: +当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。
    bool|None None
    prompt_labelVL模型的 prompt 类型设置,当且仅当 use_layout_detection=False 时生效。含义:VL模型的 prompt 类型设置。
    +说明: +当且仅当 use_layout_detection=False 时生效。
    str|None None
    format_block_content参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。含义:参数含义与实例化参数基本相同。
    +说明: +设置为None表示使用实例化参数,否则该参数优先级更高。
    bool|None None
    repetition_penaltyVL模型采样使用的重复惩罚参数。含义:VL模型采样使用的重复惩罚参数。 float|None None
    temperatureVL模型采样使用的温度参数。含义:VL模型采样使用的温度参数。 float|None None
    top_pVL模型采样使用的top-p参数。含义:VL模型采样使用的top-p参数。 float|None None
    min_pixelsVL模型预处理图像时允许的最小像素数。含义:VL模型预处理图像时允许的最小像素数。 int|None None
    max_pixelsVL模型预处理图像时允许的最大像素数。含义:VL模型预处理图像时允许的最大像素数。 int|None None
    + + 此外,也支持通过属性获取带结果的可视化图像和预测结果,具体如下: @@ -1023,9 +1121,10 @@ MKL-DNN 缓存容量。
    -- `json` 属性获取的预测结果为dict类型的数据,相关内容与调用 `save_to_json()` 方法保存的内容一致。 -- `img` 属性返回的预测结果是一个dict类型的数据。其中,键分别为 `layout_det_res` 和 `layout_order_res`,对应的值是 `Image.Image` 对象:分别用于显示版面区域检测和版面阅读顺序结果的可视化图像。如果没有使用可选模块,则dict中只包含 `layout_det_res`。 -- `markdown` 属性返回的预测结果是一个dict类型的数据。其中,键分别为 `markdown_texts` 和`markdown_images`,对应的值分别是 markdown 文本,在 Markdown 中显示的图像(`Image.Image` 对象)。 +
    From 9db109eca4797354484b906075e371695516bdc6 Mon Sep 17 00:00:00 2001 From: Luxorion-12 <1227813494@qq.com> Date: Thu, 13 Nov 2025 23:42:12 +0800 Subject: [PATCH 4/7] Enhance OCR.md with parameter explanations Added detailed descriptions for various parameters related to device selection, inference settings, and performance optimizations in the OCR documentation. --- docs/version3.x/pipeline_usage/OCR.md | 139 ++++++++++++++------------ 1 file changed, 76 insertions(+), 63 deletions(-) diff --git a/docs/version3.x/pipeline_usage/OCR.md b/docs/version3.x/pipeline_usage/OCR.md index 77b332c2660..29db6c01a64 100644 --- a/docs/version3.x/pipeline_usage/OCR.md +++ b/docs/version3.x/pipeline_usage/OCR.md @@ -928,6 +928,82 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 + +device +含义:用于推理的设备。
    说明:支持指定具体卡号: +如果不设置,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。
    + +str + + + +enable_hpi +含义:是否启用高性能推理。 +
    说明:如果不设置,将使用默认值False
    +bool +False + + +use_tensorrt +含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
    说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
    +对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
    + + +bool +False + + +precision +含义:计算精度,如 fp32、fp16。
    说明:如果不设置,将使用默认值fp32
    +str +fp32 + + +enable_mkldnn +含义:是否启用 MKL-DNN 加速推理。
    说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
    + +bool +True + + +mkldnn_cache_capacity + +含义:MKL-DNN 缓存容量。
    说明:如果不设置,将使用默认值10
    +int +10 + + +cpu_threads +含义:在 CPU 上进行推理时使用的线程数。
    说明:如果不设置,将使用默认值8
    +int +8 + + +paddlex_config +含义:PaddleX产线配置文件路径。 +str + + + + +以下参数在2.x版本已经废弃,为方便之前版本使用者故列出 + + + + + + + + + + @@ -997,69 +1073,6 @@ paddleocr ocr -i ./general_ocr_002.png --ocr_version PP-OCRv4 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
    参数参数说明参数类型默认值
    det_model_dir 说明:已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。 strint
    device含义:用于推理的设备。
    说明:支持指定具体卡号: -
      -
    • CPU:如 cpu 表示使用 CPU 进行推理;
    • -
    • GPU:如 gpu:0 表示使用第 1 块 GPU 进行推理;
    • -
    • NPU:如 npu:0 表示使用第 1 块 NPU 进行推理;
    • -
    • XPU:如 xpu:0 表示使用第 1 块 XPU 进行推理;
    • -
    • MLU:如 mlu:0 表示使用第 1 块 MLU 进行推理;
    • -
    • DCU:如 dcu:0 表示使用第 1 块 DCU 进行推理;
    • -
    如果不设置,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。
    -
    str
    enable_hpi含义:是否启用高性能推理。 -
    说明:如果不设置,将使用默认值False
    boolFalse
    use_tensorrt含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
    说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。
    -对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。
    - -
    boolFalse
    precision含义:计算精度,如 fp32、fp16。
    说明:如果不设置,将使用默认值fp32
    strfp32
    enable_mkldnn含义:是否启用 MKL-DNN 加速推理。
    说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。
    -
    boolTrue
    mkldnn_cache_capacity -含义:MKL-DNN 缓存容量。
    说明:如果不设置,将使用默认值10
    int10
    cpu_threads含义:在 CPU 上进行推理时使用的线程数。
    说明:如果不设置,将使用默认值8
    int8
    paddlex_config含义:PaddleX产线配置文件路径。str
    From 0003377ad367fdf5803bf9f2597b63967563ccd9 Mon Sep 17 00:00:00 2001 From: Luxorion-12 <1227813494@qq.com> Date: Fri, 21 Nov 2025 12:25:12 +0800 Subject: [PATCH 5/7] Update PP-ChatOCRv4.md --- docs/version3.x/pipeline_usage/PP-ChatOCRv4.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md index 7c134ce7e01..f2396c63498 100644 --- a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md +++ b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md @@ -2250,7 +2250,7 @@ for res in visual_predict_res: From fd048ebe3f9f3e681d4f919b8955b1e1c0751fa2 Mon Sep 17 00:00:00 2001 From: Luxorion-12 <1227813494@qq.com> Date: Wed, 3 Dec 2025 14:38:35 +0800 Subject: [PATCH 6/7] Update PaddleOCR-VL documentation for save_to_json() Clarify the behavior of save_to_json() method regarding output paths and numpy array conversion. --- docs/version3.x/pipeline_usage/PaddleOCR-VL.md | 1 - 1 file changed, 1 deletion(-) diff --git a/docs/version3.x/pipeline_usage/PaddleOCR-VL.md b/docs/version3.x/pipeline_usage/PaddleOCR-VL.md index 634058e0ee4..9ff63b8b6ec 100644 --- a/docs/version3.x/pipeline_usage/PaddleOCR-VL.md +++ b/docs/version3.x/pipeline_usage/PaddleOCR-VL.md @@ -1050,7 +1050,6 @@ for item in markdown_images:
  • 调用save_to_json() 方法会将上述内容保存到指定的save_path中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_res.json,如果指定为文件,则直接保存到该文件中。由于json文件不支持保存numpy数组,因此会将其中的numpy.array类型转换为列表形式。json中的字段内容如下:
  • -
    1. input_path: (str) 待预测图像的输入路径
    2. page_index: (Union[int, None]) 如果输入是PDF文件,则表示当前是PDF的第几页,否则为 None
    3. From fedad39ec33b7ab36d9431329b94a61fb899323a Mon Sep 17 00:00:00 2001 From: Luxorion-12 <1227813494@qq.com> Date: Wed, 3 Dec 2025 14:40:40 +0800 Subject: [PATCH 7/7] Fix default value for layout_nms in documentation Updated default initialization value for layout_nms parameter to True. --- docs/version3.x/pipeline_usage/PP-ChatOCRv4.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md index f2396c63498..f60a230f34c 100644 --- a/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md +++ b/docs/version3.x/pipeline_usage/PP-ChatOCRv4.md @@ -1090,9 +1090,9 @@ paddleocr pp_chatocrv4_doc -i vehicle_certificate-1.png -k 驾驶室准乘人数 layout_nms 含义:版面检测是否使用后处理NMS。
      -说明:如果不设置,将使用产线初始化的该参数值,默认初始化为c。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为Truebool -0.5 + layout_unclip_ratio