input |
-待预测数据,必填。如图像文件或者PDF文件的本地路径:/root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
+ | 含义:待预测数据,必填。 说明:如图像文件或者PDF文件的本地路径: /root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径: /root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
|
str |
||
save_path |
-指定推理结果文件保存的路径。如果不设置,推理结果将不会保存到本地。 | +含义:指定推理结果文件保存的路径。 说明:如果不设置,推理结果将不会保存到本地。 |
str |
||
doc_orientation_classify_model_name |
-文档方向分类模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文档方向分类模型的名称。 说明:如果不设置,将会使用产线默认模型。 |
str |
||
doc_orientation_classify_model_dir |
-文档方向分类模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文档方向分类模型的目录路径。 说明:如果不设置,将会下载官方模型。 |
str |
||
doc_unwarping_model_name |
-文本图像矫正模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本图像矫正模型的名称。 说明:如果不设置,将会使用产线默认模型。 |
str |
||
doc_unwarping_model_dir |
-文本图像矫正模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本图像矫正模型的目录路径。 说明:如果不设置,将会下载官方模型。 |
str |
||
text_detection_model_name |
-文本检测模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本检测模型的名称。 说明:如果不设置,将会使用产线默认模型。 |
str |
||
text_detection_model_dir |
-文本检测模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本检测模型的目录路径。 说明:如果不设置,将会下载官方模型。 |
str |
||
textline_orientation_model_name |
-文本行方向模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本行方向模型的名称。 说明:如果不设置,将会使用产线默认模型。 |
str |
||
textline_orientation_model_dir |
-文本行方向模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本行方向模型的目录路径。 说明:如果不设置,将会下载官方模型。 |
str |
||
textline_orientation_batch_size |
-文本行方向模型的batch size。如果不设置,将默认设置batch size为1。 |
+含义:文本行方向模型的batch size。 说明:如果不设置,将默认设置batch size为 1。 |
int |
-+ | 1 |
text_recognition_model_name |
-文本识别模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本识别模型的名称。 说明:如果不设置,将会使用产线默认模型。 |
str |
||
text_recognition_model_dir |
-文本识别模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本识别模型的目录路径。 说明:如果不设置,将会下载官方模型。 |
str |
||
text_recognition_batch_size |
-文本识别模型的batch size。如果不设置,将默认设置batch size为1。 |
+含义:文本识别模型的batch size。 说明:如果不设置,将默认设置batch size为 1。 |
int |
-+ | 1 |
use_doc_orientation_classify |
-是否加载并使用文档方向分类模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文档方向分类模块。 说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
use_doc_unwarping |
-是否加载并使用文本图像矫正模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文本图像矫正模块。 说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
use_textline_orientation |
-是否加载并使用文本行方向模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文本行方向模块。 说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
text_det_limit_side_len |
-文本检测的图像边长限制。
-大于 0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 64。
+ | 含义:文本检测的图像边长限制。
+ 说明:大于 0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 64。
|
int |
-+ | 64 |
text_det_limit_type |
-文本检测的边长度限制类型。支持 min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 min。
+ | 含义:文本检测的边长度限制类型。
+ 说明:支持 min 和 max,min 表示保证图像最短边不小于det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 min。
|
str |
-+ | min |
text_det_thresh |
-文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。
-大于0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.3)。
+ | 含义:文本检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。
+ 说明:大于 0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.3)。
|
float |
-+ | 0.3 |
text_det_box_thresh |
-文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。
-大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.6)。
+ | 含义:文本检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。
+ 说明:大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.6)。
|
float |
-+ | 0.6 |
text_det_unclip_ratio |
-文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 2.0)。
+ | 含义:文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。
+ 说明:大于 0 的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 2.0)。
|
float |
-+ | 2.0 |
text_det_input_shape |
-文本检测的输入形状,您可以设置3个值代表C,H,W。 | +含义:文本检测的输入形状。 说明:可以设置3个值代表C,H,W。 |
int |
||
text_rec_score_thresh |
-文本识别阈值,得分大于该阈值的文本结果会被保留。
-大于0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.0,即不设阈值)。
- |
+含义:文本识别阈值,得分大于该阈值的文本结果会被保留。
+ 说明:大于 0的任意浮点数。如果不设置,将使用产线初始化的该参数值(默认为 0.0,即不设阈值)。
| float |
-+ | 0.0 |
return_word_box |
-如果不设置,将使用产线初始化的该参数值,默认初始化为False。 |
+含义:是否返回识别结果的文字框坐标。
+说明: 如果不设置,将使用产线初始化的该参数值,默认初始化为 False。 |
bool |
+False |
|
text_rec_input_shape |
-文本识别的输入形状。 | +含义:文本识别的输入形状。 | tuple |
||
lang |
-使用指定语言的 OCR 模型。 -附录中的表格中列举了全部支持的语言。 + | 含义:使用指定语言的 OCR 模型。
+ 说明:附录中的表格中列举了全部支持的语言。 |
str |
||
ocr_version |
-OCR 模型版本。 + | 含义:OCR 模型版本。
+ 说明:
ocr_version都支持所有的lang,请查看附录中的对应关系表。
+ |
+str |
++ | |
device |
+含义:用于推理的设备。 说明:支持指定具体卡号: +
|
str |
|||
enable_hpi |
+含义:是否启用高性能推理。
+ 说明:如果不设置,将使用默认值 False。 |
+bool |
+False |
+||
use_tensorrt |
+含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。 说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 +对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。 + + |
+bool |
+False |
+||
precision |
+含义:计算精度,如 fp32、fp16。 说明:如果不设置,将使用默认值 fp32。 |
+str |
+fp32 |
+||
enable_mkldnn |
+含义:是否启用 MKL-DNN 加速推理。 说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 + |
+bool |
+True |
+||
mkldnn_cache_capacity |
+
+含义:MKL-DNN 缓存容量。 说明:如果不设置,将使用默认值 10。 |
+int |
+10 |
+||
cpu_threads |
+含义:在 CPU 上进行推理时使用的线程数。 说明:如果不设置,将使用默认值 8。 |
+int |
+8 |
+||
paddlex_config |
+含义:PaddleX产线配置文件路径。 | +str |
++ |
| 参数 | +参数说明 | +参数类型 | +默认值 | +det_model_dir |
-已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。 |
+说明:已废弃,请参考text_detection_model_dir,且与新的参数不能同时指定。 |
str |
|---|---|---|---|---|
det_limit_side_len |
-已废弃,请参考text_det_limit_side_len,且与新的参数不能同时指定。 |
+说明:已废弃,请参考text_det_limit_side_len,且与新的参数不能同时指定。 |
int |
|
det_limit_type |
-已废弃,请参考text_det_limit_type,且与新的参数不能同时指定。
+ | 说明:已废弃,请参考text_det_limit_type,且与新的参数不能同时指定。
|
str |
|
det_db_thresh |
-已废弃,请参考text_det_thresh,且与新的参数不能同时指定。
+ | 说明:已废弃,请参考text_det_thresh,且与新的参数不能同时指定。
|
float |
|
det_db_box_thresh |
-已废弃,请参考text_det_box_thresh,且与新的参数不能同时指定。
+ | 说明:已废弃,请参考text_det_box_thresh,且与新的参数不能同时指定。
|
float |
|
det_db_unclip_ratio |
-已废弃,请参考text_det_unclip_ratio,且与新的参数不能同时指定。
+ | 说明:已废弃,请参考text_det_unclip_ratio,且与新的参数不能同时指定。
|
float |
|
rec_model_dir |
-已废弃,请参考text_recognition_model_dir,且与新的参数不能同时指定。 |
+说明:已废弃,请参考text_recognition_model_dir,且与新的参数不能同时指定。 |
str |
|
rec_batch_num |
-已废弃,请参考text_recognition_batch_size,且与新的参数不能同时指定。 |
+说明:已废弃,请参考text_recognition_batch_size,且与新的参数不能同时指定。 |
int |
|
use_angle_cls |
-已废弃,请参考use_textline_orientation,且与新的参数不能同时指定。 |
+说明:已废弃,请参考use_textline_orientation,且与新的参数不能同时指定。 |
bool |
|
cls_model_dir |
-已废弃,请参考textline_orientation_model_dir,且与新的参数不能同时指定。 |
+说明:已废弃,请参考textline_orientation_model_dir,且与新的参数不能同时指定。 |
str |
|
cls_batch_num |
-已废弃,请参考textline_orientation_batch_size,且与新的参数不能同时指定。 |
+说明:已废弃,请参考textline_orientation_batch_size,且与新的参数不能同时指定。 |
int |
|
device |
-用于推理的设备。支持指定具体卡号:
-
|
-str |
-- | |
enable_hpi |
-是否启用高性能推理。 | -bool |
-False |
-|
use_tensorrt |
-是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 -对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。 - - |
-bool |
-False |
-|
precision |
-计算精度,如 fp32、fp16。 | -str |
-fp32 |
-|
enable_mkldnn |
-是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 - | -bool |
-True |
-|
mkldnn_cache_capacity |
--MKL-DNN 缓存容量。 - | -int |
-10 |
-|
cpu_threads |
-在 CPU 上进行推理时使用的线程数。 | -int |
-8 |
-|
paddlex_config |
-PaddleX产线配置文件路径。 | -str |
-- |
PaddleOCR() 实例化 OCR 产线对象,具体参数说明如下:doc_orientation_classify_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonedoc_orientation_classify_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonedoc_unwarping_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonedoc_unwarping_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetext_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetext_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetextline_orientation_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetextline_orientation_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetextline_orientation_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNonetext_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetext_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetext_recognition_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNoneuse_doc_orientation_classifyNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNoneuse_doc_unwarpingNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNoneuse_textline_orientationNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNonetext_det_limit_side_len0 的任意整数;None,将使用产线初始化的该参数值,默认初始化为 64。int|NoneNonetext_det_limit_typemin 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len;None,将使用产线初始化的该参数值,默认初始化为 min。str|NoneNonetext_det_thresh0的任意浮点数;
None,将使用产线初始化的该参数值(默认为0.3)。float|NoneNonetext_det_box_thresh0的任意浮点数;
None,将使用产线初始化的该参数值(默认为0.6)。
float|NoneNonetext_det_unclip_ratio0的任意浮点数;
None,将使用产线初始化的该参数值(默认为2.0)。
-float|NoneNonetext_det_input_shapetuple|NoneNonetext_rec_score_thresh0的任意浮点数;
None,将使用产线初始化的该参数值(默认为0.0,即不设阈值)。
@@ -1290,37 +1330,40 @@ for res in result:
float|NoneNonetext_rec_input_shapetuple|NoneNonelangstr|NoneNoneocr_versionocr_version都支持所有的lang,请查看附录中的对应关系表。
-str|NoneNonedevicecpu 表示使用 CPU 进行推理;gpu:0 表示使用第 1 块 GPU 进行推理;dcu:0 表示使用第 1 块 DCU 进行推理;None,将默认使用产线初始化的该参数值,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。
-str|NoneNoneenable_hpiboolFalseuse_tensorrtprecisionstr"fp32"enable_mkldnnboolTruemkldnn_cache_capacityint10cpu_threadsint8paddlex_configstr|NoneNoneinputnumpy.ndarray 表示的图像数据;/root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径);/root/data/img.jpg;
+/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径);[numpy.ndarray, numpy.ndarray],["/root/data/img1.jpg", "/root/data/img2.jpg"],["/root/data1", "/root/data2"]。Python Var|str|listuse_doc_orientation_classifybool|NoneNoneuse_doc_unwarpingbool|NoneNoneuse_textline_orientationbool|NoneNonetext_det_limit_side_lenNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。int|NoneNonetext_det_limit_typeNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。str|NoneNonetext_det_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNonetext_det_box_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNonetext_det_unclip_ratioNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNonetext_rec_score_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNoneprint() 方法会将结果打印到终端,打印到终端的内容解释如下:
- input_path: (str) 待预测图像的输入路径page_index: (Union[int, None]) 如果输入是PDF文件,则表示当前是PDF的第几页,否则为 Nonemodel_settings: (Dict[str, bool]) 配置产线所需的模型参数
- use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线use_textline_orientation: (bool) 控制是否启用文本行方向分类模块doc_preprocessor_res: (Dict[str, Union[str, Dict[str, bool], int]]) 文档预处理子产线的输出结果。仅当use_doc_preprocessor=True时存在
- input_path: (Union[str, None]) 图像预处理子产线接受的图像路径,当输入为numpy.ndarray时,保存为Nonemodel_settings: (Dict) 预处理子产线的模型配置参数
angle: (int) 文档方向分类的预测结果。启用时取值为[0,1,2,3],分别对应[0°,90°,180°,270°];未启用时为-1dt_polys: (List[numpy.ndarray]) 文本检测的多边形框列表。每个检测框由4个顶点坐标构成的numpy数组表示,数组shape为(4, 2),数据类型为int16dt_scores: (List[float]) 文本检测框的置信度列表rec_scores: (List[float]) 文本识别的置信度列表,已按text_rec_score_thresh过滤rec_polys: (List[numpy.ndarray]) 经过置信度过滤的文本检测框列表,格式同dt_polysrec_boxes: (numpy.ndarray) 检测框的矩形边界框数组,shape为(n, 4),dtype为int16。每一行表示一个矩形框的[x_min, y_min, x_max, y_max]坐标,其中(x_min, y_min)为左上角坐标,(x_max, y_max)为右下角坐标save_to_json() 方法会将上述内容保存到指定的save_path中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_res.json,如果指定为文件,则直接保存到该文件中。由于json文件不支持保存numpy数组,因此会将其中的numpy.array类型转换为列表形式。save_to_img() 方法会将可视化结果保存到指定的save_path中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_ocr_res_img.{your_img_extension},如果指定为文件,则直接保存到该文件中。(产线通常包含较多结果图片,不建议直接指定为具体的文件路径,否则多张图会被覆盖,仅保留最后一张图)input |
-待预测数据,必填。如图像文件或者PDF文件的本地路径:/root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
+ | 含义:待预测数据,必填。 +说明:如图像文件或者PDF文件的本地路径: /root/data/img.jpg;+如URL链接,如图像文件或PDF文件的网络URL:示例; +如本地目录,该目录下需包含待预测图像,如本地路径: /root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
|
str |
||
keys |
-用于信息提取的键。 | +含义:用于信息提取的键。 | str |
||
save_path |
-指定推理结果文件保存的路径。如果不设置,推理结果将不会保存到本地。 | +含义:指定推理结果文件保存的路径。 +说明:如果不设置,推理结果将不会保存到本地。 |
str |
||
invoke_mllm |
-是否加载并使用多模态大模型。如果不设置,将使用产线初始化的该参数值,默认初始化为False。 |
+含义:是否加载并使用多模态大模型。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 False。 |
bool |
-+ | False |
layout_detection_model_name |
-用于版面区域检测的模型名称。如果不设置,将会使用产线默认模型。 | +含义:用于版面区域检测的模型名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
layout_detection_model_dir |
-版面区域检测模型的目录路径。如果不设置,将会下载官方模型。 | +含义:版面区域检测模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
doc_orientation_classify_model_name |
-文档方向分类模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文档方向分类模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
doc_orientation_classify_model_dir |
-文档方向分类模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文档方向分类模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
doc_unwarping_model_name |
-文本图像矫正模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本图像矫正模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
doc_unwarping_model_dir |
-文本图像矫正模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本图像矫正模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
text_detection_model_name |
-文本检测模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本检测模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
text_detection_model_dir |
-文本检测模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本检测模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
text_recognition_model_name |
-文本识别模型的名称。如果不设置,将会使用产线默认模型。 | +含义:文本识别模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
text_recognition_model_dir |
-文本识别模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本识别模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
text_recognition_batch_size |
-文本识别模型的batch size。如果不设置,将默认设置batch size为1。 |
+含义:文本识别模型的batch size。 +说明:如果不设置,将默认设置batch size为 1。 |
int |
-+ | 1 |
table_structure_recognition_model_name |
-表格结构识别模型的名称。如果不设置,将会使用产线默认模型。 | +含义:表格结构识别模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
table_structure_recognition_model_dir |
-表格结构识别模型的目录路径。如果不设置,将会下载官方模型。 | +含义:表格结构识别模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
seal_text_detection_model_name |
-印章文本检测模型的名称。如果不设置,将会使用产线默认模型。 | +含义:印章文本检测模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
seal_text_detection_model_dir |
-印章文本检测模型的目录路径。如果不设置,将会下载官方模型。 | +含义:印章文本检测模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
seal_text_recognition_model_name |
-印章文本识别模型的名称。如果不设置,将会使用产线默认模型。 | +含义:印章文本识别模型的名称。 +说明:如果不设置,将会使用产线默认模型。 |
str |
||
seal_text_recognition_model_dir |
-印章文本识别模型的目录路径。如果不设置,将会下载官方模型。 | +含义:印章文本识别模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
||
seal_text_recognition_batch_size |
-印章文本识别模型的batch size。如果不设置,将默认设置batch size为1。 |
+含义:印章文本识别模型的batch size。 +说明:如果不设置,将默认设置batch size为 1。 |
int |
-+ | 1 |
use_doc_orientation_classify |
-是否加载并使用文档方向分类模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文档方向分类模块。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
use_doc_unwarping |
-是否加载并使用文本图像矫正模块。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文本图像矫正模块。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
use_textline_orientation |
-是否加载并使用文本行方向分类模块。如果不设置,初始化为True。 |
+含义:是否加载并使用文本行方向分类模块。 +说明:如果不设置,初始化为 True。 |
bool |
-+ | True |
use_seal_recognition |
-是否加载并使用印章文本识别子产线。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用印章文本识别子产线。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
use_table_recognition |
-是否加载并使用表格识别子产线。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用表格识别子产线。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
-+ | True |
layout_threshold |
-版面模型得分阈值。
-0-1 之间的任意浮点数。如果不设置,将使用产线初始化的该参数值,默认初始化为 0.5。
+ | 含义:版面模型得分阈值。 +说明: 0-1 之间的任意浮点数。+如果不设置,将使用产线初始化的该参数值,默认初始化为 0.5。
|
float |
-+ | 0.5 |
layout_nms |
-版面检测是否使用后处理NMS。如果不设置,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:版面检测是否使用后处理NMS。 +说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 True。 |
bool |
||
layout_unclip_ratio |
-版面区域检测模型检测框的扩张系数。任意大于 0 浮点数。如果不设置,将使用产线初始化的该参数值,默认初始化为 1.0。
+ | 含义:版面区域检测模型检测框的扩张系数。 +说明:任意大于 0 浮点数。+如果不设置,将使用产线初始化的该参数值,默认初始化为 1.0。
|
float |
-+ | 1.0 |
layout_merge_bboxes_mode |
-版面检测中模型输出的检测框的合并处理模式。 + | 含义:版面检测中模型输出的检测框的合并处理模式。 +说明:
large。
|
str |
-+ | large |
text_det_limit_side_len |
-文本检测的图像边长限制。大于 0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 960。
+ | 含义:文本检测的图像边长限制。大于 0 的任意整数。+说明:如果不设置,将使用产线初始化的该参数值,默认初始化为 960。
|
int |
-+ | 960 |
text_det_limit_type |
-文本检测的边长度限制类型。支持 min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len
+ | 含义:文本检测的边长度限制类型。
+支持 min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len
如果不设置,将使用产线初始化的该参数值,默认初始化为 max。
|
str |
-+ | max |
text_det_thresh |
-检测像素阈值。输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。大于 0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.3。
+ | 含义:检测像素阈值。输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +说明:大于 0 的任意浮点数。+如果不设置,将默认使用产线初始化的该参数值 0.3。
|
float |
-+ | 0.3 |
text_det_box_thresh |
-检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。大于 0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.6。
+ | 含义:检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +说明:大于 0 的任意浮点数。+如果不设置,将默认使用产线初始化的该参数值 0.6。
|
float |
-+ | 0.6 |
text_det_unclip_ratio |
-文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。大于 0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 2.0。
+ | 含义:文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +说明:大于 0 的任意浮点数。+如果不设置,将默认使用产线初始化的该参数值 2.0。
|
float |
-+ | 2.0 |
text_rec_score_thresh |
-文本识别阈值,得分大于该阈值的文本结果会被保留。大于 0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.0。即不设阈值。
+ | 含义:文本识别阈值,得分大于该阈值的文本结果会被保留。 +说明:大于 0 的任意浮点数。+如果不设置,将默认使用产线初始化的该参数值 0.0。即不设阈值。
|
float |
-+ | 0.0 |
seal_det_limit_side_len |
-印章文本检测的图像边长限制。大于 0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 736。
+ | 含义:印章文本检测的图像边长限制。 +说明:大于 0 的任意整数。+如果不设置,将使用产线初始化的该参数值,默认初始化为 736。
|
int |
-+ | 736 |
seal_det_limit_type |
-印章文本检测的图像边长限制类型。支持 min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 min。
+ | 含义:印章文本检测的图像边长限制类型。 +说明: +支持 min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。+如果不设置,将使用产线初始化的该参数值,默认初始化为 min。
|
str |
-+ | min |
seal_det_thresh |
-检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。大于 0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.2。
+ | 含义:印章文本检测的检测像素阈值。 +说明:输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +大于 0 的任意浮点数。+如果不设置,将默认使用产线初始化的该参数值 0.2。
|
float |
-+ | 0.2 |
seal_det_box_thresh |
-检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。大于 0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.6。
+ | 含义:印章文本检测的检测框阈值。 +说明:检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +大于 0 的任意浮点数。+如果不设置,将默认使用产线初始化的该参数值 0.6。
|
float |
-+ | 0.6 |
seal_det_unclip_ratio |
-印章文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。大于 0 的任意浮点数
-。如果不设置,将使用产线初始化的该参数值,默认为 0.5。
+ | 含义:印章文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +说明:大于 0 的任意浮点数。+如果不设置,将使用产线初始化的该参数值,默认为 0.5。
|
float |
-+ | 0.5 |
seal_rec_score_thresh |
-印章文本识别阈值,得分大于该阈值的文本结果会被保留。大于 0 的任意浮点数
-。如果不设置,将使用产线初始化的该参数值,默认为0.0,即不设阈值。
+ | 含义:印章文本识别阈值,得分大于该阈值的文本结果会被保留。 +说明:大于 0 的任意浮点数。+如果不设置,将使用产线初始化的该参数值,默认为 0.0,即不设阈值。
|
float |
-+ | 0.0 |
qianfan_api_key |
-千帆平台的API key。 | +含义:千帆平台的API key。 | str |
||
pp_docbee_base_url |
-多模态大模型服务的URL。 | +含义:多模态大模型服务的URL。 | str |
||
device |
-用于推理的设备。支持指定具体卡号: + | 含义:用于推理的设备。 +说明:支持指定具体卡号:
| |||
enable_hpi |
-是否启用高性能推理。 | +含义:是否启用高性能推理。 | bool |
False |
|
use_tensorrt |
-是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。
+说明:如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。 |
@@ -1215,13 +1272,14 @@ paddleocr pp_chatocrv4_doc -i vehicle_certificate-1.png -k 驾驶室准乘人数
|||
precision |
-计算精度,如 fp32、fp16。 | +含义:计算精度,如 fp32、fp16。 | str |
fp32 |
|
enable_mkldnn |
-是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 MKL-DNN 加速推理。 +说明:如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 |
bool |
True |
@@ -1229,20 +1287,20 @@ paddleocr pp_chatocrv4_doc -i vehicle_certificate-1.png -k 驾驶室准乘人数
|
mkldnn_cache_capacity |
-MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 | int |
10 |
||
cpu_threads |
-在 CPU 上进行推理时使用的线程数。 | +含义:在 CPU 上进行推理时使用的线程数。 | int |
8 |
|
paddlex_config |
-PaddleX产线配置文件路径。 | +含义:PaddleX产线配置文件路径。 | str |
||
layout_detection_model_name |
-用于版面区域检测的模型名称。如果设置为None,将会使用产线默认模型。 |
+含义:用于版面区域检测的模型名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
layout_detection_model_dir |
-版面区域检测模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:版面区域检测模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
doc_orientation_classify_model_name |
-文档方向分类模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:文档方向分类模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
doc_orientation_classify_model_dir |
-文档方向分类模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:文档方向分类模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
doc_unwarping_model_name |
-文本图像矫正模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:文本图像矫正模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
doc_unwarping_model_dir |
-文本图像矫正模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:文本图像矫正模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
text_detection_model_name |
-文本检测模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:文本检测模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
text_detection_model_dir |
-文本检测模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:文本检测模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
text_recognition_model_name |
-文本识别模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:文本识别模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
text_recognition_model_dir |
-文本识别模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:文本识别模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
text_recognition_batch_size |
-文本识别模型的batch size。如果设置为None,将默认设置batch size为1。 |
+含义:文本识别模型的batch size。 +说明:如果设置为 None,将默认设置batch size为1。 |
int|None |
None |
|
table_structure_recognition_model_name |
-表格结构识别模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:表格结构识别模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
table_structure_recognition_model_dir |
-表格结构识别模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:表格结构识别模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
seal_text_detection_model_name |
-印章文本检测模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:印章文本检测模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
seal_text_detection_model_dir |
-印章文本检测模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:印章文本检测模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
seal_text_recognition_model_name |
-印章文本识别模型的名称。如果设置为None,将会使用产线默认模型。 |
+含义:印章文本识别模型的名称。 +说明:如果设置为 None,将会使用产线默认模型。 |
str|None |
None |
|
seal_text_recognition_model_dir |
-印章文本识别模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:印章文本识别模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
|
seal_text_recognition_batch_size |
-印章文本识别模型的batch size。如果设置为None,将默认设置batch size为1。 |
+含义:印章文本识别模型的batch size。 +说明:如果设置为 None,将默认设置batch size为1。 |
int|None |
None |
|
use_doc_orientation_classify |
-是否加载并使用文档方向分类模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文档方向分类模块。 +说明:如果设置为 None,将使用产线初始化的该参数值,默认初始化为True。 |
bool|None |
None |
|
use_doc_unwarping |
-是否加载并使用文本图像矫正模块。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文本图像矫正模块。 +说明:如果设置为 None,将使用产线初始化的该参数值,默认初始化为True。 |
bool|None |
None |
|
use_textline_orientation |
-是否加载并使用文本行方向分类模块. 如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用文本行方向分类模块。 +说明:如果设置为 None,将使用产线初始化的该参数值,默认初始化为True。 |
bool|None |
None |
|
use_seal_recognition |
-是否加载并使用印章文本识别子产线。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用印章文本识别子产线。 +说明:如果设置为 None,将使用产线初始化的该参数值,默认初始化为True。 |
bool|None |
None |
|
use_table_recognition |
-是否加载并使用表格识别子产线。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:是否加载并使用表格识别子产线。 +说明:如果设置为 None,将使用产线初始化的该参数值,默认初始化为True。 |
bool|None |
None |
|
layout_threshold |
-版面模型得分阈值。 + | 含义:版面模型得分阈值。 +说明:
| |||
layout_nms |
-版面检测是否使用后处理NMS。如果设置为None,将使用产线初始化的该参数值,默认初始化为True。 |
+含义:版面检测是否使用后处理NMS。 +说明:如果设置为 None,将使用产线初始化的该参数值,默认初始化为True。 |
bool|None |
None |
|
layout_unclip_ratio |
-版面区域检测模型检测框的扩张系数。 + | 含义:版面区域检测模型检测框的扩张系数。
+说明:
| |||
layout_merge_bboxes_mode |
-版面区域检测的重叠框过滤方式。 + | 含义:版面区域检测的重叠框过滤方式。
+说明:
| |||
text_det_limit_side_len |
-文本检测的图像边长限制。 + | 含义:文本检测的图像边长限制。 +说明:
| |||
text_det_limit_type |
-文本检测的边长度限制类型。 + | 含义:文本检测的边长度限制类型。
+说明:
| |||
text_det_thresh |
-检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 + | 含义:检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +说明:
| |||
text_det_box_thresh |
-检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 + | 含义:检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。
+说明:
| |||
text_det_unclip_ratio |
-文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 + | 含义:文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +说明:
| |||
text_rec_score_thresh |
-文本识别阈值,得分大于该阈值的文本结果会被保留。 + | 含义:文本识别阈值,得分大于该阈值的文本结果会被保留。 +说明:
| |||
seal_det_limit_side_len |
-印章文本检测的图像边长限制。 + | 含义:印章文本检测的图像边长限制。 +说明:
| |||
seal_det_limit_type |
-印章文本检测的图像边长限制类型。 + | 含义:印章文本检测的图像边长限制类型。 +说明:
| |||
seal_det_thresh |
-检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 + | 含义:检测像素阈值,输出的概率图中,得分大于该阈值的像素点才会被认为是文字像素点。 +说明:
| |||
seal_det_box_thresh |
-检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 + | 含义:检测框阈值,检测结果边框内,所有像素点的平均得分大于该阈值时,该结果会被认为是文字区域。 +说明:
| |||
seal_det_unclip_ratio |
-印章文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 + | 含义:印章文本检测扩张系数,使用该方法对文字区域进行扩张,该值越大,扩张的面积越大。 +说明:
| |||
seal_rec_score_thresh |
-印章文本识别阈值,得分大于该阈值的文本结果会被保留。 + | 含义:印章文本识别阈值,得分大于该阈值的文本结果会被保留。 +说明:
| |||
retriever_config |
-向量检索大模型配置参数。配置内容为如下dict: + | 含义:向量检索大模型配置参数。 +说明: +配置内容为如下dict: | |||
mllm_chat_bot_config |
-多模态大模型配置参数。配置内容为如下dict: + | 含义:多模态大模型配置参数。 +说明: +配置内容为如下dict: | |||
chat_bot_config |
-大语言模型配置信息。配置内容为如下dict: + | 含义:大语言模型配置信息。 +说明: +配置内容为如下dict: | |||
device |
-用于推理的设备。支持指定具体卡号: + | 含义:用于推理的设备。 +说明: +支持指定具体卡号:
| |||
enable_hpi |
-是否启用高性能推理。 | +含义:是否启用高性能推理。 | bool |
False |
|
use_tensorrt |
-是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。 +说明: +如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。 |
@@ -1727,13 +1834,15 @@ PP-ChatOCRv4 预测的流程、API说明、产出说明如下:
|||
precision |
-计算精度,如 fp32、fp16。 | +含义:计算精度,如 fp32、fp16。 | str |
"fp32" |
|
enable_mkldnn |
-是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 MKL-DNN 加速推理。 +说明: +如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 |
bool |
True |
@@ -1741,20 +1850,20 @@ PP-ChatOCRv4 预测的流程、API说明、产出说明如下:
|
mkldnn_cache_capacity |
-MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 | int |
10 |
||
cpu_threads |
-在 CPU 上进行推理时使用的线程数。 | +含义:在 CPU 上进行推理时使用的线程数。 | int |
8 |
|
paddlex_config |
-PaddleX产线配置文件路径。 | +含义:PaddleX产线配置文件路径。 | str |
None |
|
input |
-待预测数据,支持多种输入类型,必填。 + | 含义:待预测数据,支持多种输入类型,必填。 +说明:
| |||
use_doc_orientation_classify |
-是否在推理时使用文档方向分类模块。 | +含义:是否在推理时使用文档方向分类模块。 | bool|None |
None |
|
use_doc_unwarping |
-是否在推理时使用文本图像矫正模块。 | +含义:是否在推理时使用文本图像矫正模块。 | bool|None |
None |
|
use_textline_orientation |
-是否加载并使用文本行方向分类模块。 | +含义:是否加载并使用文本行方向分类模块。 | bool|None |
None |
|
use_seal_recognition |
-是否在推理时使用印章文本识别子产线。 | +含义:是否在推理时使用印章文本识别子产线。 | bool|None |
None |
|
use_table_recognition |
-是否在推理时使用表格识别子产线。 | +含义:是否在推理时使用表格识别子产线。 | bool|None |
None |
|
layout_threshold |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|dict|None |
None |
|
layout_nms |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
|
layout_unclip_ratio |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|Tuple[float,float]|dict|None |
None |
|
layout_merge_bboxes_mode |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
str|dict|None |
None |
|
text_det_limit_side_len |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
int|None |
None |
|
text_det_limit_type |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
str|None |
None |
|
text_det_thresh |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
text_det_box_thresh |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
text_det_unclip_ratio |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
text_rec_score_thresh |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
seal_det_limit_side_len |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
int|None |
None |
|
seal_det_limit_type |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
str|None |
None |
|
seal_det_thresh |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
seal_det_box_thresh |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
seal_det_unclip_ratio |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
|
seal_rec_score_thresh |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|None |
None |
print() 方法会将结果打印到终端,打印到终端的内容解释如下:input_path: (str) 待预测图像或者PDF的输入路径page_index: (Union[int, None]) 如果输入是PDF文件,则表示当前是PDF的第几页,否则为 Nonemodel_settings: (Dict[str, bool]) 配置产线所需的模型参数use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线use_seal_recognition: (bool) 控制是否启用印章文本识别子产线use_table_recognition: (bool) 控制是否启用表格识别子产线use_formula_recognition: (bool) 控制是否启用公式识别子产线parsing_res_list: (List[Dict]) 解析结果的列表,每个元素为一个字典,列表顺序为解析后的阅读顺序。block_bbox: (np.ndarray) 版面区域的边界框。block_label: (str) 版面区域的标签,例如text, table等。block_content: (str) 内容为版面区域内的内容。overall_ocr_res: (Dict[str, Union[List[str], List[float], numpy.ndarray]]) 全局 OCR 结果的dictinput_path: (Union[str, None]) 图像OCR子产线接受的图像路径,当输入为numpy.ndarray时,保存为 None model_settings: (Dict) OCR子产线的模型配置参数dt_polys: (List[numpy.ndarray]) 文本检测的多边形框列表。每个检测框由4个顶点坐标构成的numpy数组表示,数组shape为(4, 2),数据类型为int16dt_scores: (List[float]) 文本检测框的置信度列表text_det_params: (Dict[str, Dict[str, int, float]]) 文本检测模块的配置参数limit_side_len: (int) 图像预处理时的边长限制值limit_type: (str) 边长限制的处理方式thresh: (float) 文本像素分类的置信度阈值box_thresh: (float) 文本检测框的置信度阈值unclip_ratio: (float) 文本检测框的膨胀系数text_type: (str) 文本检测的类型,当前固定为"general"text_type: (str) 文本检测的类型,当前固定为"general"textline_orientation_angles: (List[int]) 文本行方向分类的预测结果。启用时返回实际角度值(如[0,0,1]text_rec_score_thresh: (float) 文本识别结果的过滤阈值rec_texts: (List[str]) 文本识别结果列表,仅包含置信度超过text_rec_score_thresh的文本rec_scores: (List[float]) 文本识别的置信度列表,已按text_rec_score_thresh过滤rec_polys: (List[numpy.ndarray]) 经过置信度过滤的文本检测框列表,格式同dt_polysformula_res_list: (List[Dict[str, Union[numpy.ndarray, List[float], str]]]) 公式识别结果列表,每个元素为一个dictrec_formula: (str) 公式识别结果rec_polys: (numpy.ndarray) 公式检测框,shape为(4, 2),dtype为int16formula_region_id: (int) 公式所在的区域编号seal_res_list: (List[Dict[str, Union[numpy.ndarray, List[float], str]]]) 印章文本识别结果列表,每个元素为一个dictinput_path: (str) 印章图像的输入路径model_settings: (Dict) 印章文本识别子产线的模型配置参数dt_polys: (List[numpy.ndarray]) 印章检测框列表,格式同dt_polystext_det_params: (Dict[str, Dict[str, int, float]]) 印章检测模块的配置参数, 具体参数含义同上text_type: (str) 印章检测的类型,当前固定为"seal"text_rec_score_thresh: (float) 印章文本识别结果的过滤阈值rec_texts: (List[str]) 印章文本识别结果列表,仅包含置信度超过text_rec_score_thresh的文本rec_scores: (List[float]) 印章文本识别的置信度列表,已按dt_polys过滤rec_polys: (List[numpy.ndarray]) 经过置信度过滤的印章检测框列表,格式同dt_polysrec_boxes: (numpy.ndarray) 检测框的矩形边界框数组,shape为(n, 4),dtype为int16。每一行表示一个矩形table_res_list: (List[Dict[str, Union[numpy.ndarray, List[float], str]]]) 表格识别结果列表,每个元素为一个dictcell_box_list: (List[numpy.ndarray]) 表格单元格的边界框列表pred_html: (str) 表格的HTML格式字符串table_ocr_pred: (dict) 表格的OCR识别结果rec_polys: (List[numpy.ndarray]) 单元格的检测框列表rec_texts: (List[str]) 单元格的识别结果rec_scores: (List[float])单元格的识别置信度rec_boxes: (numpy.ndarray) 检测框的矩形边界框数组,shape为(n, 4),dtype为int16。每一行表示一个矩形save_to_json() 方法会将上述内容保存到指定的 save_path 中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_res.json,如果指定为文件,则直接保存到该文件中。由于 json 文件不支持保存numpy数组,因此会将其中的 numpy.array 类型转换为列表形式。save_to_img() 方法会将可视化结果保存到指定的 save_path 中,如果指定为目录,则会将版面区域检测可视化图像、全局OCR可视化图像、版面阅读顺序可视化图像等内容保存,如果指定为文件,则直接保存到该文件中。(产线通常包含较多结果图片,不建议直接指定为具体的文件路径,否则多张图会被覆盖,仅保留最后一张图)save_to_markdown() 方法会将转化后的 Markdown 文件保存到指定的 save_path 中,保存的文件路径为save_path/{your_img_basename}.md,如果输入是 PDF 文件,建议直接指定目录,否责多个 markdown 文件会被覆盖。
+ 调用 concatenate_markdown_pages() 方法将 PP-StructureV3 pipeline 输出的多页Markdown内容markdown_list合并为单个完整文档,并返回合并后的Markdown内容。获取格式为 dict 的可视化图像。 |
json 属性获取的预测结果为dict类型的数据,相关内容与调用 save_to_json() 方法保存的内容一致。img 属性返回的预测结果是一个dict类型的数据。其中,键分别为 layout_det_res、overall_ocr_res、text_paragraphs_ocr_res、formula_res_region1、table_cell_img 和 seal_res_region1,对应的值是 Image.Image 对象:分别用于显示版面区域检测、OCR、OCR文本段落、公式、表格和印章结果的可视化图像。如果没有使用可选模块,则dict中只包含 layout_det_res。build_vector() 方法,对文本内容进行向量构建。build_vector() 方法的参数及其说明:
visual_info |
-视觉信息,可以是包含视觉信息的dict,或者由这些dict组成的列表。 | +含义:视觉信息。 +说明: +可以是包含视觉信息的dict,或者由这些dict组成的列表。 |
list|dict |
|
min_characters |
-最小字符数量。为大于0的正整数,可以根据大语言模型支持的token长度来决定。 | +含义:最小字符数量。 +说明: +为大于0的正整数,可以根据大语言模型支持的token长度来决定。 |
int |
3500 |
block_size |
-长文本建立向量库时分块大小。为大于0的正整数,可以根据大语言模型支持的token长度来决定。 | +含义:长文本建立向量库时分块大小。 +说明:为大于0的正整数,可以根据大语言模型支持的token长度来决定。 |
int |
300 |
flag_save_bytes_vector |
-文字是否保存为二进制文件。 | +含义:文字是否保存为二进制文件。 | bool |
False |
retriever_config |
-向量检索大模型配置参数,参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:向量检索大模型配置参数,参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
dict|None |
None |
flag_save_bytes_vector:(bool)是否将结果保存为二进制文件flag_too_short_text:(bool)是否文本长度小于最小字符数量vector: (str|list) 文本的二进制内容或者文本内容,取决于flag_save_bytes_vector和min_characters的值,如果flag_save_bytes_vector=True且文本长度大于等于最小字符数量,则返回二进制内容;否则返回原始的文本。mllm_pred() 方法,获取多模态大模型抽取结果。mllm_pred() 方法的参数及其说明:
input |
-待预测数据,支持多种输入类型,必填。 + | 含义:待预测数据,支持多种输入类型,必填。
+说明:
| |||
key_list |
-用于提取信息的单个键或键列表。 | +含义:用于提取信息的单个键或键列表。 | Union[str, List[str]] |
||
mllm_chat_bot_config |
-多模态大模型配置参数,参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:多模态大模型配置参数,参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
dict|None |
None |
key_list |
-用于提取信息的单个键或键列表。 | +含义:用于提取信息的单个键或键列表。 | Union[str, List[str]] |
None |
|
visual_info |
-视觉信息结果。 | +含义:视觉信息结果。 | List[dict] |
None |
|
use_vector_retrieval |
-是否使用向量检索。 | +含义:是否使用向量检索。 | bool |
True |
|
vector_info |
-用于检索的向量信息。 | +含义:用于检索的向量信息。 | dict|None |
None |
|
min_characters |
-所需的最小字符数。为大于0的正整数。 | +含义:所需的最小字符数。 +说明:为大于0的正整数。 |
int |
3500 |
|
text_task_description |
-文本任务的描述。 | +含义:文本任务的描述。 | str|None |
None |
|
text_output_format |
-文本结果的输出格式。 | +含义:文本结果的输出格式。 | str|None |
None |
|
text_rules_str |
-生成文本结果的规则。 | +含义:生成文本结果的规则。 | str|None |
None |
|
text_few_shot_demo_text_content |
-用于少样本演示的文本内容。 | +含义:用于少样本演示的文本内容。 | str|None |
None |
|
text_few_shot_demo_key_value_list |
-用于少样本演示的键值列表。/td> + | 含义:用于少样本演示的键值列表。 | str|None |
None |
|
table_task_description |
-表任务的描述。 | +含义:表任务的描述。 | str|None |
None |
|
table_output_format |
-表结果的输出格式。 | +含义:表结果的输出格式。 | str|None |
None |
|
table_rules_str |
-生成表结果的规则。 | +含义:生成表结果的规则。 | str|None |
None |
|
table_few_shot_demo_text_content |
-表少样本演示的文本内容。 | +含义:表少样本演示的文本内容。 | str|None |
None |
|
table_few_shot_demo_key_value_list |
-表少样本演示的键值列表。 | +含义:表少样本演示的键值列表。 | str|None |
None |
|
mllm_predict_info |
-多模态大模型结果。 | +含义:多模态大模型结果。 | dict|None |
None
|
-None |
mllm_integration_strategy |
-多模态大模型和大语言模型数据融合策略,支持单独使用其中一个或者融合两者结果。可选:"integration", "llm_only" and "mllm_only"。 | +含义:多模态大模型和大语言模型数据融合策略,支持单独使用其中一个或者融合两者结果。 +说明:可选: integration, llm_only and mllm_only。 |
str |
-"integration" |
+integration |
chat_bot_config |
-大语言模型配置信息,参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:大语言模型配置信息,参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
dict|None |
None |
|
retriever_config |
-向量检索大模型配置参数,参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:向量检索大模型配置参数,参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
dict|None |
None |
chat_res: (dict) 提取信息的结果,是一个dict,包含了待抽取的键和对应的值。/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
-
+/root/data/img.jpg;/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
strsave_pathstrlayout_detection_model_namestrlayout_detection_model_dirstrlayout_threshold0-1 之间的任意浮点数。如果不设置,将使用产线初始化的该参数值,默认初始化为 0.5。
+0-1 之间的任意浮点数。如果不设置,将使用产线初始化的该参数值,默认初始化为 0.5。
float0.5layout_nmsTrue。True。boolTruelayout_unclip_ratio0 浮点数。如果不设置,将使用产线初始化的该参数值,默认初始化为 1.0。
+0 浮点数。如果不设置,将使用产线初始化的该参数值,默认初始化为 1.0。
float1.0layout_merge_bboxes_modelarge。
-strlargechart_recognition_model_namestrchart_recognition_model_dirstrchart_recognition_batch_size1。1。int1region_detection_model_namestrregion_detection_model_dirstrdoc_orientation_classify_model_namestrdoc_orientation_classify_model_dirstrdoc_unwarping_model_namestrdoc_unwarping_model_dirstrtext_detection_model_namestrtext_detection_model_dirstrtext_det_limit_side_len0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 960。
+0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 960。
int960text_det_limit_typemin 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 max。
+min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 max。
strmaxtext_det_thresh0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.3。
+0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.3。
float0.3text_det_box_thresh0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.6。
+0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.6。
float0.6text_det_unclip_ratio0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 2.0。
+0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 2.0。
float2.0textline_orientation_model_namestrtextline_orientation_model_dirstrtextline_orientation_batch_size1。1。int1text_recognition_model_namestrtext_recognition_model_dirstrtext_recognition_batch_size1。1。int1text_rec_score_thresh0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.0。即不设阈值。
+0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.0。即不设阈值。
float0.0table_classification_model_namestrtable_classification_model_dirstrwired_table_structure_recognition_model_namestrwired_table_structure_recognition_model_dirstrwireless_table_structure_recognition_model_namestrwireless_table_structure_recognition_model_dirstrwired_table_cells_detection_model_namestrwired_table_cells_detection_model_dirstrwireless_table_cells_detection_model_namestrwireless_table_cells_detection_model_dirstrtable_orientation_classify_model_namestrtable_orientation_classify_model_dirstrseal_text_detection_model_namestrseal_text_detection_model_dirstrseal_det_limit_side_len0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 736。
+0 的任意整数。如果不设置,将使用产线初始化的该参数值,默认初始化为 736。
int736seal_det_limit_typemin 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。如果不设置,将使用产线初始化的该参数值,默认初始化为 min。
+min 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len。
+如果不设置,将使用产线初始化的该参数值,默认初始化为 c。
str736seal_det_thresh0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.2。
+0 的任意浮点数。
+如果不设置,将默认使用产线初始化的该参数值 0.2。
+float0.2seal_det_box_thresh0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.6。
+0 的任意浮点数。0.6。
+
float0.6seal_det_unclip_ratio0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.5。
+0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.5。
float0.5seal_text_recognition_model_namestrseal_text_recognition_model_dirstrseal_text_recognition_batch_size1。1。int1seal_rec_score_thresh0 的任意浮点数
-。如果不设置,将默认使用产线初始化的该参数值 0.0。即不设阈值。
+0 的任意浮点数。如果不设置,将默认使用产线初始化的该参数值 0.0。即不设阈值。
float0.0formula_recognition_model_namestrformula_recognition_model_dirstrformula_recognition_batch_size1。1。int1use_doc_orientation_classifyFalse。False。boolFalseuse_doc_unwarpingFalse。False。boolFalseuse_textline_orientationFalse。False。boolFalseuse_seal_recognitionFalse。False。boolFalseuse_table_recognitionTrue。True。boolTrueuse_formula_recognitionTrue。True。boolTrueuse_chart_recognitionFalse。False。boolFalseuse_region_detectionTrue。True。boolTruedevicecpu 表示使用 CPU 进行推理;gpu:0 表示使用第 1 块 GPU 进行推理;mlu:0 表示使用第 1 块 MLU 进行推理;dcu:0 表示使用第 1 块 DCU 进行推理;strenable_hpiboolFalseuse_tensorrtboolFalseprecisionstrfp32enable_mkldnnboolTruemkldnn_cache_capacityint10cpu_threadsint8paddlex_configstrlayout_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonelayout_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonelayout_threshold0-1 之间的任意浮点数;{0:0.1} key为类别ID,value为该类别的阈值;None,将使用产线初始化的该参数值,默认初始化为 0.5。float|dict|NoneNonelayout_nmsNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNonelayout_unclip_ratio0 浮点数;cls_id, value为tuple类型,如{0: (1.1, 2.0)},表示将模型输出的第0类别检测框中心不变,宽度扩张1.1倍,高度扩张2.0倍;None,将使用产线初始化的该参数值,默认初始化为 1.0。float|Tuple[float,float]|dict|NoneNonelayout_merge_bboxes_modelarge,small,union,分别表示重叠框过滤时选择保留大框,小框还是同时保留;cls_id,value为str类型,如{0: "large", 2: "small"},表示对第0类别检测框使用large模式,对第2类别检测框使用small模式;None,将使用产线初始化的该参数值,默认初始化为 large。str|dict|NoneNonechart_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonechart_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonechart_recognition_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNoneregion_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNoneregion_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonedoc_orientation_classify_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonedoc_orientation_classify_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonedoc_unwarping_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonedoc_unwarping_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetext_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetext_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetext_det_limit_side_len0 的任意整数;None,将使用产线初始化的该参数值,默认初始化为 960。int|NoneNonetext_det_limit_typemin 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len;None,将使用产线初始化的该参数值,默认初始化为 max。str|NoneNonetext_det_thresh0的任意浮点数;
+0的任意浮点数;None,将默认使用产线初始化的该参数值 0.3。float|NoneNonetext_det_box_thresh0的任意浮点数;
+0的任意浮点数;None,将默认使用产线初始化的该参数值 0.6。float|NoneNonetext_det_unclip_ratio0的任意浮点数;
+0的任意浮点数;None,将默认使用产线初始化的该参数值 2.0。float|NoneNonetextline_orientation_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetextline_orientation_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetextline_orientation_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNonetext_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetext_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetext_recognition_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNonetext_rec_score_thresh0的任意浮点数;
+0的任意浮点数;None,将默认使用产线初始化的该参数值 0.0,即不设阈值。float|NoneNonetable_classification_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetable_classification_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonewired_table_structure_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonewired_table_structure_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonewireless_table_structure_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonewireless_table_structure_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonewired_table_cells_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonewired_table_cells_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonewireless_table_cells_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonewireless_table_cells_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNonetable_orientation_classify_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNonetable_orientation_classify_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNoneseal_text_detection_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNoneseal_text_detection_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNoneseal_det_limit_side_len0 的任意整数;None,将使用产线初始化的该参数值,默认初始化为 736。int|NoneNoneseal_det_limit_typemin 和 max,min 表示保证图像最短边不小于 det_limit_side_len,max 表示保证图像最长边不大于 limit_side_len;None,将使用产线初始化的该参数值,默认初始化为 min。str|NoneNoneseal_det_thresh0 的任意浮点数;
+0 的任意浮点数;None,将默认使用产线初始化的该参数值 0.2。float|NoneNoneseal_det_box_thresh0的任意浮点数;
+0的任意浮点数;None,将默认使用产线初始化的该参数值 0.6。float|NoneNoneseal_det_unclip_ratio0的任意浮点数;
+0的任意浮点数;None,将默认使用产线初始化的该参数值 0.5。float|NoneNoneseal_text_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNoneseal_text_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNoneseal_text_recognition_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNoneseal_rec_score_thresh0的任意浮点数;
-None,将默认使用产线初始化的该参数值 0.0,即不设阈值。0的任意浮点数;None,将默认使用产线初始化的该参数值 0.0,即不设阈值。float|NoneNoneformula_recognition_model_nameNone,将会使用产线默认模型。None,将会使用产线默认模型。str|NoneNoneformula_recognition_model_dirNone,将会下载官方模型。None,将会下载官方模型。str|NoneNoneformula_recognition_batch_sizeNone,将默认设置batch size为1。None,将默认设置batch size为1。int|NoneNoneuse_doc_orientation_classifyNone,将使用产线初始化的该参数值,默认初始化为False。None,将使用产线初始化的该参数值,默认初始化为False。bool|NoneNoneuse_doc_unwarpingNone,将使用产线初始化的该参数值,默认初始化为False。None,将使用产线初始化的该参数值,默认初始化为False。bool|NoneNoneuse_textline_orientationNone,将使用产线初始化的该参数值,默认初始化为False。None,将使用产线初始化的该参数值,默认初始化为False。bool|NoneNoneuse_seal_recognitionNone,将使用产线初始化的该参数值,默认初始化为False。None,将使用产线初始化的该参数值,默认初始化为False。bool|NoneNoneuse_table_recognitionNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNoneuse_formula_recognitionNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNoneuse_chart_recognitionNone,将使用产线初始化的该参数值,默认初始化为False。None,将使用产线初始化的该参数值,默认初始化为False。bool|NoneNoneuse_region_detectionNone,将使用产线初始化的该参数值,默认初始化为True。None,将使用产线初始化的该参数值,默认初始化为True。bool|NoneNonedevicecpu 表示使用 CPU 进行推理;gpu:0 表示使用第 1 块 GPU 进行推理;xpu:0 表示使用第 1 块 XPU 进行推理;mlu:0 表示使用第 1 块 MLU 进行推理;dcu:0 表示使用第 1 块 DCU 进行推理;None,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。None,初始化时,会优先使用本地的 GPU 0号设备,如果没有,则使用 CPU 设备。str|Noneenable_hpiboolFalseuse_tensorrtprecisionstr"fp32"fp32enable_mkldnnboolTruemkldnn_cache_capacityint10cpu_threadsint8paddlex_configstr|NoneNoneinputnumpy.ndarray 表示的图像数据/root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)[numpy.ndarray, numpy.ndarray],["/root/data/img1.jpg", "/root/data/img2.jpg"],["/root/data1", "/root/data2"]。Python Var|str|listuse_doc_orientation_classifyNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_doc_unwarpingNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_textline_orientationNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_seal_recognitionNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_table_recognitionNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_formula_recognitionNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_chart_recognitionNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNoneuse_region_detectionNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNonelayout_thresholdNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|dict|NoneNonelayout_nmsNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。bool|NoneNonelayout_unclip_ratioNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|Tuple[float,float]|dict|NoneNonelayout_merge_bboxes_modeNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。str|dict|NoneNonetext_det_limit_side_lenNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。int|NoneNonetext_det_limit_typeNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。str|NoneNonetext_det_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNonetext_det_box_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNonetext_det_unclip_ratioNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNonetext_rec_score_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNoneseal_det_limit_side_lenNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。int|NoneNoneseal_det_limit_typeNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。str|NoneNoneseal_det_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNoneseal_det_box_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNoneseal_det_unclip_ratioNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNoneseal_rec_score_threshNone表示使用实例化参数,否则该参数优先级更高。None表示使用实例化参数,否则该参数优先级更高。float|NoneNoneuse_wired_table_cells_trans_to_htmlboolFalseuse_wireless_table_cells_trans_to_htmlboolFalseuse_table_orientation_classifyboolTrueuse_ocr_results_with_table_cellsboolTrueuse_e2e_wired_table_rec_modelboolFalseuse_e2e_wireless_table_rec_modelboolTrueprint() 方法会将结果打印到终端,打印到终端的内容解释如下:input_path: (str) 待预测图像或者PDF的输入路径page_index: (Union[int, None]) 如果输入是PDF文件,则表示当前是PDF的第几页,否则为 Nonemodel_settings: (Dict[str, bool]) 配置产线所需的模型参数use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线use_seal_recognition: (bool) 控制是否启用印章文本识别子产线use_table_recognition: (bool) 控制是否启用表格识别子产线use_formula_recognition: (bool) 控制是否启用公式识别子产线doc_preprocessor_res: (Dict[str, Union[List[float], str]]) 文档预处理结果dict,仅当use_doc_preprocessor=True时存在input_path: (str) 文档预处理子产线接受的图像路径,当输入为 numpy.ndarray 时,保存为 None ,此处为 None page_index: None ,此处的输入为numpy.ndarray ,所以值为 None model_settings: (Dict[str, bool]) 文档预处理子产线的模型配置参数use_doc_unwarping: (bool) 控制是否启用文本图像扭曲矫正子模块angle: (int) 文档图像方向分类子模块的预测结果,启用时返回实际角度值parsing_res_list: (List[Dict]) 解析结果的列表,每个元素为一个字典,列表顺序为解析后的阅读顺序。block_bbox: (np.ndarray) 版面区域的边界框。block_label: (str) 版面区域的标签,例如text, table等。block_content: (str) 内容为版面区域内的内容。block_id: (int) 版面区域的索引,用于显示版面排序结果。block_order (int) 版面区域的顺序,用于显示版面阅读顺序,对于非排序部分,默认值为 None 。overall_ocr_res: (Dict[str, Union[List[str], List[float], numpy.ndarray]]) 全局 OCR 结果的dictinput_path: (Union[str, None]) 图像OCR子产线接受的图像路径,当输入为numpy.ndarray时,保存为 None page_index: None ,此处的输入为numpy.ndarray,所以值为 None model_settings: (Dict) OCR子产线的模型配置参数rec_texts: (List[str]) 文本识别结果列表,仅包含置信度超过text_rec_score_thresh的文本rec_scores: (List[float]) 文本识别的置信度列表,已按text_rec_score_thresh过滤rec_polys: (List[numpy.ndarray]) 经过置信度过滤的文本检测框列表,格式同dt_polysformula_res_list: (List[Dict[str, Union[numpy.ndarray, List[float], str]]]) 公式识别结果列表,每个元素为一个dictrec_formula: (str) 公式识别结果rec_polys: (numpy.ndarray) 公式检测框,shape为(4, 2),dtype为int16formula_region_id: (int) 公式所在的区域编号seal_res_list: (List[Dict[str, Union[numpy.ndarray, List[float], str]]]) 印章文本识别结果列表,每个元素为一个dictinput_path: (str) 印章图像的输入路径page_index: None ,此处的输入为numpy.ndarray,所以值为 None model_settings: (Dict) 印章文本识别子产线的模型配置参数rec_scores: (List[float]) 印章文本识别的置信度列表,已按dt_polys过滤rec_polys: (List[numpy.ndarray]) 经过置信度过滤的印章检测框列表,格式同dt_polysrec_boxes: (numpy.ndarray) 检测框的矩形边界框数组,shape为(n, 4),dtype为int16。每一行表示一个矩形table_res_list: (List[Dict[str, Union[numpy.ndarray, List[float], str]]]) 表格识别结果列表,每个元素为一个dictcell_box_list: (List[numpy.ndarray]) 表格单元格的边界框列表pred_html: (str) 表格的HTML格式字符串table_ocr_pred: (dict) 表格的OCR识别结果rec_scores: (List[float])单元格的识别置信度rec_boxes: (numpy.ndarray) 检测框的矩形边界框数组,shape为(n, 4),dtype为int16。每一行表示一个矩形save_to_json() 方法会将上述内容保存到指定的 save_path 中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_res.json,如果指定为文件,则直接保存到该文件中。由于 json 文件不支持保存numpy数组,因此会将其中的 numpy.array 类型转换为列表形式。save_to_img() 方法会将可视化结果保存到指定的 save_path 中,如果指定为目录,则会将版面区域检测可视化图像、全局OCR可视化图像、版面阅读顺序可视化图像等内容保存,如果指定为文件,则直接保存到该文件中。(产线通常包含较多结果图片,不建议直接指定为具体的文件路径,否则多张图会被覆盖,仅保留最后一张图)input |
-待预测数据,必填。
-如图像文件或者PDF文件的本地路径:/root/data/img.jpg;如URL链接,如图像文件或PDF文件的网络URL:示例;如本地目录,该目录下需包含待预测图像,如本地路径:/root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
+ | 含义:待预测数据,必填。 +说明:如图像文件或者PDF文件的本地路径: /root/data/img.jpg;+如URL链接,如图像文件或PDF文件的网络URL:示例; +如本地目录,该目录下需包含待预测图像,如本地路径: /root/data/(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)。
|
str |
|
save_path |
-指定推理结果文件保存的路径。如果不设置,推理结果将不会保存到本地。 | +含义:指定推理结果文件保存的路径。 +说明:如果不设置,推理结果将不会保存到本地。 |
str |
|
layout_detection_model_name |
-版面区域检测排序模型名称。如果不设置,将会使用默认模型。 | +含义:版面区域检测排序模型名称。 +说明:如果不设置,将会使用默认模型。 |
str |
|
layout_detection_model_dir |
-版面区域检测排序模型的目录路径。如果不设置,将会下载官方模型。 | +含义:版面区域检测排序模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
|
layout_threshold |
-版面模型得分阈值。0-1 之间的任意浮点数。如果不设置,将使用初始化的默认值。
+ | 含义:版面模型得分阈值。 +说明: 0-1 之间的任意浮点数。+如果不设置,将使用初始化的默认值。 |
float |
|
layout_nms |
-版面检测是否使用后处理NMS。如果不设置,将使用初始化的默认值。 | +含义:版面检测是否使用后处理NMS。 +说明:如果不设置,将使用初始化的默认值。 |
bool |
|
layout_unclip_ratio |
-版面区域检测模型检测框的扩张系数。
-任意大于 0 浮点数。如果不设置,将使用初始化的默认值
+ | 含义:版面区域检测模型检测框的扩张系数。 +说明:任意大于 0 浮点数。+如果不设置,将使用初始化的默认值 |
float |
|
layout_merge_bboxes_mode |
-版面检测中模型输出的检测框的合并处理模式。 + | 含义:版面检测中模型输出的检测框的合并处理模式。 +说明:
| ||
vl_rec_model_name |
-多模态识别模型名称。如果不设置,将会使用默认模型。 | +含义:多模态识别模型名称。 +说明:如果不设置,将会使用默认模型。 |
str |
|
vl_rec_model_dir |
-多模态识别模型目录路径。如果不设置,将会下载官方模型。 | +含义:多模态识别模型目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
|
vl_rec_backend |
-多模态识别模型使用的推理后端。 | +含义:多模态识别模型使用的推理后端。 | str |
|
vl_rec_server_url |
-如果多模态识别模型使用推理服务,该参数用于指定服务器URL。 | +含义:如果多模态识别模型使用推理服务,该参数用于指定服务器URL。 | str |
|
vl_rec_max_concurrency |
-如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。 | -str |
-- | |
vl_rec_api_key |
-如果多模态识别模型使用推理服务,该参数用于指定服务的 API key。 | +含义:如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。 | str |
|
doc_orientation_classify_model_name |
-文档方向分类模型的名称。如果不设置,将使用初始化的默认值。 | +含义:文档方向分类模型的名称。 +说明:如果不设置,将使用初始化的默认值。 |
str |
|
doc_orientation_classify_model_dir |
-文档方向分类模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文档方向分类模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
|
doc_unwarping_model_name |
-文本图像矫正模型的名称。如果不设置,将使用初始化的默认值。 | +含义:文本图像矫正模型的名称。 +说明:如果不设置,将使用初始化的默认值。 |
str |
|
doc_unwarping_model_dir |
-文本图像矫正模型的目录路径。如果不设置,将会下载官方模型。 | +含义:文本图像矫正模型的目录路径。 +说明:如果不设置,将会下载官方模型。 |
str |
|
use_doc_orientation_classify |
-是否加载并使用文档方向分类模块。如果不设置,将使用初始化的默认值,默认初始化为False。 |
+含义:是否加载并使用文档方向分类模块。 +说明:如果不设置,将使用初始化的默认值,默认初始化为 False。 |
bool |
|
use_doc_unwarping |
-是否加载并使用文本图像矫正模块。如果不设置,将使用初始化的默认值,默认初始化为False。 |
+含义:是否加载并使用文本图像矫正模块。 +说明:如果不设置,将使用初始化的默认值,默认初始化为 False。 |
bool |
|
use_layout_detection |
-是否加载并使用版面区域检测排序模块。如果不设置,将使用初始化的默认值,默认初始化为True。 |
+含义:是否加载并使用版面区域检测排序模块。 +说明:如果不设置,将使用初始化的默认值,默认初始化为 True。 |
bool |
|
use_chart_recognition |
-是否使用图表解析功能。如果不设置,将使用初始化的默认值,默认初始化为False。 |
+含义:是否使用图表解析功能。 +说明:如果不设置,将使用初始化的默认值,默认初始化为 False。 |
bool |
|
format_block_content |
-控制是否将 block_content 中的内容格式化为Markdown格式。如果不设置,将使用初始化的默认值,默认初始化为False。 |
+含义:控制是否将 block_content 中的内容格式化为Markdown格式。+说明:如果不设置,将使用初始化的默认值,默认初始化为 False。 |
bool |
|
use_queues |
-用于控制是否启用内部队列。当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。 |
+含义:用于控制是否启用内部队列。 +说明: +当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。 |
bool |
|
prompt_label |
-VL模型的 prompt 类型设置,当且仅当 use_layout_detection=False 时生效。 |
+含义:VL模型的 prompt 类型设置。 +说明:当且仅当 use_layout_detection=False 时生效。 |
str |
|
repetition_penalty |
-VL模型采样使用的重复惩罚参数。 | +含义:VL模型采样使用的重复惩罚参数。 | float |
|
temperature |
-VL模型采样使用的温度参数。 | +含义:VL模型采样使用的温度参数。 | float |
|
top_p |
-VL模型采样使用的top-p参数。 | +含义:VL模型采样使用的top-p参数。 | float |
|
min_pixels |
-VL模型预处理图像时允许的最小像素数。 | +含义:VL模型预处理图像时允许的最小像素数。 | int |
|
max_pixels |
-VL模型预处理图像时允许的最大像素数。 | +含义:VL模型预处理图像时允许的最大像素数。 | int |
|
device |
-用于推理的设备。支持指定具体卡号: + | 含义:用于推理的设备。 +说明: +支持指定具体卡号:
| ||
enable_hpi |
-是否启用高性能推理。 | +含义:是否启用高性能推理。 | bool |
|
use_tensorrt |
-是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。 +说明: +如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。 |
bool |
|
precision |
-计算精度,如 fp32、fp16。 | +含义:计算精度,如 fp32、fp16。 | str |
|
enable_mkldnn |
-是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 MKL-DNN 加速推理。 +说明: +如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 |
bool |
|
mkldnn_cache_capacity |
-MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 | int |
||
cpu_threads |
-在 CPU 上进行推理时使用的线程数。 | +含义:在 CPU 上进行推理时使用的线程数。 | int |
|
paddlex_config |
-PaddleX产线配置文件路径。 | +含义:PaddleX产线配置文件路径。 | str |
layout_detection_model_name |
-版面区域检测排序模型名称。如果设置为None,将会使用默认模型。 |
+含义:版面区域检测排序模型名称。 +说明:如果设置为 None,将会使用默认模型。 |
str|None |
None |
layout_detection_model_dir |
-版面区域检测排序模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:版面区域检测排序模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
layout_threshold |
-版面模型得分阈值。 + | 含义:版面模型得分阈值。 +说明:
| ||
layout_nms |
-版面检测是否使用后处理NMS。如果设置为None,将使用初始化的默认值。 |
+含义:版面检测是否使用后处理NMS。 +说明:如果设置为 None,将使用初始化的默认值。 |
bool|None |
None |
layout_unclip_ratio |
-版面区域检测模型检测框的扩张系数。 + | 含义:版面区域检测模型检测框的扩张系数。 +说明:
| ||
layout_merge_bboxes_mode |
-版面区域检测的重叠框过滤方式。 + | 含义:版面区域检测的重叠框过滤方式。 +说明:
| ||
vl_rec_model_name |
-多模态识别模型名称。如果设置为None,将会使用默认模型。 |
+含义:多模态识别模型名称。 +说明:如果设置为 None,将会使用默认模型。 |
str|None |
None |
vl_rec_model_dir |
-多模态识别模型目录路径。如果设置为None,将会下载官方模型。 |
+含义:多模态识别模型目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
vl_rec_backend |
-多模态识别模型使用的推理后端。 | +含义:多模态识别模型使用的推理后端。 | int|None |
None |
vl_rec_server_url |
-如果多模态识别模型使用推理服务,该参数用于指定服务器URL。 | +含义:如果多模态识别模型使用推理服务,该参数用于指定服务器URL。 | str|None |
None |
vl_rec_max_concurrency |
-如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。 | -str|None |
-None |
-|
vl_rec_api_key |
-如果多模态识别模型使用推理服务,该参数用于指定服务的 API key。 | +含义:如果多模态识别模型使用推理服务,该参数用于指定最大并发请求数。 | str|None |
None |
doc_orientation_classify_model_name |
-文档方向分类模型的名称。如果设置为None,将会使用默认模型。 |
+含义:文档方向分类模型的名称。 +说明:如果设置为 None,将会使用默认模型。 |
str|None |
None |
doc_orientation_classify_model_dir |
-文档方向分类模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:文档方向分类模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
doc_unwarping_model_name |
-文本图像矫正模型的名称。如果设置为None,将会使用默认模型。 |
+含义:文本图像矫正模型的名称。 +说明:如果设置为 None,将会使用默认模型。 |
str|None |
None |
doc_unwarping_model_dir |
-文本图像矫正模型的目录路径。如果设置为None,将会下载官方模型。 |
+含义:文本图像矫正模型的目录路径。 +说明:如果设置为 None,将会下载官方模型。 |
str|None |
None |
use_doc_orientation_classify |
-是否加载并使用文档方向分类模块。如果设置为None,将使用初始化的默认值,默认初始化为False。 |
+含义:是否加载并使用文档方向分类模块。 +说明:如果设置为 None,将使用初始化的默认值,默认初始化为False。 |
bool|None |
None |
use_doc_unwarping |
-是否加载并使用文本图像矫正模块。如果设置为None,将使用初始化的默认值,默认初始化为False。 |
+含义:是否加载并使用文本图像矫正模块。 +说明:如果设置为 None,将使用初始化的默认值,默认初始化为False。 |
bool|None |
None |
use_layout_detection |
-是否加载并使用版面区域检测排序模块。如果设置为None,将使用初始化的默认值,默认初始化为True。 |
+含义:是否加载并使用版面区域检测排序模块。 +说明:如果设置为 None,将使用初始化的默认值,默认初始化为True。 |
bool|None |
None |
use_chart_recognition |
-是否加载并使用图表解析模块。如果设置为None,将使用初始化的默认值,默认初始化为False。 |
+含义:是否加载并使用图表解析模块。 +说明:如果设置为 None,将使用初始化的默认值,默认初始化为False。 |
bool|None |
None |
format_block_content |
-控制是否将 block_content 中的内容格式化为Markdown格式。如果设置为None,将使用初始化的默认值,默认初始化为False。 |
+含义:控制是否将 block_content 中的内容格式化为Markdown格式。+说明:如果设置为 None,将使用初始化的默认值,默认初始化为False。 |
bool|None |
None |
device |
-用于推理的设备。支持指定具体卡号: + | 含义:用于推理的设备。 +说明:支持指定具体卡号:
| ||
enable_hpi |
-是否启用高性能推理。 | +含义:是否启用高性能推理。 | bool |
False |
use_tensorrt |
-是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 Paddle Inference 的 TensorRT 子图引擎。 +说明: +如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。 对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。 |
bool |
@@ -717,13 +755,15 @@ for item in markdown_images:
|
precision |
-计算精度,如 fp32、fp16。 | +含义:计算精度,如 fp32、fp16。 | str |
"fp32" |
enable_mkldnn |
-是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 + | 含义:是否启用 MKL-DNN 加速推理。 +说明: +如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。 |
bool |
True |
@@ -731,20 +771,20 @@ for item in markdown_images:
mkldnn_cache_capacity |
-MKL-DNN 缓存容量。 +含义:MKL-DNN 缓存容量。 | int |
10 |
|
cpu_threads |
-在 CPU 上进行推理时使用的线程数。 | +含义:在 CPU 上进行推理时使用的线程数。 | int |
8 |
paddlex_config |
-PaddleX产线配置文件路径。 | +含义:PaddleX产线配置文件路径。 | str|None |
None |
input |
-待预测数据,支持多种输入类型,必填。 + | 含义:待预测数据,支持多种输入类型,必填。 +说明:
| ||
use_doc_orientation_classify |
-是否在推理时使用文档方向分类模块。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:是否在推理时使用文档方向分类模块。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
use_doc_unwarping |
-是否在推理时使用文本图像矫正模块。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:是否在推理时使用文本图像矫正模块。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
use_layout_detection |
-是否在推理时使用版面区域检测排序模块。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:是否在推理时使用版面区域检测排序模块。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
use_chart_recognition |
-是否在推理时使用图表解析模块。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:是否在推理时使用图表解析模块。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
layout_threshold |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|dict|None |
None |
layout_nms |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
layout_unclip_ratio |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
float|Tuple[float,float]|dict|None |
None |
layout_merge_bboxes_mode |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
str|dict|None |
None |
use_queues |
-用于控制是否启用内部队列。当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。 |
+含义:用于控制是否启用内部队列。 +说明: +当设置为 True 时,数据加载(如将 PDF 页面渲染为图像)、版面检测模型处理以及 VLM 推理将分别在独立线程中异步执行,通过队列传递数据,从而提升效率。对于页数较多的 PDF 文档,或是包含大量图像或 PDF 文件的目录,这种方式尤其高效。 |
bool|None |
None |
prompt_label |
-VL模型的 prompt 类型设置,当且仅当 use_layout_detection=False 时生效。可填写参数为 ocr、formula、table 和 chart。 |
+含义:VL模型的 prompt 类型设置。str|None |
None |
|
format_block_content |
-参数含义与实例化参数基本相同。设置为None表示使用实例化参数,否则该参数优先级更高。 |
+含义:参数含义与实例化参数基本相同。 +说明: +设置为 None表示使用实例化参数,否则该参数优先级更高。 |
bool|None |
None |
repetition_penalty |
-VL模型采样使用的重复惩罚参数。 | +含义:VL模型采样使用的重复惩罚参数。 | float|None |
None |
temperature |
-VL模型采样使用的温度参数。 | +含义:VL模型采样使用的温度参数。 | float|None |
None |
top_p |
-VL模型采样使用的top-p参数。 | +含义:VL模型采样使用的top-p参数。 | float|None |
None |
min_pixels |
-VL模型预处理图像时允许的最小像素数。 | +含义:VL模型预处理图像时允许的最小像素数。 | int|None |
None |
max_pixels |
-VL模型预处理图像时允许的最大像素数。 | +含义:VL模型预处理图像时允许的最大像素数。 | int|None |
None |
print() 方法会将结果打印到终端,打印到终端的内容解释如下:
+ input_path: (str) 待预测图像的输入路径page_index: (Union[int, None]) 如果输入是PDF文件,则表示当前是PDF的第几页,否则为 Nonemodel_settings: (Dict[str, bool]) 配置产线所需的模型参数
+ use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线use_layout_detection: (bool) 控制是否启用版面检测模块use_chart_recognition: (bool) 控制是否开启图表识别功能format_block_content: (bool) 控制是否在JSON中保存格式化后的markdown内容doc_preprocessor_res: (Dict[str, Union[str, Dict[str, bool], int]]) 文档预处理子产线的输出结果。仅当use_doc_preprocessor=True时存在
+ input_path: (str) 文档预处理子接受的图像路径,当输入为numpy.ndarray时,保存为None,此处为Nonepage_index: None 此处的输入为numpy.ndarray时,所以值为Nonemodel_settings: (Dict[str, bool]) 文档预处理子的模型配置参数
+ use_doc_orientation_classify: (bool) 控制是否启用文档方向分类use_doc_unwarping: (bool) 控制是否启用文本图像扭曲矫正子模块angle: (int) 文档图像方向分类子模块的预测结果,启用时返回实际角度值parsing_res_list: (List[Dict]) 解析结果的列表,每个元素为一个字典,列表顺序为解析后的阅读顺序。block_bbox: (np.ndarray) 版面区域的边界框。block_label: (str) 版面区域的标签,例如text, table等block_content: (str) 内容为版面区域内的内容。block_id: (int) 版面区域的索引,用于显示版面排序结果。block_order: (int) 版面区域的顺序,用于显示版面阅读顺序,对于非排序部分,默认值为 None。save_to_json() 方法会将上述内容保存到指定的save_path中,如果指定为目录,则保存的路径为save_path/{your_img_basename}_res.json,如果指定为文件,则直接保存到该文件中。由于json文件不支持保存numpy数组,因此会将其中的numpy.array类型转换为列表形式。json中的字段内容如下:input_path: (str) 待预测图像的输入路径page_index: (Union[int, None]) 如果输入是PDF文件,则表示当前是PDF的第几页,否则为 Nonemodel_settings: (Dict[str, bool]) 配置产线所需的模型参数
+ use_doc_preprocessor: (bool) 控制是否启用文档预处理子产线use_layout_detection: (bool) 控制是否启用版面检测模块use_chart_recognition: (bool) 控制是否开启图表识别功能format_block_content: (bool) 控制是否在JSON中保存格式化后的markdown内容doc_preprocessor_res: (Dict[str, Union[str, Dict[str, bool], int]]) 文档预处理子产线的输出结果。仅当use_doc_preprocessor=True时存在
+ input_path: (str) 文档预处理子接受的图像路径,当输入为numpy.ndarray时,保存为None,此处为Nonepage_index: None 此处的输入为numpy.ndarray时,所以值为Nonemodel_settings: (Dict[str, bool]) 文档预处理子的模型配置参数
+ use_doc_orientation_classify: (bool) 控制是否启用文档方向分类use_doc_unwarping: (bool) 控制是否启用文本图像扭曲矫正子模块angle: (int) 文档图像方向分类子模块的预测结果,启用时返回实际角度值parsing_res_list: (List[Dict]) 解析结果的列表,每个元素为一个字典,列表顺序为解析后的阅读顺序。block_bbox: (np.ndarray) 版面区域的边界框。block_label: (str) 版面区域的标签,例如text, table等block_content: (str) 内容为版面区域内的内容。block_id: (int) 版面区域的索引,用于显示版面排序结果。block_order: (int) 版面区域的顺序,用于显示版面阅读顺序,对于非排序部分,默认值为 None。save_to_img() 方法会将可视化结果保存到指定的save_path中,如果指定为目录,则会将版面区域检测可视化图像、全局OCR可视化图像、版面阅读顺序可视化图像等内容保存,如果指定为文件,则直接保存到该文件中。save_to_markdown() 方法会将转化后的 Markdown 文件保存到指定的save_path中,保存的文件路径为save_path/{your_img_basename}.md,如果输入是 PDF 文件,建议直接指定目录,否责多个 markdown 文件会被覆盖。json 属性获取的预测结果为dict类型的数据,相关内容与调用 save_to_json() 方法保存的内容一致。img 属性返回的预测结果是一个dict类型的数据。其中,键分别为 ocr_res_img 和 preprocessed_img,对应的值是两个 Image.Image 对象:一个用于显示 OCR 结果的可视化图像,另一个用于展示图像预处理的可视化图像。如果没有使用图像预处理子模块,则dict中只包含 ocr_res_img。