Skip to content

Commit ba9dd27

Browse files
authored
模块列表修改 (#17080)
* 模块列表修改 * Update doc_vlm.md * Update table_classification.md * Update table_structure_recognition.md * Update seal_text_detection.md
1 parent d663fec commit ba9dd27

13 files changed

+533
-282
lines changed

docs/version3.x/module_usage/chart_parsing.md

Lines changed: 21 additions & 12 deletions
Original file line numberDiff line numberDiff line change
@@ -65,10 +65,10 @@ for res in results:
6565
```
6666

6767
运行结果参数含义如下:
68-
69-
- `image`: 表示输入待预测图像的路径
70-
- `result`: 模型预测的结果信息
71-
68+
<ul>
69+
<li><code>image</code>: 表示输入待预测图像的路径</li>
70+
<li><code>result</code>: 模型预测的结果信息</li>
71+
</ul>
7272
预测结果打印可视化如下:
7373

7474
```bash
@@ -83,7 +83,7 @@ for res in results:
8383

8484
相关方法、参数等说明如下:
8585

86-
* `ChartParsing`实例化文档类视觉语言模型,具体说明如下:
86+
* <code>ChartParsing</code>实例化文档类视觉语言模型,具体说明如下:
8787
<table>
8888
<thead>
8989
<tr>
@@ -96,19 +96,22 @@ for res in results:
9696
<tbody>
9797
<tr>
9898
<td><code>model_name</code></td>
99-
<td>>模型名称。如果设置为<code>None</code>,则使用<code>PP-Chart2Table</code>。</td>
99+
<td><b>含义:</b>模型名称。<br/>
100+
<b>说明:</b>
101+
如果设置为<code>None</code>,则使用<code>PP-Chart2Table</code>。</td>
100102
<td><code>str|None</code></td>
101103
<td><code>None</code></td>
102104
</tr>
103105
<tr>
104106
<td><code>model_dir</code></td>
105-
<td>模型存储路径。</td>
107+
<td><b>含义:</b>模型存储路径。</td>
106108
<td><code>str|None</code></td>
107109
<td><code>None</code></td>
108110
</tr>
109111
<tr>
110112
<td><code>device</code></td>
111-
<td>用于推理的设备。<br/>
113+
<td><b>含义:</b>用于推理的设备。<br/>
114+
<b>说明:</b>
112115
<b>例如:</b><code>"cpu"</code>、<code>"gpu"</code>、<code>"npu"</code>、<code>"gpu:0"</code></code>。
113116
默认情况下,优先使用 GPU 0;若不可用则使用 CPU。
114117
</td>
@@ -118,7 +121,7 @@ for res in results:
118121
</tbody>
119122
</table>
120123

121-
* 调用图表解析模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input``batch_size`,具体说明如下:
124+
* 调用图表解析模型的 <code>predict()</code> 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 <code>predict_iter()</code> 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 <code>predict_iter()</code> 返回的是一个 <code>generator</code>,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。<code>predict()</code> 方法参数有 <code>input</code><code>batch_size</code>,具体说明如下:
122125

123126
<table>
124127
<thead>
@@ -131,21 +134,27 @@ for res in results:
131134
</thead>
132135
<tr>
133136
<td><code>input</code></td>
134-
<td>待预测数据,必填。由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
137+
<td><b>含义:</b>待预测数据,必填。<br/>
138+
<b>说明:</b>
139+
由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
140+
<ul>
135141
<li>PP-Chart2Table的输入形式为<code>{'image': image_path}</code></li>
142+
</ul>
136143
</td>
137144
<td><code>dict</code></td>
138145
<td>无</td>
139146
</tr>
140147
<tr>
141148
<td><code>batch_size</code></td>
142-
<td>批大小,可设置为任意正整数。</td>
149+
<td><b>含义:</b>批大小<br/>
150+
<b>说明:</b>
151+
可设置为任意正整数。</td>
143152
<td><code>int</code></td>
144153
<td>1</td>
145154
</tr>
146155
</table>
147156

148-
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为`json`文件的操作:
157+
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为<code>json</code>文件的操作:
149158

150159
<table>
151160
<thead>

docs/version3.x/module_usage/doc_img_orientation_classification.md

Lines changed: 35 additions & 19 deletions
Original file line numberDiff line numberDiff line change
@@ -116,18 +116,20 @@ for res in output:
116116
```
117117

118118
运行结果参数含义如下:
119-
- `input_path`:表示输入图片的路径。
120-
- `class_ids`:表示预测结果的类别id,含有四个类别,即0度,90度,180度和270度。
121-
- `scores`:表示预测结果的置信度。
122-
- `label_names`:表示预测结果的类别名。
119+
<ul>
120+
<li><code>input_path</code>:表示输入图片的路径。</li>
121+
<li><code>class_ids</code>:表示预测结果的类别id,含有四个类别,即0度,90度,180度和270度。</li>
122+
<li><code>scores</code>:表示预测结果的置信度。</li>
123+
<li><code>label_names</code>:表示预测结果的类别名。</li>
124+
</ul>
123125

124126
可视化图片如下:
125127

126128
<img src="https://raw.githubusercontent.com/cuicheng01/PaddleX_doc_images/refs/heads/main/images/modules/doc_img_ori_classification/img_rot180_demo_res.jpg">
127129

128130
相关方法、参数等说明如下:
129131

130-
* `DocImgOrientationClassification`实例化文档图像方向分类模型(此处以`PP-LCNet_x1_0_doc_ori`为例),具体说明如下:
132+
* <code>DocImgOrientationClassification</code>实例化文档图像方向分类模型(此处以<code>PP-LCNet_x1_0_doc_ori</code>为例),具体说明如下:
131133
<table>
132134
<thead>
133135
<tr>
@@ -140,19 +142,22 @@ for res in output:
140142
<tbody>
141143
<tr>
142144
<td><code>model_name</code></td>
143-
<td>模型名称。如果设置为<code>None</code>,则使用<code>PP-LCNet_x1_0_doc_ori</code>。</td>
145+
<td><b>含义:</b>模型名称。<br/>
146+
<b>说明:</b>
147+
如果设置为<code>None</code>,则使用<code>PP-LCNet_x1_0_doc_ori</code>。</td>
144148
<td><code>str|None</code></td>
145149
<td><code>None</code></td>
146150
</tr>
147151
<tr>
148152
<td><code>model_dir</code></td>
149-
<td>模型存储路径。</td>
153+
<td><b>含义:</b>模型存储路径。</td>
150154
<td><code>str|None</code></td>
151155
<td><code>None</code></td>
152156
</tr>
153157
<tr>
154158
<td><code>device</code></td>
155-
<td>用于推理的设备。<br/>
159+
<td><b>含义:</b>用于推理的设备。<br/>
160+
<b>说明:</b>
156161
<b>例如:</b><code>"cpu"</code>、<code>"gpu"</code>、<code>"npu"</code>、<code>"gpu:0"</code>、<code>"gpu:0,1"</code>。<br/>
157162
如指定多个设备,将进行并行推理。<br/>
158163
默认情况下,优先使用 GPU 0;若不可用则使用 CPU。
@@ -162,13 +167,15 @@ for res in output:
162167
</tr>
163168
<tr>
164169
<td><code>enable_hpi</code></td>
165-
<td>是否启用高性能推理。</td>
170+
<td><b>含义:</b>是否启用高性能推理。</td>
166171
<td><code>bool</code></td>
167172
<td><code>False</code></td>
168173
</tr>
169174
<tr>
170175
<td><code>use_tensorrt</code></td>
171-
<td>是否启用 Paddle Inference 的 TensorRT 子图引擎。如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。<br/>
176+
<td><b>含义:</b>是否启用 Paddle Inference 的 TensorRT 子图引擎。<br/>
177+
<b>说明:</b>
178+
如果模型不支持通过 TensorRT 加速,即使设置了此标志,也不会使用加速。<br/>
172179
对于 CUDA 11.8 版本的飞桨,兼容的 TensorRT 版本为 8.x(x>=6),建议安装 TensorRT 8.6.1.6。<br/>
173180

174181
</td>
@@ -177,36 +184,40 @@ for res in output:
177184
</tr>
178185
<tr>
179186
<td><code>precision</code></td>
180-
<td>当使用 Paddle Inference 的 TensorRT 子图引擎时设置的计算精度。<br/><b>可选项:</b><code>"fp32"</code>、<code>"fp16"</code>。</td>
187+
<td><b>含义:</b>当使用 Paddle Inference 的 TensorRT 子图引擎时设置的计算精度。<br/>
188+
<b>说明:</b>
189+
<b>例如:</b><code>"fp32"</code>、<code>"fp16"</code>。</td>
181190
<td><code>str</code></td>
182191
<td><code>"fp32"</code></td>
183192
</tr>
184193
<tr>
185194
<td><code>enable_mkldnn</code></td>
186195
<td>
187-
是否启用 MKL-DNN 加速推理。如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。<br/>
196+
<b>含义:</b>是否启用 MKL-DNN 加速推理。<br/>
197+
<b>说明:</b>
198+
如果 MKL-DNN 不可用或模型不支持通过 MKL-DNN 加速,即使设置了此标志,也不会使用加速。<br/>
188199
</td>
189200
<td><code>bool</code></td>
190201
<td><code>True</code></td>
191202
</tr>
192203
<tr>
193204
<td><code>mkldnn_cache_capacity</code></td>
194205
<td>
195-
MKL-DNN 缓存容量。
206+
<b>含义:</b>MKL-DNN 缓存容量。
196207
</td>
197208
<td><code>int</code></td>
198209
<td><code>10</code></td>
199210
</tr>
200211
<tr>
201212
<td><code>cpu_threads</code></td>
202-
<td>在 CPU 上推理时使用的线程数量。</td>
213+
<td><b>含义:</b>在 CPU 上推理时使用的线程数量。</td>
203214
<td><code>int|None</code></td>
204215
<td><code>10</code></td>
205216
</tr>
206217
</tbody>
207218
</table>
208219

209-
* 调用文档图像方向分类模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input``batch_size`,具体说明如下:
220+
* 调用文档图像方向分类模型的 <code>predict()</code> 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 <code>predict_iter()</code> 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 <code>predict_iter()</code> 返回的是一个 <code>generator</code>,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。<code>predict()</code> 方法参数有 <code>input</code><code>batch_size</code>,具体说明如下:
210221

211222
<table>
212223
<thead>
@@ -219,10 +230,13 @@ MKL-DNN 缓存容量。
219230
</thead>
220231
<tr>
221232
<td><code>input</code></td>
222-
<td>待预测数据,支持多种输入类型,必填。
233+
<td><b>含义:</b>待预测数据,支持多种输入类型,必填。<br/>
234+
<b>说明:</b>
223235
<ul>
224236
<li><b>Python Var</b>:如 <code>numpy.ndarray</code> 表示的图像数据</li>
225-
<li><b>str</b>:如图像文件或者PDF文件的本地路径:<code>/root/data/img.jpg</code>;<b>如URL链接</b>,如图像文件或PDF文件的网络URL:<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg">示例</a>;<b>如本地目录</b>,该目录下需包含待预测图像,如本地路径:<code>/root/data/</code>(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)</li>
237+
<li><b>str</b>:如图像文件或者PDF文件的本地路径:<code>/root/data/img.jpg</code>;
238+
<b>如URL链接</b>,如图像文件或PDF文件的网络URL:<a href="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/img_rot180_demo.jpg">示例</a>;
239+
<b>如本地目录</b>,该目录下需包含待预测图像,如本地路径:<code>/root/data/</code>(当前不支持目录中包含PDF文件的预测,PDF文件需要指定到具体文件路径)</li>
226240
<li><b>list</b>:列表元素需为上述类型数据,如<code>[numpy.ndarray, numpy.ndarray]</code>,<code>["/root/data/img1.jpg", "/root/data/img2.jpg"]</code>,<code>["/root/data1", "/root/data2"]</code></li>
227241
</ul>
228242
</td>
@@ -231,13 +245,15 @@ MKL-DNN 缓存容量。
231245
</tr>
232246
<tr>
233247
<td><code>batch_size</code></td>
234-
<td>批大小,可设置为任意正整数。</td>
248+
<td><b>含义:</b>批大小。<br/>
249+
<b>说明:</b>
250+
可设置为任意正整数。</td>
235251
<td><code>int</code></td>
236252
<td>1</td>
237253
</tr>
238254
</table>
239255

240-
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为图片、保存为`json`文件的操作:
256+
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为图片、保存为<code>json</code>文件的操作:
241257

242258
<table>
243259
<thead>

docs/version3.x/module_usage/doc_vlm.md

Lines changed: 21 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -74,9 +74,12 @@ for res in results:
7474
{'res': {'image': 'medal_table.png', 'query': '识别这份表格的内容, 以markdown格式输出', 'result': '| 名次 | 国家/地区 | 金牌 | 银牌 | 铜牌 | 奖牌总数 |\n| --- | --- | --- | --- | --- | --- |\n| 1 | 中国(CHN) | 48 | 22 | 30 | 100 |\n| 2 | 美国(USA) | 36 | 39 | 37 | 112 |\n| 3 | 俄罗斯(RUS) | 24 | 13 | 23 | 60 |\n| 4 | 英国(GBR) | 19 | 13 | 19 | 51 |\n| 5 | 德国(GER) | 16 | 11 | 14 | 41 |\n| 6 | 澳大利亚(AUS) | 14 | 15 | 17 | 46 |\n| 7 | 韩国(KOR) | 13 | 11 | 8 | 32 |\n| 8 | 日本(JPN) | 9 | 8 | 8 | 25 |\n| 9 | 意大利(ITA) | 8 | 9 | 10 | 27 |\n| 10 | 法国(FRA) | 7 | 16 | 20 | 43 |\n| 11 | 荷兰(NED) | 7 | 5 | 4 | 16 |\n| 12 | 乌克兰(UKR) | 7 | 4 | 11 | 22 |\n| 13 | 肯尼亚(KEN) | 6 | 4 | 6 | 16 |\n| 14 | 西班牙(ESP) | 5 | 11 | 3 | 19 |\n| 15 | 牙买加(JAM) | 5 | 4 | 2 | 11 |\n'}}
7575
```
7676
运行结果参数含义如下:
77-
- `image`: 表示输入待预测图像的路径
78-
- `query`: 表述输入待预测的文本信息
79-
- `result`: 模型预测的结果信息
77+
<ul>
78+
<li><b>image</b>: 表示输入待预测图像的路径</li>
79+
<li><b>query</b>: 表述输入待预测的文本信息</li>
80+
<li><b>result</b>: 模型预测的结果信息</li>
81+
</ul>
82+
8083

8184
预测结果打印可视化如下:
8285

@@ -103,7 +106,7 @@ for res in results:
103106

104107
相关方法、参数等说明如下:
105108

106-
* `DocVLM`实例化文档类视觉语言模型(此处以`PP-DocBee-2B`为例),具体说明如下:
109+
* <code>DocVLM</code>实例化文档类视觉语言模型(此处以<code>PP-DocBee-2B</code>为例),具体说明如下:
107110
<table>
108111
<thead>
109112
<tr>
@@ -116,19 +119,22 @@ for res in results:
116119
<tbody>
117120
<tr>
118121
<td><code>model_name</code></td>
119-
<td>>模型名称。如果设置为<code>None</code>,则使用<code>PP-DocBee-2B</code>。</td>
122+
<td><b>含义:</b>模型名称。<br/>
123+
<b>说明:</b>
124+
如果设置为<code>None</code>,则使用<code>PP-DocBee-2B</code>。</td>
120125
<td><code>str|None</code></td>
121126
<td><code>None</code></td>
122127
</tr>
123128
<tr>
124129
<td><code>model_dir</code></td>
125-
<td>模型存储路径。</td>
130+
<td><b>含义:</b>模型存储路径。</td>
126131
<td><code>str|None</code></td>
127132
<td><code>None</code></td>
128133
</tr>
129134
<tr>
130135
<td><code>device</code></td>
131-
<td>用于推理的设备。<br/>
136+
<td><b>含义:</b>用于推理的设备。<br/>
137+
<b>说明:</b>
132138
<b>例如:</b><code>"cpu"</code>、<code>"gpu"</code>、<code>"npu"</code>、<code>"gpu:0"</code></code>。
133139
默认情况下,优先使用 GPU 0;若不可用则使用 CPU。
134140
</td>
@@ -138,7 +144,7 @@ for res in results:
138144
</tbody>
139145
</table>
140146

141-
* 调用文档类视觉语言模型的 `predict()` 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 `predict_iter()` 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 `predict_iter()` 返回的是一个 `generator`,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。`predict()` 方法参数有 `input``batch_size`,具体说明如下:
147+
* 调用文档类视觉语言模型的 <code>predict()</code> 方法进行推理预测,该方法会返回一个结果列表。另外,本模块还提供了 <code>predict_iter()</code> 方法。两者在参数接受和结果返回方面是完全一致的,区别在于 <code>predict_iter()</code> 返回的是一个 <code>generator</code>,能够逐步处理和获取预测结果,适合处理大型数据集或希望节省内存的场景。可以根据实际需求选择使用这两种方法中的任意一种。<code>predict()</code> 方法参数有 <code>input</code> 和 <code>batch_size</code>,具体说明如下:
142148

143149
<table>
144150
<thead>
@@ -151,21 +157,25 @@ for res in results:
151157
</thead>
152158
<tr>
153159
<td><code>input</code></td>
154-
<td>待预测数据,必填。由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
160+
<td><b>含义:</b>待预测数据,必填。<br/>
161+
<b>说明:</b>
162+
由于多模态模型对输入要求不同,请根据具体模型设定输入格式。<br/>
155163
例如:对于 PP-DocBee 系列模型,输入形式应为:<code>{'image': image_path, 'query': query_text}</code>
156164
</td>
157165
<td><code>dict</code></td>
158166
<td>无</td>
159167
</tr>
160168
<tr>
161169
<td><code>batch_size</code></td>
162-
<td>批大小,可设置为任意正整数。</td>
170+
<td><b>含义:</b>批大小。<br/>
171+
<b>说明:</b>
172+
可设置为任意正整数。</td>
163173
<td><code>int</code></td>
164174
<td>1</td>
165175
</tr>
166176
</table>
167177

168-
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为`json`文件的操作:
178+
* 对预测结果进行处理,每个样本的预测结果均为对应的Result对象,且支持打印、保存为<code>json</code>文件的操作:
169179

170180
<table>
171181
<thead>

0 commit comments

Comments
 (0)