ocr pipeline更新

17b09f71 · 赵小蒙 · 864e9535 · 17b09f71
Commit 17b09f71 authored Mar 08, 2024 by 赵小蒙
Show whitespace changes
Inline Side-by-side

Showing with 7 additions and 1 deletion

pdf_parse_by_ocr.py magic_pdf/pdf_parse_by_ocr.py +7 -1

No files found.
--- a/magic_pdf/pdf_parse_by_ocr.py
+++ b/magic_pdf/pdf_parse_by_ocr.py
@@ -148,7 +148,13 @@ def parse_pdf_by_ocr(
        # 删除remove_span_block_bboxes中的bbox
        spans = remove_spans_by_bboxes(spans, need_remove_spans_bboxes)
-        # 对tpye=["displayed_equation", "image", "table"]进行额外处理,如果左边有字的话,将该span的bbox中y0调整低于文字的y0
+        # 行内公式调整, 高度调整至与同行文字高度一致(优先左侧, 其次右侧)
+        # 模型识别错误的行间公式, type类型转换成行内公式
+        # bbox去除粘连
+        # 对tpye=["displayed_equation", "image", "table"]进行额外处理,如果左边有字的话,将该span的bbox中y0调整至不高于文字的y0
        # 从ocr_page_info中解析layout信息(按自然阅读方向排序,并修复重叠和交错的bad case)
        layout_bboxes = layout_detect(ocr_page_info['subfield_dets'], page, ocr_page_info)