fix(end_page_id):Fix the issue where end_page_id is corrected to len-1 when its input is 0. (#518)

068fab7f · Xiaomeng Zhao · GitHub · 83e0d55a · 068fab7f · 068fab7f
Unverified Commit 068fab7f authored Sep 02, 2024 by Xiaomeng Zhao Committed by GitHub Sep 02, 2024
Hide whitespace changes
Inline Side-by-side

Showing with 4 additions and 2 deletions

doc_analyze_by_custom_model.py magic_pdf/model/doc_analyze_by_custom_model.py +2 -1

pdf_parse_union_core.py magic_pdf/pdf_parse_union_core.py +2 -1

No files found.
--- a/magic_pdf/model/doc_analyze_by_custom_model.py
+++ b/magic_pdf/model/doc_analyze_by_custom_model.py
@@ -111,7 +111,8 @@ def doc_analyze(pdf_bytes: bytes, ocr: bool = False, show_log: bool = False,

    images = load_images_from_pdf(pdf_bytes)

-    end_page_id = end_page_id if end_page_id else len(images) - 1
+    # end_page_id = end_page_id if end_page_id else len(images) - 1
+    end_page_id = end_page_id if end_page_id is not None and end_page_id >= 0 else len(images) - 1

    if end_page_id > len(images) - 1:
        logger.warning("end_page_id is out of range, use images length")

--- a/magic_pdf/pdf_parse_union_core.py
+++ b/magic_pdf/pdf_parse_union_core.py
@@ -225,7 +225,8 @@ def pdf_parse_union(pdf_bytes,
    magic_model = MagicModel(model_list, pdf_docs)

    '''根据输入的起始范围解析pdf'''
-    end_page_id = end_page_id if end_page_id else len(pdf_docs) - 1
+    # end_page_id = end_page_id if end_page_id else len(pdf_docs) - 1
+    end_page_id = end_page_id if end_page_id is not None and end_page_id >= 0 else len(pdf_docs) - 1

    if end_page_id > len(pdf_docs) - 1:
        logger.warning("end_page_id is out of range, use pdf_docs length")