modify command usage document

a5e13b97 · xuchao · 1d2f55a3 · a5e13b97 · a5e13b97
Commit a5e13b97 authored Aug 01, 2024 by xuchao
Hide whitespace changes
Inline Side-by-side

Showing with 2 additions and 24 deletions

README_zh-CN_v2.md README_zh-CN_v2.md +2 -1

magicpdf.py magic_pdf/cli/magicpdf.py +0 -23

No files found.
--- a/README_zh-CN_v2.md
+++ b/README_zh-CN_v2.md
@@ -194,7 +194,7 @@ pip install magic-pdf[full]==0.6.2b1 detectron2 --extra-index-url https://wheels
 ```bash
 magic-pdf -p {some_pdf} -o {some_output_dir}
 ```
-
+其中 `{some_pdf}` 可以使单个pdf文件，也可以是一个包含多个pdf文件的目录。
 运行完命令后输出的结果会保存在`{some_output_dir}`目录下, 输出的文件列表如下

 ```text
@@ -262,6 +262,7 @@ TODO
 - 阅读顺序基于规则的分割，在一些情况下会乱序
 - 列表、代码块、目录在layout模型里还没有支持
 - 漫画书、艺术图册、小学教材、习题尚不能很好解析
+- 在一些公式密集的PDF上强制启用OCR效果会更好

 好消息是，这些我们正在努力实现！


--- a/magic_pdf/cli/magicpdf.py
+++ b/magic_pdf/cli/magicpdf.py
-"""
-这里实现2个click命令：
-第一个：
- 接收一个完整的s3路径，例如：s3://llm-pdf-text/pdf_ebook_and_paper/pre-clean-mm-markdown/v014/part-660420b490be-000008.jsonl?bytes=0,81350
-    1）根据~/magic-pdf.json里的ak,sk等，构造s3cliReader读取到这个jsonl的对应行，返回json对象。
-    2）根据Json对象里的pdf的s3路径获取到他的ak,sk,endpoint，构造出s3cliReader用来读取pdf
-    3）从magic-pdf.json里读取到本地保存图片、Md等的临时目录位置,构造出LocalImageWriter，用来保存截图
-    4）从magic-pdf.json里读取到本地保存图片、Md等的临时目录位置,构造出LocalIRdWriter，用来读写本地文件
-    
-    最后把以上步骤准备好的对象传入真正的解析API
-    
-第二个：
-  接收1）pdf的本地路径。2）模型json文件（可选）。然后：
-    1）根据~/magic-pdf.json读取到本地保存图片、md等临时目录的位置，构造出LocalImageWriter，用来保存截图
-    2）从magic-pdf.json里读取到本地保存图片、Md等的临时目录位置,构造出LocalIRdWriter，用来读写本地文件
-    3）根据约定，根据pdf本地路径，推导出pdf模型的json，并读入
-    
-
-效果：
-python magicpdf.py json-command --json  s3://llm-pdf-text/scihub/xxxx.json?bytes=0,81350
-python magicpdf.py pdf-command --pdf  /home/llm/Downloads/xxxx.pdf --model /home/llm/Downloads/xxxx.json  或者 python magicpdf.py --pdf  /home/llm/Downloads/xxxx.pdf
-"""
-
 import os
 import json as json_parse
 import click