Commit 2154e7b9 authored by 赵小蒙's avatar 赵小蒙

update readme

parent 6f945f17
......@@ -15,6 +15,13 @@
</div>
# MinerU
MinerU 是一款一站式开源数据提取工具,主要包含以下功能:
- PDF文档提取 (Magic-PDF)
- 网页与电子书提取 (Magic-Doc)
# Magic-PDF
## 简介
......@@ -49,7 +56,9 @@ https://github.com/magicpdf/Magic-PDF/assets/11393164/618937cb-dc6a-4646-b433-e3
### 子模块仓库
- [pdf-extract-kit](https://github.com/wangbinDL/pdf-extract-kit)
- [Miner-PDF-Benchmark](https://github.com/opendatalab/Miner-PDF-Benchmark)
- [Miner-PDF-Benchmark](https://github.com/opendatalab/Miner-PDF-Benchmark)
端到端的PDF文档理解评估套件,专为大规模模型数据场景而设计。
## 上手指南
......@@ -105,6 +114,27 @@ md_content = pipe.pipe_mk_markdown(image_dir, drop_mode="none")
详细实现可参考 [demo.py](demo/demo.py)
# Magic-Doc
Magic-Doc 是一款支持将网页或多格式电子书转换为 markdown 格式的工具。
主要功能包含
- Web网页提取
- 跨模态精准解析图文、表格、公式信息
- 电子书文献提取
- 支持 epub,mobi等多格式文献,文本图片全适配
- 语言类型鉴定
- 支持176种语言的准确识别
## 项目仓库
- [Magic-Doc](https://github.com/magicpdf/Magic-Doc)
## 版权说明
[LICENSE.md](LICENSE.md)
......
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment