Commit 2a06e0c8 authored by xuchao's avatar xuchao

Make the documentation on how to download the model more concise

parent f052c75e
......@@ -16,7 +16,7 @@
<a href="https://trendshift.io/repositories/11174" target="_blank"><img src="https://trendshift.io/api/badge/repositories/11174" alt="opendatalab%2FMinerU | Trendshift" style="width: 250px; height: 55px;" width="250" height="55"/></a>
<!-- language -->
[English](README.md) | [简体中文](README_zh-CN.md) | [日本語](README_ja-JP.md)
[English](README.md) | [简体中文](README_zh-CN.md)
<!-- hot link -->
......@@ -305,7 +305,6 @@ TODO
- 漫画书、艺术图册、小学教材、习题尚不能很好解析
- 在一些公式密集的PDF上强制启用OCR效果会更好
- 如果您要处理包含大量公式的pdf,强烈建议开启OCR功能。使用pymuPDF提取文字的时候会出现文本行互相重叠的情况导致公式插入位置不准确。
-
好消息是,这些我们正在努力实现!
......
......@@ -2,38 +2,35 @@
模型文件可以从Hugging Face 或 Model Scope 下载,由于网络原因,国内用户访问HF 可能会失败,请使用 ModelScope。
[Hugging Face](#从-Hugging-Face-下载模型)
[ModelScope](#从-ModelScope-下载模型)
## 从 Hugging Face 下载模型
### 1.安装 Git LFS
开始之前,请确保您的系统上已安装 Git 大文件存储 (Git LFS)。使用以下命令进行安装
```bash
git lfs install
```
## 方法一:从 Hugging Face 下载模型
### 2.从 Hugging Face 下载模型
请使用以下命令从 Hugging Face 下载 PDF-Extract-Kit 模型:
使用Git LFS 从Hugging Face下载模型文件
```bash
git lfs clone https://huggingface.co/wanderkid/PDF-Extract-Kit
git lfs install # 安装 Git 大文件存储插件 (Git LFS)
git lfs clone https://huggingface.co/wanderkid/PDF-Extract-Kit # 从 Hugging Face 下载 PDF-Extract-Kit 模型
```
确保在克隆过程中启用了 Git LFS,以便正确下载所有大文件。
## 方法二:从 ModelScope 下载模型
ModelScope 支持SDK或模型下载,任选一个即可。
## 从 ModelScope 下载模型
ModelScope 支持SDK或模型下载
[Git lsf下载](#git下载)
[SDK下载](#sdk下载)
[Git下载](#git下载)
### 1)利用Git lsf下载
```bash
git lfs install
git lfs clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
```
### SDK下载
### 2)利用SDK下载
```bash
# 首先安装modelscope
......@@ -46,35 +43,18 @@ from modelscope import snapshot_download
model_dir = snapshot_download('wanderkid/PDF-Extract-Kit')
```
### Git下载
也可以使用git clone从 ModelScope 下载模型:
#### 1.安装 Git LFS
开始之前,请确保您的系统上已安装 Git 大文件存储 (Git LFS)。使用以下命令进行安装
```bash
git lfs install
```
#### 2.然后通过git lfs下载模型
```bash
git lfs clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
```
## 额外步骤
### 1.检查模型目录是否下载完整
模型文件夹的结构如下,包含了不同组件的配置文件和权重文件:
```
./
├── Layout
├── Layout # 布局检测模型
│ ├── config.json
│ └── model_final.pth
├── MFD
├── MFD # 公式检测
│ └── weights.pt
├── MFR
├── MFR # 公式识别模型
│ └── UniMERNet
│ ├── config.json
│ ├── preprocessor_config.json
......@@ -82,7 +62,7 @@ git lfs clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
│ ├── README.md
│ ├── tokenizer_config.json
│ └── tokenizer.json
│── TabRec
│── TabRec # 表格识别模型
│ └─StructEqTable
│ ├── config.json
│ ├── generation_config.json
......@@ -100,3 +80,4 @@ git lfs clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
### 3.移动模型到固态硬盘
将 'models' 目录移动到具有较大磁盘空间的目录中,最好是在固态硬盘(SSD)上。
此外在 `~/magic-pdf.json`里修改模型的目录指向最终的模型存放位置,否则会报模型无法加载的错误。
This diff is collapsed.
Markdown is supported
0% or
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment