PDF内容提取神器-MinerU 私有部署


MinerU 私有部署及提供在线服务

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
主要功能:
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为LaTeX格式
- 自动识别并转换文档中的表格为LaTeX或HTML格式
- 自动检测扫描版PDF和乱码PDF,并启用OCR功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
- 支持CPU和GPU环境
- 兼容Windows、Linux和Mac平台

结合dify、大模型可以玩玩信息提取、稽核、分析等等场景。

业务稽核

废话不多说直接开搞!

通过docker构建镜像

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile
docker build -t mineru:latest .

拉起容器

docker run -it --name mineru -p 35000:5000 -v /data/apps/mineru:/app --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"

验证

magic-pdf --help

mineru 在线服务

安装依赖

pip install flask gunicorn werkzeug python-dotenv pdfplumber -i https://mirrors.aliyun.com/pypi/simple/ 

pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple

安装必备的命令

apt update
apt install vim curl psmisc -y

编写服务代码

https://115cdn.com/s/swwwp7q3wel?password=y698&#

启动服务

gunicorn -w 4 -b 0.0.0.0:5000 --timeout 600 pdf-server:app -D

关闭服务

pstree -ap |grep gunicorn
kill -TERM PID

测试方法

curl -X POST -F "file=@/data/1.pdf" -F "start_page=0" -F "end_page=1" http://localhost:5000/extract_pdf

文章作者: ghf
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ghf !
评论
 本篇
PDF内容提取神器-MinerU 私有部署 PDF内容提取神器-MinerU 私有部署
MinerU 私有部署及提供在线服务MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 主要功能: - 删除页眉、页脚、脚注、页码等元素,确保语义连贯 - 输出符合人类阅读顺序的
2025-05-21
下一篇 
ollama离线部署 ollama离线部署
离线安装ollama下载ollama安装包官网地址:https://ollama.com/download/linuxGitHub手动安装文档地址:https://github.com/ollama/ollama/blob/main/doc
2025-03-17