MinerU 私有部署及提供在线服务
MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
主要功能:
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为LaTeX格式
- 自动识别并转换文档中的表格为LaTeX或HTML格式
- 自动检测扫描版PDF和乱码PDF,并启用OCR功能
- OCR支持84种语言的检测与识别
- 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
- 支持CPU和GPU环境
- 兼容Windows、Linux和Mac平台
结合dify、大模型可以玩玩信息提取、稽核、分析等等场景。
废话不多说直接开搞!
通过docker构建镜像
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile
docker build -t mineru:latest .
拉起容器
docker run -it --name mineru -p 35000:5000 -v /data/apps/mineru:/app --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"
验证
magic-pdf --help
mineru 在线服务
安装依赖
pip install flask gunicorn werkzeug python-dotenv pdfplumber -i https://mirrors.aliyun.com/pypi/simple/
pip install -U "magic-pdf[full]" -i https://mirrors.aliyun.com/pypi/simple
安装必备的命令
apt update
apt install vim curl psmisc -y
编写服务代码
https://115cdn.com/s/swwwp7q3wel?password=y698&#
启动服务
gunicorn -w 4 -b 0.0.0.0:5000 --timeout 600 pdf-server:app -D
关闭服务
pstree -ap |grep gunicorn
kill -TERM PID
测试方法
curl -X POST -F "file=@/data/1.pdf" -F "start_page=0" -F "end_page=1" http://localhost:5000/extract_pdf