type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 
[中文] | [English]
 
Pix2Text (P2T)Mathpix 的开源免费替代工具,支持将图片转换成可编辑的文本表示,支持80多种语言。可识别 PDF 或图像中的复杂版面、表格、数学公式和文本,并将它们合并转换为 Markdown 格式。最近刚发布了新版 V1.1.1,带来了更好的数学公式检测模型(MFD)。
 
Pix2Text V1.1 于 2024 年 4月发布, 带来了完整的版面恢复能力,可以把扫描件的 PDF 直接转换成 Markdown 格式,借助外部工具(如 Pandoc)还可以把 Markdown 格式转换成 Word、Html 等其他格式。
 
而新发布的 Pix2Text V1.1.1 ,则带来了精度更高的数学公式检测(MFD)模型。
 
新模型在提升数学公式召回率的同时,降低了误检率。下面给出一些具体的指标。

V1.1.1 新版 MFD

V1.1.1 新版 MFD 包含了 3 个模型:
  • mfd:免费开源,下载地址为 breezedeus/pix2text-mfd (国内镜像)。只要把 pix2text Python 包更新到 >=1.1.1pip install pix2text>=1.1.1。使用时会自动下载新模型。新模型默认会存储在 ~/.pix2text/1.1/mfd-onnx 目录中。初始化时使用默认配置即可,使用接口与之前相同。
  • mfd-advanced:特供知识星球会员,星球会员可免费下载,具体见星球“精华”区。
  • mfd-pro:付费版模型。
 
以下是 3 个模型训练时在测试集上的各个指标(值越大越好)。各个指标都表明:mfd-pro > mfd-advanced > mfd
notion image
 

在线 Demo

在线 Demo 已适配到 V1.1.1,大家可以去这里尝试不同模型的效果。(网页版改版中,还没适配新版模型。
 
可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低,速度会较慢。
📌
如果无法科学上网,可以访问此地址:https://hf.qhduan.com/spaces/breezedeus/Pix2Text-Demo

新旧 MFD 模型对比

接下来在 mAP (mean Average Precision) 指标上对比下新旧 MFD 模型。下图中灰色对应之前 Pix2Text 版本最好的付费版 MFD 模型,其他颜色对应不同的新版 MFD 模型。可见新版模型相对于旧版获得了很大的提升。
📌
关于 mAP 的详细介绍,可以参考:深度学习-检测器的评价指标 mAP | YixiaoZhou's blog,写的很详细👍。
notion image
<ins/>

付费版模型购买

V1.1.1 兼容之前的MFR、CnOCR等模型,只有 MFD 是新模型,不兼容旧版模型。
 
购买链接和具体说明见:P2T详细资料 | Breezedeus.com
 

使用说明

📌
请安装 Pix2Text V1.1.1 及以上版本:pip install pix2text>=1.1.1
首先,请确保你用开源的模型跑通了 Pix2Text,否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论,或者加入群聊与我沟通,但请注意帮你跑通代码不在星主的服务范围之内(参考 星球说明)。
 
通过模型购买商店购买 企业 Pro 版 后,可以下载模型对应的 2 个压缩文件,其中以 p2t-mfd- 开头的文件为 MFD(数学公式检测)模型,以p2t-mfr- 开头的文件为 MFR(数学公式识别)模型。MFD 模型压缩文件解压后会看到一个名为 mfd-* 的文件夹,里面的文件即为模型文件,比如叫 mfd-pro-v20240618.onnx 。假定文件 p2t-mfr-20230702.pth 的路径为 abc/def/yolov7-model/p2t-mfr-20230702.pth。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-onnx 的文件夹,其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-onnx 的路径为 abc/def/mfr-pro-onnx
 
那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果的结构也是一样的。
 
如果购买的是 企业 Plus 版,可以下载的模型文件会更多,除了包含 MFD (pro)、MFR (plus & pro) 的各种模型的不同版本外,也会包含 CnOCR(文本 OCR)中的最新付费模型(ONNX 和 PyTorch 版本),它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。
📌
注意:CnOCR 的文本模型只支持英文简体中文,如果要识别其他语言的文本,请勿使用 CnOCR 模型。只需把上面代码中的 text 对应的配置去掉即可。
 
 
欢迎大家试用,提供反馈~。
<ins/>
别和 Scaling Laws 对抗Pix2Text V1.1 新版发布,支持 PDF 转 Markdown
Loading...