Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型

type

status

date

slug

summary

category

icon

password

URL

Rating

[中文] | [English]

📖 在线文档 | 🛠️ 安装 | 🖥️ 网页版 | 🛀🏻 在线Demo | 💬 交流群

目录：

V1.1.1 新版 MFD 在线 Demo 新旧 MFD 模型对比付费版模型购买使用说明

Pix2Text (P2T) 是 Mathpix 的开源免费替代工具，支持将图片转换成可编辑的文本表示，支持80多种语言。可识别 PDF 或图像中的复杂版面、表格、数学公式和文本，并将它们合并转换为 Markdown 格式。最近刚发布了新版 V1.1.1，带来了更好的数学公式检测模型（MFD）。

Pix2Text V1.1 于 2024 年 4月发布，带来了完整的版面恢复能力，可以把扫描件的 PDF 直接转换成 Markdown 格式，借助外部工具（如 Pandoc）还可以把 Markdown 格式转换成 Word、Html 等其他格式。

📌

V1.1 具体说明：Pix2Text V1.1 新版发布，支持 PDF 转 Markdown 。

而新发布的 Pix2Text V1.1.1 ，则带来了精度更高的数学公式检测（MFD）模型。

新的数学公式检测模型（MFD）：ONNX → breezedeus/pix2text-mfd (国内镜像)；CoreML → breezedeus/pix2text-mfd-coreml (国内镜像)。

新模型在提升数学公式召回率的同时，降低了误检率。下面给出一些具体的指标。

V1.1.1 新版 MFD

V1.1.1 新版 MFD 包含了 3 个模型：

mfd：免费开源，下载地址为 breezedeus/pix2text-mfd (国内镜像)。只要把 pix2text Python 包更新到 >=1.1.1 ：pip install pix2text>=1.1.1。使用时会自动下载新模型。新模型默认会存储在 ~/.pix2text/1.1/mfd-onnx 目录中。初始化时使用默认配置即可，使用接口与之前相同。

mfd-advanced：特供知识星球会员，星球会员可免费下载，具体见星球“精华”区。

mfd-pro：付费版模型。

以下是 3 个模型训练时在测试集上的各个指标（值越大越好）。各个指标都表明：mfd-pro > mfd-advanced > mfd。

在线 Demo

在线 Demo 已适配到 V1.1.1，大家可以去这里尝试不同模型的效果。（网页版改版中，还没适配新版模型。）

Pix2Text - a Hugging Face Space by breezedeus

Discover amazing ML apps made by the community

https://huggingface.co/spaces/breezedeus/Pix2Text-Demo

可以使用此 在线 Demo 尝试 P2T 在不同语言上的效果。但在线 Demo 使用的硬件配置较低，速度会较慢。

📌

如果无法科学上网，可以访问此地址：https://hf.qhduan.com/spaces/breezedeus/Pix2Text-Demo。

新旧 MFD 模型对比

接下来在 mAP (mean Average Precision) 指标上对比下新旧 MFD 模型。下图中灰色对应之前 Pix2Text 版本最好的付费版 MFD 模型，其他颜色对应不同的新版 MFD 模型。可见新版模型相对于旧版获得了很大的提升。

📌

关于 mAP 的详细介绍，可以参考：深度学习-检测器的评价指标 mAP | YixiaoZhou's blog，写的很详细👍。

<ins/>

付费版模型购买

V1.1.1 兼容之前的MFR、CnOCR等模型，只有 MFD 是新模型，不兼容旧版模型。

购买链接和具体说明见：P2T详细资料 | Breezedeus.com 。

使用说明

📌

请安装 Pix2Text V1.1.1 及以上版本：pip install pix2text>=1.1.1 。

首先，请确保你用开源的模型跑通了 Pix2Text，否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论，或者加入群聊与我沟通，但请注意帮你跑通代码不在星主的服务范围之内（参考星球说明）。

通过模型购买商店购买 企业 Pro 版 后，可以下载模型对应的 2 个压缩文件，其中以 p2t-mfd- 开头的文件为 MFD（数学公式检测）模型，以p2t-mfr- 开头的文件为 MFR（数学公式识别）模型。MFD 模型压缩文件解压后会看到一个名为 mfd-* 的文件夹，里面的文件即为模型文件，比如叫 mfd-pro-v20240618.onnx 。假定文件 p2t-mfr-20230702.pth 的路径为 abc/def/yolov7-model/p2t-mfr-20230702.pth。MFR 模型压缩文件解压后会看到一个名为 mfr-pro-onnx 的文件夹，其中包含模型文件以及相关的配置文件。假定文件夹 mfr-pro-onnx 的路径为 abc/def/mfr-pro-onnx。

那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样，检测和识别结果的结构也是一样的。

如果购买的是 企业 Plus 版，可以下载的模型文件会更多，除了包含 MFD (pro)、MFR (plus & pro) 的各种模型的不同版本外，也会包含 CnOCR（文本 OCR）中的最新付费模型（ONNX 和 PyTorch 版本），它对中英文文本的识别效果比免费模型更好。可以使用如下方式传入对应的模型。

📌

注意：CnOCR 的文本模型只支持英文和简体中文，如果要识别其他语言的文本，请勿使用 CnOCR 模型。只需把上面代码中的 text 对应的配置去掉即可。

欢迎大家试用，提供反馈～。

<ins/>