type
status
date
slug
summary
tags
category
icon
password
URL
Rating
6月份我花了很多精力优化 Pix2Text (P2T) 。先是训练了新的公式检测(MFD)模型,然后接着是训练新的公式识别(MFR)模型。之前用的识别模型一直是 Latex-OCR 提供的,可惜这个项目基本不更新了,模型也从来没更新过。这两周我优化了它的训练过程,并以四五倍的数据重新训练了识别模型。新模型(
version-20230702
)对手写和多行公式图片,效果提升还是蛮明显的,对一般的单行图片识别率也有了不错的提升。新模型已部署到 P2T网页版,欢迎免费使用。新公式识别模型 version-20230702
因为使用了不同的训练和测试数据,所以没法在Latex-OCR原始的测试数据上对比效果。但可以在我的测试数据上看到两个模型的大致效果对比。下图是新模型(
version-20230702
)训练时在测试集上的效果,其中 val/bleu
和 val/token_acc
都是越大越好,而 val/edit_distance
则是越小越好。新模型的训练是以Latex-OCR开源模型为初始值的,所以初始位置的效果基本就是Latex-OCR开源模型在此测试集上的效果。此测试集中包含了一些手写和多行公式的图片,所以Latex-OCR开源模型的效果不是很好。
从下图中可见,通过训练后,新模型(
version-20230702
)相较于Latex-OCR开源模型在三个指标上都有了比较大的改善。另外,新模型对手写公式和多行公式类的图片,识别精度有显著提升。提升的主要原因是训练过程加入了很多相关的数据。
新旧模型示例对比
下图展示了新旧模型在一些示例图片上的效果对比。最左列为待识别的原始图片,中间列为旧模型效果(Latex-OCR开源模型),最右列为新模型效果(
version-20230702
)。旧模型的识别结果中存在格式错误(
渲染失败
)的概率还挺高的,这个问题在新模型上也好了很多。模型购买
购买链接
链接如下,更多说明见 这里。
识别模型版本 | 企业购买 | 个人购买 | 对星球会员 | 免费可下载 |
Latex-OCR开源模型 | ✖️ | ✖️ | ✔️ | ✔️ |
version-20230702 | ✔️ 八折 | ✖️ |
使用说明
通过前面的购买链接下载模型文件,解压后会看到一个名为
p2t-mfr-model
的文件夹,里面的文件即为模型文件,比如叫 p2t-mfr-20230702.pth
。假如文件 p2t-mfr-20230702.pth
的路径为 abc/def/p2t-mfr-model/p2t-mfr-20230702.pth
,那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果也没有差别。如果既要设定检测模型的路径,又要设定识别模型的路径,可以使用如下方式:
<ins/>
- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/p2t-mfd-20230702
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章