type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 
6月份我花了很多精力优化 Pix2Text (P2T) 。先是训练了新的公式检测(MFD)模型,然后接着是训练新的公式识别(MFR)模型。之前用的识别模型一直是 Latex-OCR 提供的,可惜这个项目基本不更新了,模型也从来没更新过。这两周我优化了它的训练过程,并以四五倍的数据重新训练了识别模型新模型version-20230702)对手写和多行公式图片,效果提升还是蛮明显的,对一般的单行图片识别率也有了不错的提升。新模型已部署到 P2T网页版,欢迎免费使用。
 

新公式识别模型 version-20230702

因为使用了不同的训练和测试数据,所以没法在Latex-OCR原始的测试数据上对比效果。但可以在我的测试数据上看到两个模型的大致效果对比。下图是新模型version-20230702)训练时在测试集上的效果,其中 val/bleuval/token_acc 都是越大越好,而 val/edit_distance 则是越小越好。
新模型的训练是以Latex-OCR开源模型为初始值的,所以初始位置的效果基本就是Latex-OCR开源模型在此测试集上的效果。此测试集中包含了一些手写和多行公式的图片,所以Latex-OCR开源模型的效果不是很好。
从下图中可见,通过训练后,新模型(version-20230702)相较于Latex-OCR开源模型在三个指标上都有了比较大的改善。
 
notion image
 
另外,新模型对手写公式多行公式类的图片,识别精度有显著提升。提升的主要原因是训练过程加入了很多相关的数据。
 

新旧模型示例对比

下图展示了新旧模型在一些示例图片上的效果对比。最左列为待识别的原始图片,中间列为旧模型效果(Latex-OCR开源模型),最右列为新模型效果(version-20230702)。
📌
旧模型的识别结果中存在格式错误渲染失败)的概率还挺高的,这个问题在新模型上也好了很多。
notion image
 

模型购买

购买链接

链接如下,更多说明见 这里
识别模型版本
企业购买
个人购买
对星球会员
免费可下载
Latex-OCR开源模型
✖️
✖️
✔️
✔️
version-20230702
✔️ 八折
✖️
 
为感谢星球会员的支持,星球会员购买所有的个人版模型一律八折。通过下面表格中的链接购买并确认收货后,加小助手为好友,小助手会把折扣金额返现。注意:企业版不提供折扣。
 

使用说明

首先,请确保你用开源的模型跑通了 Pix2Text,否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论,或者加入群聊与我沟通,但请注意帮你跑通代码不在星主的服务范围之内(参考 星球说明)。
 
通过前面的购买链接下载模型文件,解压后会看到一个名为 p2t-mfr-model 的文件夹,里面的文件即为模型文件,比如叫 p2t-mfr-20230702.pth 。假如文件 p2t-mfr-20230702.pth 的路径为 abc/def/p2t-mfr-model/p2t-mfr-20230702.pth,那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果也没有差别。
 
如果既要设定检测模型的路径,又要设定识别模型的路径,可以使用如下方式:
 
新模型 version-20230702 已部署到 P2T网页版,欢迎免费使用。有问题可以在这里评论,或者加入群聊与我沟通,谢谢。
<ins/>
 
《机器学习&自然语言处理》课程解密了比LLM更重要的多模态学习
Loading...