type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 
Pix2Text (P2T) 新版公式检测模型 末尾所说,不同版本的模型,一般会遵循以下的使用逻辑(很抱歉,开源作者也要喝咖啡,开源作者也可以有不开源的东西):
  • 最新的模型供 P2T网页版 使用,以及付费购买;
  • 次新的模型对星球会员开放,及支持单独购买;
  • 次次新的模型对所有人免费开放。
 
YoloV7 模型当前包含两个版本:
  • version-20230208:第一版的YoloV7模型,大致训练于2023/02/08。P2T网页版 在2023/02~2023/06 期间,用的是此检测模型。
  • version-20230613:第二版(最新版)YoloV7模型,训练于2023/06/13,P2T网页版当前正在使用此模型。此模型主要针对中文图片中的数学公式,以及纯公式窄图片场景做了优化。具体说明见:Pix2Text (P2T) 新版公式检测模型
 

获取方式

当前这两个版本的获取方式如下:
检测模型版本
企业购买
个人购买
对星球会员
免费可下载
YoloV7_Tiny 开源模型
✖️
✖️
✔️
✔️
version-20230208
✖️
✔️ B站工房
✔️ 免费
✖️
version-20230613
✔️ 八折
✖️
 

效果对比

相对于开源可免费使用的 YoloV7_Tiny 模型,YoloV7 模型大概是其6倍大,训练消耗的资源也差不多是这个倍数。下图是两个模型在测试集上效果的对比图(每个metric的具体含义请Google或者ChatGPT,它们都是越大越好)。
注意,下图蓝线是 version-20230613 版本的训练过程,之前的 YoloV7 模型(version-20230208)的训练图找不到了。。但相对高低可以参考,version-20230613 主要是优化了中文图片和窄的孤立公式图片的检测效果。
notion image
从上图可以看到 YoloV7 相比 YoloV7_Tiny 模型,精度还是要好不少的,比如其召回率0.973 提升到了 0.985(能检测出更多公式)。
 

YoloV7 模型使用说明

首先,请确保你用开源的模型跑通了 Pix2Text,否则你下载完付费模型也跑不起来。详细安装和使用说明看 Pix2Text 项目文档就行。遇到问题可以在这里评论,或者加入群聊与我沟通,但请注意帮你跑通代码不在星主的服务范围之内(参考 星球说明)。
 
比如默认使用开源的MFD检测模型 YoloV7_Tiny,使用方法如下:
 
首先从前面表格中的方式下载模型文件(40~50+M),解压后会看到一个名为 yolov7-model 的文件夹,里面的文件即为模型文件,比如叫 mfd-yolov7-20230208.pt 。假如文件 mfd-yolov7-20230208.pt 的路径为 abc/def/yolov7-model/mfd-yolov7-20230208.pt,那在初始化 Pix2Text 时应该如下传入参数。初始化后的使用方式和开源模型完全一样,检测和识别结果也没有差别。
 
有问题可以在这里评论,或者加入群聊与我沟通,谢谢。
标注工具Label Studio如何导入本地文件和模型预测结果本周日线下分享:《比LLM更重要的多模态学习》
Loading...