Breezedeus.com | 善意的AI生产幸福❤

🤖Aguvis：提升的不仅是 UI Agent 的规划推理能力

本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集，采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。

Aguvis：提升的不仅是 UI Agent 的规划推理能力

🤖ShowUI：当前最好的 UI Agent 开源模型？

Show Lab 和微软推出 ShowUI，这是一个开源的 UI Agent 模型，在中文 APP 识别和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法，该模型在有限的训练数据下实现了非常棒的性能

ShowUI：当前最好的 UI Agent 开源模型？

🤖UI Agents（智能体）最新论文

近期 Claude 发布了 Compute Use，智谱发布了 Phone Use 的 AutoGLM，它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本文列出 UI Agents 相关的最新论文和资料，并持续更新中…

UI Agents（智能体）最新论文

🤖UI Agents（智能体）技术综述

近期 Claude 发布了 Compute Use，智谱发布了 Phone Use 的 AutoGLM，它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本次分享介绍了 UI Agents（智能体）背后使用的大模型技术。

UI Agents（智能体）技术综述

🦙LLaMA 3 掀桌子三部曲（二）：LLaMA 3.1 发布

LLaMA 3.1 发布，开源了 405B 的旗舰模型，效果达到闭源的 SOTA 🔥🔥🔥。新模型带来了工具调用、更好地支持多语言等功能。

大语言模型

多模态模型

LLaMA 3 掀桌子三部曲（二）：LLaMA 3.1 发布

🏞️多模态模型可以融合多少模态？Apple：≥ 21

Apple 的 4M 项目通过创新的多模态融合技术，成功将 21 种不同类型的数据模态嵌入统一的模型框架中，实现了跨模态检索、生成和编辑等任务。

多模态模型

多模态学习

Multimodal Learning

多模态模型可以融合多少模态？Apple：≥ 21

🏞️图像 Token 化：视觉数据转换的关键技术

本文介绍了图像或视频数据的 token 化技术，包括 VQ-VAE、dVAE、VQGAN、TiTok 1D Tokenizer 及 OmniTokenizer 等模型，这些技术通过编码器、向量量化器和解码器将图像转换为离散的 token 序列，以便于模型处理和生成高质量的图像。

Multimodal Learning

多模态学习

图像 Token 化：视觉数据转换的关键技术

☣️别和 Scaling Laws 对抗

Scaling Laws（数据和 GPU）是 AI 发展的核心驱动力！？

大语言模型

别和 Scaling Laws 对抗

Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型

数学公式检测

pdf-to-markdown

Math-Formula-Recognition

Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型

Pix2Text V1.1 新版发布，支持 PDF 转 Markdown

Pix2Text (P2T) V1.1 发布，整合了版面分析和表格识别模型，可以把复杂排版的图片甚至 pdf 文件恢复成 Markdown 格式。

数学公式识别

Math-Formula-Recognition

数学公式检测

pdf-to-markdown

Pix2Text V1.1 新版发布，支持 PDF 转 Markdown

🦙LLaMA 3 掀桌子三部曲（一）：LLaMA 3 发布

LLaMA 3 又来掀桌子了，发布一天后排名已经到开源模型首位了，已超过早期的 GPT4 和 Gemini Pro 🔥🔥🔥。哪些因素带来了新的精度提升？

大语言模型

LLaMA 3 掀桌子三部曲（一）：LLaMA 3 发布

Pix2Text V1.0 新版发布，带来了最好的开源数学公式识别模型

Pix2Text (P2T) V1.0 发布，其中新的公式识别模型（MFR）精度得到极大提高，是当前精度最高的开源公式识别模型。

数学公式识别

Math-Formula-Recognition

数学公式检测

Pix2Text V1.0 新版发布，带来了最好的开源数学公式识别模型

1 2 3 4

Breezedeus

Breezedeus

Breezedeus

最新发布

UI Agents（智能体）最新论文

Aguvis：提升的不仅是 UI Agent 的规划推理能力

ShowUI：当前最好的 UI Agent 开源模型？

UI Agents（智能体）技术综述

LLaMA 3 掀桌子三部曲（二）：LLaMA 3.1 发布

P2T Detailed Infos

公告

🎉Pix2Text V1.1.1 新版发布🎉

-- 新版本特性 ---

V1.1.1 发布，带来全新的数学公式检测（MFD）模型

详见：Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型