Breezedeus.com | 善意的AI生产幸福❤

AI Agent 中的上下文工程 (Context Engineering)

本文聚焦 AI Agents 上下文工程技术，揭秘了从静态提示词工程到动态上下文工程的进化逻辑，还拆解了 Manus 应对上下文腐烂的核心技术与简化至上的实践原则。

大语言模型

上下文工程

Context Engineering

AI Agent 中的上下文工程 (Context Engineering)

AI Agent 性能优化：核心策略与实战技巧

本文深度拆解 AI Agent 性能优化的五大核心维度，提供超多可落地的实战技巧，助力打造更智能、鲁棒且高效的 AI Agent！

大语言模型

上下文工程

Context Engineering

Prompt Engineering

AI Agent 性能优化：核心策略与实战技巧

🤖Mobile-Agent-v3：新的 GUI Agents 开源王者

Mobile-Agent-v3 凭借多模态 GUI-Owl 模型、自我进化数据生成和 TRPO 强化学习，在多平台 GUI 自动化上超越主流开源方案，部分场景甚至优于 GPT-4o、Claude 3.7。

Mobile-Agent-V3

Mobile-Agent-v3：新的 GUI Agents 开源王者

Pix2Text 新版数学公式检测和识别模型：V1.5

Pix2Text (P2T) 的数学公式检测模型（MFD）和数学公式识别模型（MFR）发布新版 V1.5 系列模型，效果得到进一步提升。

数学公式识别

Math-Formula-Recognition

数学公式检测

Pix2Text 新版数学公式检测和识别模型：V1.5

🤖MONDAY：从视频自动构建 GUI Agents 轨迹数据

本文提出了一种自动化框架，该框架利用公开可用的视频内容生成 GUI Agents 训练使用的任务轨迹数据集，无需手动标注。

MONDAY：从视频自动构建 GUI Agents 轨迹数据

🤖InfiGUI-R1：从反应式执行向推理式决策的进阶之路

InfiGUI-R1 引入一种以推理为中心的渐进式训练方法，将 GUI Agents 从反应式执行模型转变为深思熟虑的推理模型。

Reinfocement_Learning

InfiGUI-R1：从反应式执行向推理式决策的进阶之路

🧬《控糖革命》：了解血糖影响与控糖策略

《控糖革命》的笔记，介绍了高血糖峰值对健康的负面影响，并详细介绍了通过调整饮食顺序、餐前饮醋、饭后运动、为碳水“穿衣”等实用策略来稳定血糖、促进整体健康的方法。

碳水化合物

《控糖革命》：了解血糖影响与控糖策略

🤖GUI Agent 中使用 RL 提升模型泛化能力

介绍 GUI Agent 如果利用强化学习（RL）算法训练模型，以提升模型的 OOD 泛化能力。

Reinfocement_Learning

GUI Agent 中使用 RL 提升模型泛化能力

♾️估计KL散度的艺术：平衡偏差与方差的实用指南

介绍 KL散度（KL Divergence）的不同预估方法。

Machine Learning

估计KL散度的艺术：平衡偏差与方差的实用指南

🤖UI-TARS：利用长期记忆和反思调整不断优化

来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调，通过大量 grounding 和 navigation 数据，经三阶段训练，在感知能力训练加入新任务，利用特定方法迭代优化，以远超多数工作的数据规模，实现对中文图片和指令的良好支持。

UI-TARS：利用长期记忆和反思调整不断优化

🤖Aguvis：提升的不仅是 UI Agent 的规划推理能力

本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集，采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。

Aguvis：提升的不仅是 UI Agent 的规划推理能力

🤖ShowUI：当前最好的 UI Agent 开源模型？

Show Lab 和微软推出 ShowUI，这是一个开源的 UI Agent 模型，在中文 APP 识别和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法，该模型在有限的训练数据下实现了非常棒的性能

ShowUI：当前最好的 UI Agent 开源模型？

1 2 3 4 5

Breezedeus

Breezedeus

知识星球

最新发布

AI Agent 中的上下文工程 (Context Engineering)

GUI Agents（智能体）最新论文

AI Agent 性能优化：核心策略与实战技巧

Mobile-Agent-v3：新的 GUI Agents 开源王者

Pix2Text 新版数学公式检测和识别模型：V1.5

P2T Detailed Infos

公告

🎉Pix2Text V1.1.1 新版发布🎉

-- 新版本特性 ---

V1.1.1 发布，带来全新的数学公式检测（MFD）模型

详见：Pix2Text V1.1.1 新版发布，带来更好的数学公式检测模型