type
status
date
slug
summary
tags
category
icon
password
URL
Rating
 
本文介绍两篇关于 GUI Navigation 的最新论文。第一篇论文是 Digi-QDigiRL 的后续工作,其主要思路是先利用离线收集的数据训练值函数 ,再训练策略网络。其中,为避免 TD 训练不稳定和降低计算成本,基于冻结的 VLM 向量表示训练 Q 函数,并对 VLM 进行微调。最后通过实验验证了方法的有效性。第二篇论文是 VEM,其思路与 Digi-Q 相似,先训练值函数,再利用值函数训练策略模型。通过 GPT-4o 为状态-动作对生成二元标签,模拟任务进展评估,然后微调 Qwen2-VL 以预测标签值,最后通过 PPO 算法训练策略模型。

[2502.15760] Digi-Q: Learning Q-Value Functions for Training Device-Control Agents, UC Berkeley, Amazon, CMU

 
Digi-Q DigiRL 有相同的一、二作,所以可以认为 Digi-Q 是 DigiRL 的后续工作。
在 GUI Navigation 这个任务里,使用 RL 的一个很大挑战是在线与 GUI 环境交互实时采用的成本很高。实时采样相当于要与真实网站或者 APP 进行交互。
 
Digi-Q 的思路也比较简单,首先用 offline 收集的训练数据训练出 Value Function 和 State-Value Function 。然后利用它们训练 Policy Network
notion image
notion image

基于 TD 学习的 Q 函数训练

值函数的训练使用了 TD 算法(offline Temporal-Difference learning)。TD 方法使用以下 Loss 训练
其中 对应延迟目标网络。
之前其他人的经验是使用 TD 方法训练时很容易导致训练不稳定。
为避免在使用大型模型进行 TD 备份时出现异常情况,同时降低通过 TD 学习对拥有十亿参数的 VLM 进行端到端训练所需的计算成本,作者基于冻结的 VLM 向量表示来训练 Q 函数。Q 和 V 函数都是在冻结的 VLM 的末尾输出之后加了一层可学习 MLP 层来预测得分。
作者实验里使用的 VLM 是 LLaVa-1.5
 
notion image
鉴于 VLM 未经过大量决策数据的训练,现成的 VLM 往往无法精准呈现输入场景中的可操作元素(VLM 没有 GUI Agent 中可执行的动作 的相关信息)。为此,Digi-Q 会在启动 Q 函数训练前,对 VLM 的向量表示进行微调。
但是对于值函数 没有这个问题,所以 的初始模型就是通用的 VLM,不需要再针对性的训练。
 

VLM 微调

作者按如下方式构建微调目标:从 replay buffer 中提取转移对 ,微调目标是判断在当前状态下执行了对应动作 后是否会导致状态 产生明显变化。作者观察到,有效的动作应当会让场景的像素值产生明显的视觉变化。
基于这一认知,作者构建了转移的正元组与负元组 ,其中正元组包含那些使状态产生显著变化(即在 L2 图像距离上大于阈值 ε)的转移,负元组则为其余转移。
notion image
微调时让模型输出 yes or no
以下是产生 yes/no 的 prompt:
notion image
 
微调阶段后,作者冻结 VLM 的参数,并提取 yes/no 标记输出的向量,以此作为 MLP 模块的输入。使用前面提到的 TD 算法训练
 
notion image

利用 Best-of-N 方法训练 Policy 网络

在得到一个训练好的 Q 函数后,作者利用该函数构建策略模型。最直接的方法或许是使用 REINFORCE 策略梯度估计器,对已训练的策略进行训练。
其中 是指动作 中的 token 数量。
不过,REINFORCE 这种方法在处理 offline 策略数据时,可能不太稳健
Digi-Q 中利用 Best-of-N 方法。给定状态 时,作者从已习得的 policy 模型中采样 N 个动作 token 序列: 。Policy 训练以便提升这 N 个动作中最大状态值 对应的策略概率值:
其中 。该方法能让作者实施较为积极的 policy 更新,而且得益于对数损失,更新过程兼具稳定性与高效性。
作者实验中的 ,但可能不同情况要对应调整。
不像前面 Q 和 V 的训练, 的训练是在其他 VLM 的基础上进行全量的微调。
初始的 Policy 模型应该来自于 Auto-UI。
📌
训练开始前可以先预先算好所有的 值,这样训练时就不用加载值函数了。比如作者是对于每个状态预先选好了 64 个动作,并计算好它们的 Q 值,这些值训练时直接用即可。
 
<ins/>

实验结果

在 AITW 上的效果挺不错的(数据好像是作者基于 AITW 独立采集的)。
notion image
 
消融实验:
Behavior Policy 表示直接通过一般的 SFT 方法训练得到的 Policy 模型。
Digi-Q (w/ MC return) 指的是利用有监督回归加 Monte-Carlo 采样的方法训练值函数。
Digi-Q Off-the-shelf VLM 指的是训练 Q 之前不利用 yes/no 数据进行微调。此时训练得到的模型很容易忽略动作 而只考虑
Digi-Q w/ BLIP-2 + BERT 指不基于训练好的 VLM,而是自己利用 BLIP-2 + BERT 搭建 VLM 并直接进行训练。
 
notion image
 
下图左侧表示 取不同值带来的效果变化。右侧表示训练使用的轨迹数量越多效果会越好。
notion image
 
几种训练方法的性能比较。末尾那列的值越小表示训练方法越保守。可见 Digi-Q 不仅有很好的效果,还有较好的稳定性(较小的方差)。
notion image
 
<ins/>

[2502.18906] VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model, PKU, Microsoft

 
GUI Navigation 中两大类 RL 算法:
  • Environment-based RL:训练时需要与 GUI 环境进行交互
  • Environment-free RL:训练时不需要与 GUI 环境进行交互
 
本文的思路和 Digi-Q 非常相似,也是先训练了值函数,然后再利用值函数训练 Policy 模型。本文的思路可以理解成 Digi-Q 的一个简化版本。
 

Critic Model: VEM

针对离线数据集 D 里的每个状态-动作对 ,作者借助具有思维链推理能力的 GPT-4o,生成取值为 的二元标签,以此模拟类人化的任务进展评估。 意味着该动作有望助力任务完成, 则代表此步骤可能适得其反。这种标注方式通过即时评估来估算长期价值,无需进行复杂的明确奖励设计。
借助已标注的子集 ,作者通过最小化均方误差来微调 Qwen2-VL,使其能够预测标签值:
上面的过程叫 Value Environment Modeling (VEM)
 
负样本来自明显背离最优任务执行的动作,具体涵盖:
  1. 错误的文本输入破坏工作流程的完整性;
  1. 界面交互导致诸如广告重定向等不利后果;
  1. 在达成目标前就过早宣告任务完成。
 

Policy Model

收敛之后,作者将 固定为一个价值估计模型,以此给出稳定的动作评估。尽管二元标签所提供的监督较为简化,但它们有效地对任务进展模式进行了编码,能为后续的策略学习提供指导。该方法通过将环境建模与策略优化分离开来维持稳定性,并且整个过程完全可以离线训练。
 
Policy 模型通过 PPO 算法最大化下面的目标函数获得(初始模型来自 Auto-UI):
每次训练迭代时,从数据集 中抽取一小批状态数据,通过策略 生成候选动作,然后依据 的价值估计,利用梯度上升法更新 。该更新规则会提高 认定为最优动作出现的概率,形成一个反馈循环,让策略与价值环境模型(VEM)对动作质量的认知趋于一致。
已冻结的 与静态数据集 ,让纯离线学习得以实现,既无需进行环境推演,也避免了在线策略数据收集所带来的方差问题。该设计保证了策略更新仅基于预先计算好的价值估计,防止了在策略改进与价值函数更新交替过程中常出现的累积误差。这样的训练过程,不仅降低了计算成本,还通过在整个训练过程中维持固定的优化目标,使学习过程更加稳定。
 

实验结果

尽管仅依靠有监督精调(SFT)训练出的模型,在这类开放世界场景下的错误恢复能力有限,但作者采用的价值引导方法却能实现可靠的策略自适应(对错误步骤更加鲁棒)
notion image
notion image
 

UI Agents 知识星球

UI Agents 技术发展迅猛,想紧跟 UI agents 技术前沿?我们的知识星球每周以视频方式解读最新论文,为你开启技术新视野,快来加入吧!
加入知识星球,每周获取会员专享视频👇
notion image
 
扫码加微信小助手为好友,备注「agent」,小助手会定期邀请入群👇
notion image
<ins/>
 
相关文章
UI-TARS:利用长期记忆和反思调整不断优化
Lazy loaded image
Aguvis:提升的不仅是 UI Agent 的规划推理能力
Lazy loaded image
ShowUI:当前最好的 UI Agent 开源模型?
Lazy loaded image
UI Agents(智能体)最新论文
Lazy loaded image
UI Agents(智能体)技术综述
Lazy loaded image
LLaMA 3 掀桌子三部曲(二):LLaMA 3.1 发布
Lazy loaded image
About Me估计KL散度的艺术:平衡偏差与方差的实用指南
Loading...
Breezedeus
Breezedeus
Breezedeus
最新发布
GUI Agent 中使用 RL 提升模型泛化能力
2025-3-6
UI Agents(智能体)最新论文
2025-3-4
UI-TARS:利用长期记忆和反思调整不断优化
2025-3-3
ShowUI:当前最好的 UI Agent 开源模型?
2025-3-3
UI Agents(智能体)技术综述
2025-2-23
Aguvis:提升的不仅是 UI Agent 的规划推理能力
2025-2-23
公告
🎉Pix2Text V1.1.1 新版发布🎉
-- 新版本特性 ---
V1.1.1 发布,带来全新的数学公式检测(MFD)模型