type
status
date
slug
summary
tags
category
icon
password
URL
Rating

目录:
[2502.15760] Digi-Q: Learning Q-Value Functions for Training Device-Control Agents, UC Berkeley, Amazon, CMU基于 TD 学习的 Q 函数训练VLM 微调利用 Best-of-N 方法训练 Policy 网络实验结果[2502.18906] VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model, PKU, MicrosoftCritic Model: VEMPolicy Model实验结果UI Agents 知识星球
本文介绍两篇关于 GUI Navigation 的最新论文。第一篇论文是 Digi-Q,DigiRL 的后续工作,其主要思路是先利用离线收集的数据训练值函数 和 ,再训练策略网络。其中,为避免 TD 训练不稳定和降低计算成本,基于冻结的 VLM 向量表示训练 Q 函数,并对 VLM 进行微调。最后通过实验验证了方法的有效性。第二篇论文是 VEM,其思路与 Digi-Q 相似,先训练值函数,再利用值函数训练策略模型。通过 GPT-4o 为
状态-动作
对生成二元标签,模拟任务进展评估,然后微调 Qwen2-VL 以预测标签值,最后通过 PPO 算法训练策略模型。[2502.15760] Digi-Q: Learning Q-Value Functions for Training Device-Control Agents, UC Berkeley, Amazon, CMU
Digi-Q 和 DigiRL 有相同的一、二作,所以可以认为 Digi-Q 是 DigiRL 的后续工作。
在 GUI Navigation 这个任务里,使用 RL 的一个很大挑战是在线与 GUI 环境交互实时采用的成本很高。实时采样相当于要与真实网站或者 APP 进行交互。
Digi-Q 的思路也比较简单,首先用 offline 收集的训练数据训练出 Value Function 和 State-Value Function 。然后利用它们训练 Policy Network 。


基于 TD 学习的 Q 函数训练
值函数的训练使用了 TD 算法(offline Temporal-Difference learning)。TD 方法使用以下 Loss 训练 和 :
其中 和 对应延迟目标网络。
之前其他人的经验是使用 TD 方法训练时很容易导致训练不稳定。
为避免在使用大型模型进行 TD 备份时出现异常情况,同时降低通过 TD 学习对拥有十亿参数的 VLM 进行端到端训练所需的计算成本,作者基于冻结的 VLM 向量表示来训练 Q 函数。Q 和 V 函数都是在冻结的 VLM 的末尾输出之后加了一层可学习 MLP 层来预测得分。
作者实验里使用的 VLM 是 LLaVa-1.5。

鉴于 VLM 未经过大量决策数据的训练,现成的 VLM 往往无法精准呈现输入场景中的可操作元素(VLM 没有 GUI Agent 中可执行的动作 的相关信息)。为此,Digi-Q 会在启动 Q 函数训练前,对 VLM 的向量表示进行微调。
但是对于值函数 没有这个问题,所以 的初始模型就是通用的 VLM,不需要再针对性的训练。
VLM 微调
作者按如下方式构建微调目标:从 replay buffer 中提取转移对 ,微调目标是判断在当前状态下执行了对应动作 后是否会导致状态 产生明显变化。作者观察到,有效的动作应当会让场景的像素值产生明显的视觉变化。
基于这一认知,作者构建了转移的正元组与负元组 ,其中正元组包含那些使状态产生显著变化(即在 L2 图像距离上大于阈值 ε)的转移,负元组则为其余转移。

微调时让模型输出
yes
or no
:以下是产生
yes/no
的 prompt:
微调阶段后,作者冻结 VLM 的参数,并提取
yes/no
标记输出的向量,以此作为 MLP 模块的输入。使用前面提到的 TD 算法训练 和 :
利用 Best-of-N 方法训练 Policy 网络
在得到一个训练好的 Q 函数后,作者利用该函数构建策略模型。最直接的方法或许是使用 REINFORCE 策略梯度估计器,对已训练的策略进行训练。
其中 是指动作 中的 token 数量。
不过,REINFORCE 这种方法在处理 offline 策略数据时,可能不太稳健。
Digi-Q 中利用 Best-of-N 方法。给定状态 时,作者从已习得的 policy 模型中采样 N 个动作 token 序列: 。Policy 训练以便提升这 N 个动作中最大状态值 对应的策略概率值:
其中 。该方法能让作者实施较为积极的 policy 更新,而且得益于对数损失,更新过程兼具稳定性与高效性。
作者实验中的 ,但可能不同情况要对应调整。
不像前面 Q 和 V 的训练, 的训练是在其他 VLM 的基础上进行全量的微调。
初始的 Policy 模型应该来自于 Auto-UI。
训练开始前可以先预先算好所有的 值,这样训练时就不用加载值函数了。比如作者是对于每个状态预先选好了 64 个动作,并计算好它们的 Q 值,这些值训练时直接用即可。
<ins/>
实验结果
在 AITW 上的效果挺不错的(数据好像是作者基于 AITW 独立采集的)。

消融实验:
Behavior Policy 表示直接通过一般的 SFT 方法训练得到的 Policy 模型。
Digi-Q (w/ MC return) 指的是利用有监督回归加 Monte-Carlo 采样的方法训练值函数。
Digi-Q Off-the-shelf VLM 指的是训练 Q 之前不利用
yes/no
数据进行微调。此时训练得到的模型很容易忽略动作 而只考虑 。Digi-Q w/ BLIP-2 + BERT 指不基于训练好的 VLM,而是自己利用 BLIP-2 + BERT 搭建 VLM 并直接进行训练。

下图左侧表示 取不同值带来的效果变化。右侧表示训练使用的轨迹数量越多效果会越好。

几种训练方法的性能比较。末尾那列的值越小表示训练方法越保守。可见 Digi-Q 不仅有很好的效果,还有较好的稳定性(较小的方差)。

<ins/>
[2502.18906] VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model, PKU, Microsoft
GUI Navigation 中两大类 RL 算法:
- Environment-based RL:训练时需要与 GUI 环境进行交互
- Environment-free RL:训练时不需要与 GUI 环境进行交互
本文的思路和 Digi-Q 非常相似,也是先训练了值函数,然后再利用值函数训练 Policy 模型。本文的思路可以理解成 Digi-Q 的一个简化版本。
Critic Model: VEM
针对离线数据集 D 里的每个状态-动作对 ,作者借助具有思维链推理能力的 GPT-4o,生成取值为 的二元标签,以此模拟类人化的任务进展评估。 意味着该动作有望助力任务完成, 则代表此步骤可能适得其反。这种标注方式通过即时评估来估算长期价值,无需进行复杂的明确奖励设计。
借助已标注的子集 ,作者通过最小化均方误差来微调 Qwen2-VL,使其能够预测标签值:
上面的过程叫 Value Environment Modeling (VEM) 。
负样本来自明显背离最优任务执行的动作,具体涵盖:
- 错误的文本输入破坏工作流程的完整性;
- 界面交互导致诸如广告重定向等不利后果;
- 在达成目标前就过早宣告任务完成。
Policy Model
收敛之后,作者将 固定为一个价值估计模型,以此给出稳定的动作评估。尽管二元标签所提供的监督较为简化,但它们有效地对任务进展模式进行了编码,能为后续的策略学习提供指导。该方法通过将环境建模与策略优化分离开来维持稳定性,并且整个过程完全可以离线训练。
Policy 模型通过 PPO 算法最大化下面的目标函数获得(初始模型来自 Auto-UI):
每次训练迭代时,从数据集 中抽取一小批状态数据,通过策略 生成候选动作,然后依据 的价值估计,利用梯度上升法更新 。该更新规则会提高 认定为最优动作出现的概率,形成一个反馈循环,让策略与价值环境模型(VEM)对动作质量的认知趋于一致。
已冻结的 与静态数据集 ,让纯离线学习得以实现,既无需进行环境推演,也避免了在线策略数据收集所带来的方差问题。该设计保证了策略更新仅基于预先计算好的价值估计,防止了在策略改进与价值函数更新交替过程中常出现的累积误差。这样的训练过程,不仅降低了计算成本,还通过在整个训练过程中维持固定的优化目标,使学习过程更加稳定。
实验结果
尽管仅依靠有监督精调(SFT)训练出的模型,在这类开放世界场景下的错误恢复能力有限,但作者采用的价值引导方法却能实现可靠的策略自适应(对错误步骤更加鲁棒)。


UI Agents 知识星球
UI Agents 技术发展迅猛,想紧跟 UI agents 技术前沿?我们的知识星球每周以视频方式解读最新论文,为你开启技术新视野,快来加入吧!
加入知识星球,每周获取会员专享视频👇

扫码加微信小助手为好友,备注「agent」,小助手会定期邀请入群👇

当前星球包含的专享视频包括:
- 【2025.03.03】GUI Agent 技术分享:DigiQ/VEM—使用 RL 提升模型的泛化能力
- 【2025.01.25】UI Agent 技术分享: UI-TARS—利用长期记忆和反思调整迭代优化模型
- 【2025.01.19】AI Agent 技术分享:Insight-V—探索 VLM 的长链条视觉推理能力
- 【2025.01.12】UI Agent 技术分享:PC-Agent—提升模型认知能力以便更好完成复杂任务
- 【2025.01.05】UI Agent 技术分享:OS-Genesis—自动合成高质量且多样化的训练数据
- 【2024.12.29】UI Agent 技术分享:PAE-通过自动探索新任务不断扩展模型能力
- 【2024.12.22】UI Agent 技术分享:Iris-通过自动构造的数据提升模型效果
- 【2024.12.15】UI Agent 技术分享:Falcon-UI—利用无监督数据预训练 UI Agent 模型
- 【2024.11.24】UI Agent 技术分享:使用世界模型提升 UI Agents 效果?
- 【2024.11.17】UI Agent 技术分享:来自华为诺亚方舟实验室的 LiMAC
- 【2024.11.11】UI Agent 技术分享:来自 LG AI Research 的 Auto-Intent
<ins/>
- 作者:Breezedeus
- 链接:https://www.breezedeus.com/article/ui-agent-rl
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章