GUI Agent 中使用 RL 提升模型泛化能力

type

status

date

slug

summary

[2502.15760] Digi-Q: Learning Q-Value Functions for Training Device-Control Agents, UC Berkeley, Amazon, CMU

代码和模型都开源：https://github.com/DigiRL-agent/digiq

Digi-Q 和 DigiRL 有相同的一、二作，所以可以认为 Digi-Q 是 DigiRL 的后续工作。

在 GUI Navigation 这个任务里，使用 RL 的一个很大挑战是在线与 GUI 环境交互实时采用的成本很高。实时采样相当于要与真实网站或者 APP 进行交互。

Digi-Q 的思路也比较简单，首先用 offline 收集的训练数据训练出 Value Function 和 State-Value Function 。然后利用它们训练 Policy Network 。

基于 TD 学习的 Q 函数训练

值函数的训练使用了 TD 算法（offline Temporal-Difference learning）。TD 方法使用以下 Loss 训练和：

其中和对应延迟目标网络。

之前其他人的经验是使用 TD 方法训练时很容易导致训练不稳定。

为避免在使用大型模型进行 TD 备份时出现异常情况，同时降低通过 TD 学习对拥有十亿参数的 VLM 进行端到端训练所需的计算成本，作者基于冻结的 VLM 向量表示来训练 Q 函数。Q 和 V 函数都是在冻结的 VLM 的末尾输出之后加了一层可学习 MLP 层来预测得分。

作者实验里使用的 VLM 是 LLaVa-1.5。

鉴于 VLM 未经过大量决策数据的训练，现成的 VLM 往往无法精准呈现输入场景中的可操作元素（VLM 没有 GUI Agent 中可执行的动作 的相关信息）。为此，Digi-Q 会在启动 Q 函数训练前，对 VLM 的向量表示进行微调。

但是对于值函数 没有这个问题，所以 的初始模型就是通用的 VLM，不需要再针对性的训练。

VLM 微调

作者按如下方式构建微调目标：从 replay buffer 中提取转移对，微调目标是判断在当前状态下执行了对应动作 后是否会导致状态 产生明显变化。作者观察到，有效的动作应当会让场景的像素值产生明显的视觉变化。

基于这一认知，作者构建了转移的正元组与负元组，其中正元组包含那些使状态产生显著变化（即在 L2 图像距离上大于阈值 ε）的转移，负元组则为其余转移。

微调时让模型输出 yes or no ：

以下是产生 yes/no 的 prompt：

微调阶段后，作者冻结 VLM 的参数，并提取 yes/no 标记输出的向量，以此作为 MLP 模块的输入。使用前面提到的 TD 算法训练和：

利用 Best-of-N 方法训练 Policy 网络

在得到一个训练好的 Q 函数后，作者利用该函数构建策略模型。最直接的方法或许是使用 REINFORCE 策略梯度估计器，对已训练的策略进行训练。

其中是指动作中的 token 数量。

不过，REINFORCE 这种方法在处理 offline 策略数据时，可能不太稳健。

Digi-Q 中利用 Best-of-N 方法。给定状态时，作者从已习得的 policy 模型中采样 N 个动作 token 序列：。Policy 训练以便提升这 N 个动作中最大状态值对应的策略概率值：

其中。该方法能让作者实施较为积极的 policy 更新，而且得益于对数损失，更新过程兼具稳定性与高效性。

作者实验中的，但可能不同情况要对应调整。

不像前面 Q 和 V 的训练，的训练是在其他 VLM 的基础上进行全量的微调。

初始的 Policy 模型应该来自于 Auto-UI。

📌

训练开始前可以先预先算好所有的值，这样训练时就不用加载值函数了。比如作者是对于每个状态预先选好了 64 个动作，并计算好它们的 Q 值，这些值训练时直接用即可。

<ins/>

实验结果

在 AITW 上的效果挺不错的（数据好像是作者基于 AITW 独立采集的）。

消融实验：

Behavior Policy 表示直接通过一般的 SFT 方法训练得到的 Policy 模型。

Digi-Q (w/ MC return) 指的是利用有监督回归加 Monte-Carlo 采样的方法训练值函数。

Digi-Q Off-the-shelf VLM 指的是训练 Q 之前不利用 yes/no 数据进行微调。此时训练得到的模型很容易忽略动作而只考虑。

Digi-Q w/ BLIP-2 + BERT 指不基于训练好的 VLM，而是自己利用 BLIP-2 + BERT 搭建 VLM 并直接进行训练。

下图左侧表示取不同值带来的效果变化。右侧表示训练使用的轨迹数量越多效果会越好。

几种训练方法的性能比较。末尾那列的值越小表示训练方法越保守。可见 Digi-Q 不仅有很好的效果，还有较好的稳定性（较小的方差）。

<ins/>

[2502.18906] VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model, PKU, Microsoft

https://github.com/microsoft/GUI-Agent-RL

GUI Navigation 中两大类 RL 算法：

Environment-based RL：训练时需要与 GUI 环境进行交互

Environment-free RL：训练时不需要与 GUI 环境进行交互

本文的思路和 Digi-Q 非常相似，也是先训练了值函数，然后再利用值函数训练 Policy 模型。本文的思路可以理解成 Digi-Q 的一个简化版本。

Critic Model: VEM

针对离线数据集 D 里的每个状态-动作对，作者借助具有思维链推理能力的 GPT-4o，生成取值为的二元标签，以此模拟类人化的任务进展评估。意味着该动作有望助力任务完成，则代表此步骤可能适得其反。这种标注方式通过即时评估来估算长期价值，无需进行复杂的明确奖励设计。

借助已标注的子集，作者通过最小化均方误差来微调 Qwen2-VL，使其能够预测标签值：

上面的过程叫 Value Environment Modeling (VEM) 。

负样本来自明显背离最优任务执行的动作，具体涵盖：

错误的文本输入破坏工作流程的完整性；

界面交互导致诸如广告重定向等不利后果；

在达成目标前就过早宣告任务完成。

Policy Model

收敛之后，作者将固定为一个价值估计模型，以此给出稳定的动作评估。尽管二元标签所提供的监督较为简化，但它们有效地对任务进展模式进行了编码，能为后续的策略学习提供指导。该方法通过将环境建模与策略优化分离开来维持稳定性，并且整个过程完全可以离线训练。

Policy 模型通过 PPO 算法最大化下面的目标函数获得（初始模型来自 Auto-UI）：

每次训练迭代时，从数据集中抽取一小批状态数据，通过策略生成候选动作，然后依据的价值估计，利用梯度上升法更新。该更新规则会提高认定为最优动作出现的概率，形成一个反馈循环，让策略与价值环境模型（VEM）对动作质量的认知趋于一致。

已冻结的与静态数据集，让纯离线学习得以实现，既无需进行环境推演，也避免了在线策略数据收集所带来的方差问题。该设计保证了策略更新仅基于预先计算好的价值估计，防止了在策略改进与价值函数更新交替过程中常出现的累积误差。这样的训练过程，不仅降低了计算成本，还通过在整个训练过程中维持固定的优化目标，使学习过程更加稳定。