🤖UI-TARS:利用长期记忆和反思调整不断优化技术分享来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调,通过大量 grounding 和 navigation 数据,经三阶段训练,在感知能力训练加入新任务,利用特定方法迭代优化,以远超多数工作的数据规模,实现对中文图片和指令的良好支持。2025-1-24 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM AppAgents Mobile Agents VLM LLM 智能体 规划推理 UI-TARS ByteDance GUI Agents
🤖Aguvis:提升的不仅是 UI Agent 的规划推理能力技术分享本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集,采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。2024-12-13 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM AppAgents Mobile Agents VLM LLM 智能体 Aguvis 规划推理 GUI Agents