🤖UI-TARS:利用长期记忆和反思调整不断优化技术分享来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调,通过大量 grounding 和 navigation 数据,经三阶段训练,在感知能力训练加入新任务,利用特定方法迭代优化,以远超多数工作的数据规模,实现对中文图片和指令的良好支持。2025-1-24 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM AppAgents Mobile Agents VLM LLM 智能体 规划推理 UI-TARS ByteDance