🤖GUI Agent 中使用 RL 提升模型泛化能力技术分享介绍 GUI Agent 如果利用强化学习(RL)算法训练模型,以提升模型的 OOD 泛化能力。2025-3-3 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM Mobile Agents VLM LLM 智能体 ShowUI GUI Agents Reinfocement_Learning Digi-Q VEM
🤖UI-TARS:利用长期记忆和反思调整不断优化技术分享来自字节跳动的 UI-TARS 基于 Qwen2-VL 微调,通过大量 grounding 和 navigation 数据,经三阶段训练,在感知能力训练加入新任务,利用特定方法迭代优化,以远超多数工作的数据规模,实现对中文图片和指令的良好支持。2025-1-24 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM AppAgents Mobile Agents VLM LLM 智能体 规划推理 UI-TARS ByteDance GUI Agents
🤖Aguvis:提升的不仅是 UI Agent 的规划推理能力技术分享本文介绍来自 HKU & Salesforce 的 Aguvis。Aguvis 构建了统一的 grounding 和 reasoning 大数据集,采用两阶段训练方式提升模型在 GUI 交互中的规划推理能力。2024-12-13 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM AppAgents Mobile Agents VLM LLM 智能体 Aguvis 规划推理 GUI Agents
🤖ShowUI:当前最好的 UI Agent 开源模型?技术分享Show Lab 和微软推出 ShowUI,这是一个开源的 UI Agent 模型,在中文 APP 识别和导航能力上表现出色。通过创新的视觉 token 选择和独特的训练数据构建方法,该模型在有限的训练数据下实现了非常棒的性能2024-12-5 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM SeeClick AppAgents Mobile Agents VLM LLM 智能体 ShowUI GUI Agents
🤖GUI Agents(智能体)最新论文技术分享近期 Claude 发布了 Compute Use,智谱发布了 Phone Use 的 AutoGLM,它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本文列出 UI Agents 相关的最新论文和资料,并持续更新中…2024-11-9 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM SeeClick AppAgents Mobile Agents VLM LLM 智能体 GUI Agents
🤖GUI Agents(智能体)技术综述技术分享近期 Claude 发布了 Compute Use,智谱发布了 Phone Use 的 AutoGLM,它们都是利用 UI Agents 技术让智能体模拟人操作电脑和手机完成指定任务。本次分享介绍了 UI Agents(智能体)背后使用的大模型技术。2024-11-8 AI_Agent Multi-Agents UI Agents Web Agents Compute Use Phone Use AutoGLM SeeClick AppAgents Mobile Agents VLM LLM 智能体 GUI Agents
🦙LLaMA 3 掀桌子三部曲(二):LLaMA 3.1 发布技术分享LLaMA 3.1 发布,开源了 405B 的旗舰模型,效果达到闭源的 SOTA 🔥🔥🔥。新模型带来了工具调用、更好地支持多语言等功能。2024-7-25 LLM GPT4 Generative NLP 大语言模型 ChatGPT Meta LLaMA3 LLaMA3.1 多模态模型 GPT-4o VLM
☣️别和 Scaling Laws 对抗技术分享Scaling Laws(数据和 GPU)是 AI 发展的核心驱动力!?2024-6-25 LLM Scaling-Laws AGI Stanford 大语言模型 AI_Agent GPT4 ChatGPT
🦙LLaMA 3 掀桌子三部曲(一):LLaMA 3 发布技术分享LLaMA 3 又来掀桌子了,发布一天后排名已经到开源模型首位了,已超过早期的 GPT4 和 Gemini Pro 🔥🔥🔥。哪些因素带来了新的精度提升?2024-4-19 LLM GPT4 Generative NLP 大语言模型 ChatGPT Meta LLaMA3
OpenAI 如何优化 LLM 的效果技术分享本文介绍了优化 LLM 效果的三种方法:Prompt Engineering、RAG 和 Fine-tuning。详细描述了它们的使用场景、优劣势,并基于具体示例给出了它们带来的效果提升。2023-11-17 LLM GPT4 Generative NLP 大语言模型 ChatGPT Prompt 提示词 OpenAI RAG Fine-tuning 检索增强
基于大语言模型的AI Agents—Part 3技术分享介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 3 介绍另外几个热门的 Agent 框架:agents、AutoAgents 和 ChatDev(通过agents之间的多轮交互完成任务)。2023-10-12 LLM GPT4 AI_Agent Generative NLP 大语言模型 智能体 ChatGPT Multi-Agents AutoAgents ChatDev
基于大语言模型的AI Agents—Part 2技术分享介绍由 LLM 驱动的 AI Agents 的相关技术和工具。Part 2 介绍3个热门的 Agent 框架:AutoGPT、GPT-Engineer 和 MetaGPT。2023-9-1 LLM GPT4 AI_Agent Generative NLP 大语言模型 智能体 ChatGPT AutoGPT GPT-Enginner MetaGPT Multi-Agents