全方位断层第一!中兴gui手机智能体领跑SuperCLUE最新测评
近日,SuperCLUE重磅发布手机助手GUI智能体测评6月榜单,中兴gui手机智能体以91.29分的绝对优势登顶总成绩榜第一,在全部评测维度中均保持首位,展现出接近商业可用水平的端到端能力。
以下为SuperCLUE原文:
大模型与端侧AI融合推动手机助手Agent进化为具备GUI自动化与复杂任务规划的智能体。为建立公平量化基准,本评测在统一ADB手机交互与纯视觉输入环境下,通过标准化任务集与评分体系,度量各Agent在意图解析、视觉感知、长链路执行任务上的决策质量。
本次测评涵盖6款手机助手GUI智能体产品,测评对象聚焦于有智能体架构与配套模型的产品。详细报告如下。
# 榜单概览
# 基准场景介绍1.基准场景
为建立公平、可量化的横向对标基准,我们提出AgentCLUE-Mobile手机助手Agent测评场景基准。该场景基准在统一的ADB手机交互环境与纯视觉输入条件下,通过标准化任务集与可复现的评分体系,从复杂意图拆解与动态规划、多模态GUI感知与理解、跨应用全链路执行三大维度,横向度量不同Agent在意图解析、视觉感知、长链路执行及异常恢复等维度的决策质量,精准剥离系统权限与工程封装带来的性能噪声,为Agent产品迭代与技术选型提供客观依据。详细场景设计如下:
其任务涉及覆盖了用户日常手机操作的高频场景,从第三方App的内容消费、社交互动到系统底层的硬件连接与设置,构成了手机助手Agent能力的完整评测版图。任务涉及到的应用如下:
2.题目分布
AgentCLUE-Mobile评测基准设计标准化题目,覆盖三大一级维度与三种难度层级。难度呈“倒金字塔”结构,困难题目占比最高,简单与中等次之,以高难度任务为主,旨在拉开能力差距、暴露长链路执行中的状态丢失与异常恢复短板。维度上,“复杂意图拆解与动态规划”占比最高,涵盖显式/隐式指令、多意图并行与条件分支;“多模态GUI感知与理解”次之,覆盖文本语义、图标定位、控件状态与空间关系;“跨应用全链路执行”则聚焦数据迁移、长链路任务与通知栏跨应用场景。三大维度均衡配比,全面评估Agent的认知决策、视觉感知与执行闭环能力。其题目详细分布情况如下:
# 手机智能体与手机的交互方式
被评手机智能体采用"感知-决策-执行"闭环架构。用户以自然语言下发任务后,智能体基于当前屏幕截图进行视觉理解与任务规划,生成结构化动作指令(如应用启动、坐标点击、文本输入等);该指令经ADB传输至手机端执行,执行后的新截图回传智能体,形成"观察-决策-执行"的循环迭代,直至任务完成。整个链路中,ADB承担统一执行接口,截图承担纯视觉感知输入,智能体则负责认知决策与动态规划。被评手机智能体设计如下所示:
# 评测流程介绍
本次评测采用"视觉状态对比+单步模型初审+人工终审修正"的人机协同裁判机制,由裁判模型逐帧判定每步动作有效性,再经人工结合全量截图与执行轨迹综合复核、修正存疑步骤,最终输出经人工校验的任务完成度得分。评测需前置准备三类数据:
坐标标注处理(预处理):
1.判断该步是否涉及坐标操作(如click、long_press、swipe等)
有坐标:在该步截图(step_i.png)上标注坐标点,输出为step_i_marked.png
无坐标(如全局操作press_home、input_text等):直接复制原图并重命名为step_i_marked.png
2.所有marked图片统一归档,作为后续裁判模型的视觉输入。
裁判模型逐步评分(第一层:单步评判)
按步骤顺序循环迭代,由裁判模型对每一步进行独立打分:
输入内容:
普通步(i
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com
