全方位断层第一！中兴gui手机智能体领跑SuperCLUE最新测评

沄森™2026-06-13

　　近日，SuperCLUE重磅发布手机助手GUI智能体测评6月榜单，中兴gui手机智能体以91.29分的绝对优势登顶总成绩榜第一，在全部评测维度中均保持首位，展现出接近商业可用水平的端到端能力。　　以下为SuperCLUE原文：　　大模型

　　近日，SuperCLUE重磅发布手机助手GUI智能体测评6月榜单，中兴gui手机智能体以91.29分的绝对优势登顶总成绩榜第一，在全部评测维度中均保持首位，展现出接近商业可用水平的端到端能力。

　　以下为SuperCLUE原文：

　　大模型与端侧AI融合推动手机助手Agent进化为具备GUI自动化与复杂任务规划的智能体。为建立公平量化基准，本评测在统一ADB手机交互与纯视觉输入环境下，通过标准化任务集与评分体系，度量各Agent在意图解析、视觉感知、长链路执行任务上的决策质量。

　　本次测评涵盖6款手机助手GUI智能体产品，测评对象聚焦于有智能体架构与配套模型的产品。详细报告如下。

　　# 榜单概览

　　# 基准场景介绍1.基准场景

　　为建立公平、可量化的横向对标基准，我们提出AgentCLUE-Mobile手机助手Agent测评场景基准。该场景基准在统一的ADB手机交互环境与纯视觉输入条件下，通过标准化任务集与可复现的评分体系，从复杂意图拆解与动态规划、多模态GUI感知与理解、跨应用全链路执行三大维度，横向度量不同Agent在意图解析、视觉感知、长链路执行及异常恢复等维度的决策质量，精准剥离系统权限与工程封装带来的性能噪声，为Agent产品迭代与技术选型提供客观依据。详细场景设计如下：

　　其任务涉及覆盖了用户日常手机操作的高频场景，从第三方App的内容消费、社交互动到系统底层的硬件连接与设置，构成了手机助手Agent能力的完整评测版图。任务涉及到的应用如下：

　　2.题目分布

　　 AgentCLUE-Mobile评测基准设计标准化题目，覆盖三大一级维度与三种难度层级。难度呈“倒金字塔”结构，困难题目占比最高，简单与中等次之，以高难度任务为主，旨在拉开能力差距、暴露长链路执行中的状态丢失与异常恢复短板。维度上，“复杂意图拆解与动态规划”占比最高，涵盖显式/隐式指令、多意图并行与条件分支；“多模态GUI感知与理解”次之，覆盖文本语义、图标定位、控件状态与空间关系；“跨应用全链路执行”则聚焦数据迁移、长链路任务与通知栏跨应用场景。三大维度均衡配比，全面评估Agent的认知决策、视觉感知与执行闭环能力。其题目详细分布情况如下：

　　# 手机智能体与手机的交互方式

　　被评手机智能体采用"感知-决策-执行"闭环架构。用户以自然语言下发任务后，智能体基于当前屏幕截图进行视觉理解与任务规划，生成结构化动作指令(如应用启动、坐标点击、文本输入等)；该指令经ADB传输至手机端执行，执行后的新截图回传智能体，形成"观察-决策-执行"的循环迭代，直至任务完成。整个链路中，ADB承担统一执行接口，截图承担纯视觉感知输入，智能体则负责认知决策与动态规划。被评手机智能体设计如下所示：

　　# 评测流程介绍

　　本次评测采用"视觉状态对比+单步模型初审+人工终审修正"的人机协同裁判机制，由裁判模型逐帧判定每步动作有效性，再经人工结合全量截图与执行轨迹综合复核、修正存疑步骤，最终输出经人工校验的任务完成度得分。评测需前置准备三类数据：

　　坐标标注处理(预处理)：

　　1.判断该步是否涉及坐标操作(如click、long_press、swipe等)

　　有坐标：在该步截图(step_i.png)上标注坐标点，输出为step_i_marked.png

　　无坐标(如全局操作press_home、input_text等)：直接复制原图并重命名为step_i_marked.png

　　2.所有marked图片统一归档，作为后续裁判模型的视觉输入。

　　裁判模型逐步评分(第一层：单步评判)

　　按步骤顺序循环迭代，由裁判模型对每一步进行独立打分：

　　输入内容：

　　普通步(i