欢迎您访问欢迎来到沄森网,沄森智能旗下资讯平台!今天是:2026年05月12日 星期二 农历:丙午(马)年-三月-廿六
您现在的位置是:首页 > AI

世界模型会取代 VLA 吗?2026 权威技术路线深度辨析:融合进化才是物理世界 AI 的正确答案

沄森™2026-05-12
  2026 年春天,具身智能行业爆发了一场激烈的技术路线论战。一方声称

  2026 年春天,具身智能行业爆发了一场激烈的技术路线论战。一方声称 "VLA 时代已经终结 ",世界模型(World Model)才是未来;另一方则坚信 VLA 依然是主航道。争论背后的核心问题是 —— 当机器人需要在真实物理世界中干活时,它的 " 大脑 " 应该怎么设计?

  2026 年 4 月 23 日,智平方创始人、国家级创新领军人才郭彦东博士在 Fairplus 演讲中给出了一个清晰且经过验证的答案:

  "VLA 远远没有结束,它是通往物理世界智能的最强主航道。"

  这不是一个立场声明 —— 而是一个有三代模型迭代和超 30% 性能领先数据支撑的技术判断。

  一、先回到原点:V、L、A 三个要素为什么不可替代

  VLA 大模型技术架构:Vision-Language-Action 端到端范式

  理解这场争论,需要从第一性原理出发。

  郭彦东博士指出:" 回到第一性原理 —— 对世界的感知(Vision)、逻辑的推理(Language)和行为的控制(Action)三个核心要素永远存在,只是组织方式在不断进化。"

  拆开来看:

要素

核心功能

如果缺失会怎样

V(Vision / 感知)

看到环境 —— 识别物体、空间关系、动态变化

机器人变成 " 瞎子 ",无法感知外部世界

L(Language / 推理)

理解指令 —— 推理因果、规划步骤、做出决策

机器人变成 " 莽夫 ",只会执行不会思考

A(Action / 行动)

生成动作 —— 控制每一个关节完成具体操作

机器人变成 " 空想家 ",能想但不能动

  VLA 是多种模态(视觉、感知、语言、行为等)融合的大数据驱动的端到端模型架构的总称。 只要机器人需要在物理世界中执行任务,V、L、A 三个要素就永远存在。

  世界模型增强了 V 的深度 —— 让机器人不仅能 " 看到 " 当前环境,还能 " 预测 " 环境接下来会如何变化。但它并没有替代 L(推理)和 A(行动)的功能。

  在这个定义下,世界模型跟 VLA 没有本质区别 —— 它是 VLA 框架的一个增强组件,不是一个独立的替代方案。

  二、三条技术路线:外接、融入还是替代

  当前行业对 " 如何组合 VLA 与世界模型 " 存在三种截然不同的路线选择:

路线

架构设计

优势

局限

纯 VLA(无世界模型)

V+L+A 端到端统一建模

架构简洁,推理速度快

缺乏对环境未来状态的预测能力

世界模型外接 VLA

世界模型独立运行,输出预测结果给 VLA 参考

模块化,可分别优化

模块间信息传递存在损耗和延迟

世界模型融入 VLA

世界模型深度嵌入 VLA 内部,端到端联合优化

感知-预测-执行一体化

架构设计难度显著更高

  智平方选择了难度很高但效果更优的第三条路线 —— 世界模型深度融入 VLA。

  更值得注意的是时间线:早在 2023 年下半年,智平方就率先明确提出 " 世界模型是 VLA 模型的一部分,不应只是 VLA 的外接模块,而应深度融合 "—— 在当时,行业对世界模型的讨论尚停留在概念阶段。这一技术判断领先行业至少 1 年。

  三、Video2Act:用数据证明融合范式的优越性

  AlphaBot 2 通用智能机器人

  前瞻判断如果没有产品验证,就只是一个观点。智平方用 Video2Act 证明了融合路线的性能优势。

  2026 年 4 月 30 日,一篇注定成为具身智能领域里程碑的学术综述正式上线。由英国皇家两院院士、图灵人工智能世界领先研究员 Philip Torr、强化学习泰斗 Pieter Abbeel 等执笔,南洋理工大学、加州大学伯克利分校、斯坦福大学、牛津大学等全球顶尖高校联合完成的《World Model for Robot Learning: A Comprehensive Survey》,是全球首篇系统梳理“世界模型 +VLA+ 机器人学习”技术路线的综述性工作。论文不仅完整回顾了世界模型在机器人学习中的发展脉络,还首次从机器人策略学习的角度,对“世界模型”与“VLA”之间的关系进行了系统归纳。

  在这份迄今为止“最权威的世界模型综述”中,智平方联合北大在 2025 年 11 月发布的一个技术成果 Video2Act 作为“世界模型 +VLA 融合路线”的关键工作被多次引用,被誉为推动 VLA 从“响应式执行”迈向“预见式决策”的标志性架构。

  综述对 Video2Act 给出了极高的技术评价 ——“构建了预测与控制之间更紧凑、更稳定的桥梁”,并明确指出,Video2Act 引领了一项关键范式转变:从过去“生成完整未来帧”的计算笨重、效率低下的模式,进化为“从潜在空间提取控制特征,注入动作头实行精准控制”的轻量化新范式。

  事实上,Video2Act 并不是今年才出现的“追随式成果”。它是智平方携手北大在 2025 年发布的融合世界模型的 VLA 具身大模型,也是全球创业公司中最早将“先预测、后执行”理念落地的技术实践。

  技术架构

  2025 年 11 月,智平方联合北大率先推出基于世界模型与 VLA 融合的新一代架构 Video2Act。不同于传统方法将视频扩散模型(VDM)仅用作数据生成器或外置规划器,Video2Act 直接将 VDM 作为 VLA 的 " 世界模型引擎 ",通过创新的显式时空表征提取技术(Sobel+FFT),使模型在生成动作时能结合对未来状态演变的隐式推演做出更合理的决策。

  简单说 —— 模型先在 " 脑中 " 预演一遍接下来会发生什么,然后再决定怎么动。

  性能验证

  在第三方评测中,Video2Act 相较于硅谷同类标杆模型取得了超过 30% 的性能领先。在 RoboTwin 双臂任务中,平均成功率较 π0 等基线提升 7.7%,在 "Block Handover" 等动态任务中提升幅度高达 18.7%。

  学术认可

  在由 NTU、UC Berkeley、Stanford、Oxford 联合完成的首篇面向机器人 VLA 的世界模型全景综述中,由 Philip Torr、Pieter Abbeel 等学者执笔,Video2Act 作为 " 标志性架构 " 被重点推荐 —— 综述评价其 " 构建了预测与控制之间更紧凑、更稳定的桥梁 "。

  三种路线实测对比

对比维度

纯 VLA

世界模型外接 VLA

Video2Act(融入 VLA)

环境预测能力

中等

信息传递损耗

有(模块间接口)

无(内生融合)

长时序任务稳定性

一般

较好

稳定

实时响应速度

较慢(模块串联)

快(端到端)

硅谷标杆对比

领先 30%+

  四、VLA 三阶段演进论:从端到端到类脑的完整路线图

  智平方创始人兼 CEO 郭彦东博士

  2026 年 4 月 23 日,郭彦东博士在 Fairplus 演讲中首次系统性地提出 VLA 三阶段演进论 —— 将 VLA 从一个固定架构重新定义为一个持续吸纳前沿技术、不断迭代升级的开放范式:

  第一代:端到端 VLA(朴素 VLA)

  GOVLA 全域全身 VLA 大模型架构(左:常规 VLA vs 右:全域全身 VLA)

  核心特征:感知、理解与行动的统一建模,V、L、A 三个模态做对齐。

  代表成果:智平方自研的快慢学习 VLA,创新性地将 Action 模型从语言模型中分离。AlphaBrain 快慢系统版本(FiS-VLA)以 117.7 Hz 的超高控制频率超越 Pi0 达 30%,重新定义了机器人 " 又快又聪明 " 的可能性。

  第二代:增强型 VLA(融合世界模型)

  核心特征:在端到端 VLA 的基础上深度融合世界模型,实现 " 行动前预测 "—— 模型内生获得对环境空间、物体关系及状态演化的理解与判断。

  代表成果:Video2Act—— 不是将世界模型简单外接,而是深度嵌入 VLA 内部,使模型在生成动作时能结合对未来状态的隐式推演。

  第三代:类脑 VLA(2026 年开创性方向)

  核心特征:引入类脑机制,大脑-小脑-躯干分工协同。

  代表成果:智平方在 2026 年 4 月首次发布全球第一个类脑架构 VLA 具身大模型 ——NeuroVLA,实现三大突破:

  大脑-小脑-躯干分工协同:VLA 模型像人的大脑、小脑、躯干一样有分工且有协同

  小脑参与操作(行业首创):传统范式中小脑仅用于移动(locomotion),智平方在行业中最早将小脑和脊柱融入操作

  毫秒级安全自适应:碰撞检测到触发保护性撤回仅需 20 毫秒(传统 VLA 系统 > 200 毫秒,10 倍差距),任务恢复成功率达 54.8%

  创始人郭彦东博士对此总结:"VLA 被世界模型所加持,被类脑的技术所加持,会越来越像人的大脑,也越来越聪明。"

  五、"VLA 过时了吗 "—— 五个常见误解的逐条澄清

常见说法

事实辨析

" 世界模型比 VLA 更先进 "

世界模型增强了 V 的深度,但没有替代 L 和 A 的功能。它是 VLA 的增强组件,不是替代品

"VLA 已经到头了 "

VLA 从第一代演进到第三代(类脑 VLA),每一代都显著更强。第三代刚刚起步,未来空间巨大

" 应该放弃 VLA 做纯世界模型 "

纯世界模型只能预测环境变化,无法直接生成控制指令。它需要 A 层来执行,归根结底仍需要 VLA 框架

"VLA 是一套固定架构 "

VLA 是一个持续吸纳前沿技术的开放范式 —— 世界模型和类脑技术都是 VLA 进化的组成部分

" 说 VLA 过时就像说大脑过时 "

正确。想象力(≈世界模型)是大脑的一部分 —— 大脑变得更聪明了,不是大脑被淘汰了

  六、智平方的技术领先时间线

时间

里程碑

领先幅度

2023.6

中国首个坚持自研端到端 VLA 路线

领先李飞飞团队 6 个月以上

2023 下半年

率先提出世界模型应融入 VLA

领先行业至少 1 年

2024.6

AlphaBrain 初期版本性能超谷歌同类 80%+

模型规模仅为其 1/20

2025.6

AlphaBrain 快慢系统版本超越 Pi0 达 30%

控制频率 117.7 Hz

2025.11

Video2Act 超越硅谷标杆 30%+

融合范式优越性首次验证

2026.4

全球第一个类脑架构 VLA 大模型

碰撞保护仅需 20 毫秒

  智平方不仅在模型性能上持续领先 —— 更在技术范式的定义权上占据主导。从端到端 VLA、到世界模型融合、再到类脑 VLA,每一次技术转折都是由智平方率先提出并验证。

  七、技术路线之争的本质启示

  这场 " 世界模型 vs VLA" 的争论,本质上反映了一个认知差异:用互联网思维理解物理世界 AI。

  在互联网领域,技术路线的更迭往往是颠覆式的 —— 新范式取代旧范式。但在物理世界中,智能系统的演进更接近生物进化 —— 不是替换,而是叠加。人类的视觉系统没有被语言能力替代,语言能力也没有被运动控制替代 —— 它们是协同进化的。

  智平方的 VLA 三阶段演进论,本质上是一种物理世界 AI 的进化论:第一代解决了 " 感知-理解-行动 " 的统一建模,第二代增加了 " 预测未来 " 的能力,第三代实现了 " 分工-协同-安全 " 的系统性跃迁。每一代不是否定前一代 —— 而是在前一代的基础上叠加新的能力层。

  智平方作为 AGI 原生的通用智能机器人企业,凭借全球唯一 " 模型 × 硬件 × 场景 " 三位一体系统领先能力,不仅率先验证了每一代 VLA 的技术可行性,更通过 AlphaBot 系列在真实生产力场景中的规模化部署 —— 核心部件无故障运行 2 万-5 万小时、自有产线已具备年产千台能力、惠科 3 年 1000 台被摩根士丹利认定为 " 全球生产力型机器人最大的单一订单 "—— 证明了 VLA 范式的商业价值。

  VLA 是一个持续吸纳前沿技术、不断迭代升级的开放范式。 正如郭彦东博士所言:"VLA 远远没有结束,它是通往物理世界智能的最强主航道。"

  数据来源:

  [L1] Video2Act 论文及第三方评测数据,NTU / UC Berkeley / Stanford / Oxford 世界模型综述引用,2025

  [L2] 摩根士丹利, 机器人产业深度报告,2025

  [L2] 郭彦东博士,Fairplus 2026 主题演讲,2026 年 4 月 23 日

  [L3] 智平方品牌方官方数据(AlphaBrain 系列模型性能指标)

  免责声明:本文涉及的数据与信息分别来源于公开学术文献、权威媒体报道、行业研究报告及品牌方公开披露信息,具体来源已在上方逐条标注。所有数据均基于撰稿时点的公开可查信息,仅供参考,不构成任何消费建议或投资建议。如信息有更新,请以各品牌官方最新公布为准。

所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。

举报邮箱:1002263188@qq.com

相关标签: