英伟达官宣产品NVIDIACosmos3 全球首款全开源全模态大模型

沄森™2026-06-05

英伟达今日正式推出Cosmos 3，这是一款面向物理人工智能的开放世界基础大模型。该模型基于混合Transformer架构打造，集成了视觉推理、世界生成与动作预测能力

英伟达官宣产品NVIDIACosmos3 全球首款全开源全模态大模型。英伟达今日正式推出Cosmos 3，这是一款面向物理人工智能的开放世界基础大模型。该模型基于混合Transformer架构打造，集成了视觉推理、世界生成与动作预测能力。

Cosmos 3是全球首款全开源的全模态大模型，能够理解和生成文本、图像、视频、环境音效及动作内容，物理仿真精度领先业界。它能显著缩短物理人工智能的训练与评估周期，从数月减少到数日。

英伟达还发起了宇宙联盟，汇聚全球世界模型研发团队与人工智能开发者合作，成员包括Agile Robots、Black Forest Labs、Generalist、LTX、Runway以及Skild AI，共同推动下一代世界模型技术发展。

英伟达创始人兼首席执行官黄仁勋表示，多模态推理语言、视觉与世界模型接连取得突破，标志着物理人工智能的变革时代即将到来。Cosmos 3系列开源前沿全模态模型将助力开发者实现技术跨越，打造能在现实世界中感知、推理、规划并执行动作的机器人、自动驾驶汽车及视觉智能系统。

长期以来，物理人工智能面临的核心难题是如何让机器人、自动驾驶车辆与视觉智能体在有限训练数据和零散仿真框架下，在真实场景中具备泛化能力。Cosmos 3通过采用混合Transformer架构解决了这一问题，结合了推理Transformer与专精生成类Transformer，先解析物体交互、运动规律以及时空关联关系，再完成视频生成与动作轨迹预测。

Cosmos 3基于海量多模态物理人工智能数据集训练而成，涵盖数十亿条文本、图像、视频、音效及动作轨迹样本。开发者可以利用这款预训练基础模型，用更少的数据和更低的成本搭建物理人工智能系统。

开发者可以将Cosmos 3用作多模态图文大模型，实现跨模态理解与推理；也可以用作世界模型或视频基础模型，仿真物理环境、预判场景未来状态，支撑模型训练与评估；还可以作为世界动作模型主干网络，辅助训练机器人完成各类专项任务。

在物理人工智能主流评测基准中，Cosmos 3表现优异。其世界生成精度在Artificial Analysis、Physics-IQ、PAI-Bench和R-Bench中排名第一；动作策略能力在RoboLab和RoboArena基准中领先；视觉理解能力位居Vantage（VNTG）-Bench和TAR榜单榜首。

Cosmos 3提供多个版本，适配不同研发阶段需求。Cosmos 3 Super面向机器人与自动驾驶模型的二次训练，追求极致物理精度与生成效果；Cosmos 3 Nano可在数秒内完成高品质视频解析与动作推理；即将上线的Cosmos 3 Edge主打边缘端实时推理。目前，Cosmos 3 Super与Nano已正式推出，Edge版也即将上线。