昇腾从硬件到软件提前布局迎接Agent时代挑战

沄森™2026-06-03

中国大模型能力在过去一年中已经跻身全球第一梯队。MiniMax M2.5、Kimi K2.5的Token消耗量在OpenRouter上长期位居前列，DeepSeek V4也常被拿来与GPT-5对标

中国大模型能力在过去一年中已经跻身全球第一梯队。MiniMax M2.5、Kimi K2.5的Token消耗量在OpenRouter上长期位居前列，DeepSeek V4也常被拿来与GPT-5对标。这些模型之所以能够运行，是因为现有的算力底座足够强大。

昇腾从硬件到软件提前布局

然而，当进入Agent时代时，现有的“够用”可能不再足够。“能跑”和“跑得舒服”是两码事。在今年的鲲鹏昇腾开发者大会上，昇腾指出，过去一年模型调用频次暴涨了50到100倍，序列长度从Chatbot时代的4K飙升至接近1M，相当于250倍的跨度。MoE推理对时延的要求也越来越苛刻，正从10毫秒向1毫秒级别逼近。

昇腾从硬件到软件提前布局迎接Agent时代挑战

这不仅仅是模型变大的问题，而是整个算力底座的底层逻辑需要被重写。真正的问题在于，当Agent的需求以指数级增长时，现有算力架构还能支撑多久？基于这一视角，昇腾今年在峰会上强调了超节点架构创新、软件全面开源开放以及开发者体验升级，旨在让算力底座从“能跑模型”进化到“天然亲和Agent”。

昇腾从硬件到软件提前布局迎接Agent时代挑战

超节点架构使得数千个NPU之间能够更高效地协同工作。在Chatbot时代，序列长度约4K，KVCache命中一次就够，NPU之间的通信压力不大。但进入Agent时代，推理链路拉长到接近1M tokens，KVCache需要跨NPU频繁跳跃。这时，问题不仅在于带宽是否足够，而是如何优化NPU之间的通信。传统方案下，每个NPU挂载独立内存，跨NPU访问要走消息语义，单次通信在微秒级。而昇腾超节点通过灵衢互联协议和总线控制器，实现了全域内存统一编址，使得NPU和CPU可以直接用虚拟地址访问任意位置，无需改代码、无需路由、无需拷贝。此外，通过片上内存和DDR的分层池化能力，查询时延大幅降低，训练和推理吞吐相比传统集群提升3到4倍。