昇腾从硬件到软件提前布局 迎接Agent时代挑战
中国大模型能力在过去一年中已经跻身全球第一梯队。MiniMax M2.5、Kimi K2.5的Token消耗量在OpenRouter上长期位居前列,DeepSeek V4也常被拿来与GPT-5对标。这些模型之所以能够运行,是因为现有的算力底座足够强大。

然而,当进入Agent时代时,现有的“够用”可能不再足够。“能跑”和“跑得舒服”是两码事。在今年的鲲鹏昇腾开发者大会上,昇腾指出,过去一年模型调用频次暴涨了50到100倍,序列长度从Chatbot时代的4K飙升至接近1M,相当于250倍的跨度。MoE推理对时延的要求也越来越苛刻,正从10毫秒向1毫秒级别逼近。

这不仅仅是模型变大的问题,而是整个算力底座的底层逻辑需要被重写。真正的问题在于,当Agent的需求以指数级增长时,现有算力架构还能支撑多久?基于这一视角,昇腾今年在峰会上强调了超节点架构创新、软件全面开源开放以及开发者体验升级,旨在让算力底座从“能跑模型”进化到“天然亲和Agent”。

超节点架构使得数千个NPU之间能够更高效地协同工作。在Chatbot时代,序列长度约4K,KVCache命中一次就够,NPU之间的通信压力不大。但进入Agent时代,推理链路拉长到接近1M tokens,KVCache需要跨NPU频繁跳跃。这时,问题不仅在于带宽是否足够,而是如何优化NPU之间的通信。传统方案下,每个NPU挂载独立内存,跨NPU访问要走消息语义,单次通信在微秒级。而昇腾超节点通过灵衢互联协议和总线控制器,实现了全域内存统一编址,使得NPU和CPU可以直接用虚拟地址访问任意位置,无需改代码、无需路由、无需拷贝。此外,通过片上内存和DDR的分层池化能力,查询时延大幅降低,训练和推理吞吐相比传统集群提升3到4倍。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com