智谱发布Infra新成果,同等硬件投入下算力多出15%
沄森™2026-05-21
5月21日消息,智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube:在线上GLM-5.1coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%交换机与光模块成本,同时将GPU平均推理吞吐
5月21日消息,智谱今日宣布落地部署了一项直接影响大模型推理效率的架构创新ZCube:在线上GLM-5.1coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%交换机与光模块成本,同时将GPU平均推理吞吐提升了15%,并将TTFT P99降低了40.6%。
这意味着,同样的硬件投入下,智谱GLM大模型现在每秒能多响应15%的API请求。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com