token经济学:从小龙虾到算力到能源
尼克(张晓东)。国家级海外高层次人才,乌镇智库理事长。中国人工智能最高奖吴文俊奖获得者。曾师从图灵奖得主、强化学习之父Barto。早年在哈佛和HP从事研发,是多个国际标准化组织工作组发起人。曾在硅谷和大陆连环创业和投资。著有《人工智能简史》《理解图灵》《哲学评书》和《UNIX内核解析》等,著作屡获国家级大奖,包括中华优秀出版物奖、国家图书馆文津奖和央视中国好书奖等。
英伟达的CEO(首席执行官)黄仁勋已成为人工智能时代的标志性人物,该公司生产的人工智能芯片供不应求,其公开发表的演讲内容亦频繁被业界关注与引用。在2026年3月的英伟达开发者大会上,黄仁勋展示的一张被称为“五层蛋糕”的ppt,在过去两个月内,成了几乎所有学者、企业家和官员们在阐释人工智能宏大叙事的开篇。
所谓“五层蛋糕”,形式上或有所借鉴互联网时代经典的七层协议栈的说法,把现在人工智能产业从下而上分割成五层技术栈:最底层是能源,之上是芯片,再上是基础设施,再上是大模型,最上是应用,具体内容如下:
这一框架不仅是一张技术结构图,也为我们理解当前人工智能产业从底层能源到上层应用的完整链条提供了便利的分析工具。在自下而上展开讨论之前,有必要先介绍一个贯穿五层的关键概念——token(词元)。
贯穿五层的关键概念:token(词元)
token最初是由美国实用主义哲学家和逻辑学家皮尔士(Charles Sanders Peirce)于1906年在符号学中引入的,用于表示符号的基本单位。在语言学中,token表示基本语义单位(例如一个字母、一个词根、一个单词,甚至一个短语),国家数据局把token定义为“词元”。事实上,token的用法并不限制于语言,在多模态大模型中,一个音素,一个像素或者一段视频都可以是token。语言模型所采用的通用学习算法“下一个token预测”(next token prediction),也被广泛地用于语音、图像和视频等多模态大模型中。token贯穿了从智能体到底层芯片的每一层级。传统通信运营商以流量为度量单位,而目前人工智能领域尚无公认的、精确衡量智能水平的指标。因此,token虽然不尽完善,但仍具有一定的参考价值。
值得注意的是,token不仅有数量的要求,还有质量的要求。高质量模型生成的token在价值上显著高于低质量模型生成的token。类比围棋领域,九段棋手所输出的“招数”(亦可视为一种token)的质量远高于初学者。另外,不同大模型的功能也在分化,例如最近势头最猛的大模型公司Anthropic的产品的编程能力超强。因此,在为token定价时,不仅需要考虑成本因素,还需纳入功能维度的考量。这也是token与传统通信运营商的带宽、流量以及电网的电力度数之间的本质区别——token尚不能被视为智能的严格量纲。
目前,高质量token市场呈现卖方市场特征,几家头部模型提供的token已经出现一票难求的局面。值得一提的是,此前在区块链与比特币领域亦存在“token”概念,彼时被译为“代币”或“通证”。但人工智能领域的token与比特币领域的token并非同一概念。
能源层:算力的物理天花板
能源是人工智能发展的根本约束,决定算力的上限。近年来,token需求的指数级增长导致对算力需求的指数级增长,又进一步导致对能源需求的指数级增长。2024年,OpenAI中参与过首席科学家伊利亚·苏茨凯弗未成功政变的团队纷纷离职,最后一个离开的工程师Leopold Aschenbrenner被公司以“泄密”为由开除,他随即发布名为Situational Awareness的报告,展望未来十年的AI进展,他预测:2024年全球最大的大模型需要10万张英伟达算力卡,2026年需要100万张卡,2028年需要1000万张卡,而2030年需要1亿张卡。1亿张卡所消耗的能源将占美国当前全年能耗的20%–25%。值得注意的是,这仅是一个单一大模型的能耗。
人工智能公司对能源的迫切需求已经导致美国民用电力大幅涨价。特朗普政府于3月召集主要人工智能公司签署“电力消费者保护承诺书”(Ratepayer Protection Pledge),要求企业自行承担AI数据中心的电力供应成本,包括自建或购买发电资源,避免将增量用电成本转嫁给居民。这一政策被行业分析人士解读为鼓励算力中心走向‘电表之后’(behind the meter)的自备电力模式。
因为核聚变技术发展的不确定性,几年前美国出现了一批第四代SMR(小型模块化核反应堆)公司。SMR本身并非全新的技术,仍然是核裂变技术,核动力航母和潜艇均采用SMR,但第四代SMR采用了液态金属和气冷等冷却技术,而不是常规的水冷,极大提升了安全性、效率和部署的灵活性。几家最先进的SMR公司纷纷上市,部分公司幕后的控股股东是高科技公司。OpenAI的CEO奥特曼甚至亲自下场担任过SMR公司的CEO。2024年时,大家预测SMR会在2026年量产,当年这些公司股价平均上升了十倍左右。但目前看今年量产的可能性不大,于是2025年起股价又大跌50%左右。最大的几家正在建设的数据中心又改为燃气轮机方案,几家头部燃气轮机公司被普遍看好,其中最大的GEV产能已经被订到2033年以后。这种算力导致的能源稀缺,被戏称为Transformer卡了Transformer的脖子(Transformer的一个主要意思是变压器,而目前几乎所有的大模型都在采用谷歌2017年发明的被称为Transformer的神经网络架构)。
芯片层与基础设施层:算力心脏与token工厂
在能源层之上,芯片层是将电力转化为算力的核心载体。英伟达在这一领域长期保持领先地位,但随着人工智能需求接近指数级增长,采用不同技术路线、适配不同场景的芯片层出不穷。尤其针对推理阶段的芯片,更是呈现出百花齐放的状态。
训练与推理均涉及大量计算,使得算力芯片成为紧缺资源。近年来,中国本土的有自主知识产权的算力芯片也逐步经历了从无到有、从“勉强可用”到“可部署”、从小规模部署到万卡集群的演进。
芯片的多样化客观上要求算力基础设施层能够对不同架构的芯片与不同大模型及应用场景进行适配,以实现训练与推理阶段的最优性价比。这就自然过渡到第三层——基础设施层。
2026年4月底,中国开源大模型DeepSeek V4出现,虽未如去年R1出世时那样惊艳,但V4的训练和推理全部采用国产芯片。极大缓解了人工智能共同体对算力不足的焦虑。
模型层:token生成的大脑
模型层是token生成的核心位置,包括语言大模型、多模态模型与开源模型。
大模型的构建大致分为两个阶段:第一,训练,即从海量数据(603138)(文本、图像、视频、动作等)中利用学习算法构建深度神经网络模型;第二,推理,即利用训练完成的大模型为各类业务服务或创造新需求。需要关注的是,统计学中的“inference”正确译法应为“推断”,但由于大模型发展初期,大量自媒体缺乏基础知识,将“inference”误译为“推理”,进而导致大模型的“推理”(inference of model)与“推理型大模型”(reasoning model,即具备逻辑与数学能力的模型)在中文语境中发生混淆。目前,“推理”已成为约定俗成的用语。
从更长远的时间节点看,2022年11月30日或许是人类技术进步最重要的时间节点之一。当日,OpenAI推出了大语言模型ChatGPT,将人工智能再次推向世界关注的中心。然而,被誉为有史以来最伟大知识分子之一的语言学家乔姆斯基,于2023年3月8日在《纽约时报》刊文《ChatGPT的虚假承诺(The False Promise of ChatGPT)》,对ChatGPT的技术路线表示不满。但其实,在“语言即思维”这一哲学命题上,乔姆斯基与OpenAI的工程师之间并无本质分歧——他认为语言的本质是思维,交流只是语言的副产品。而语言能力是人与其他动物的根本区别,其基础性甚至高于感知器官。
应用层:从“小龙虾”到AI+生态
应用层是AI创造经济价值的最终环节,涵盖企业软件、自动驾驶、机器人、生物计算等。当前最受关注的应用形态之一是智能体。
2025年11月24日,奥地利工程师彼得·斯坦伯格(Peter Steinberger)以“Clawdbot”为名发布了一款智能体软件的初始版本。由于该名称与人工智能公司Anthropic的产品Claude发音有冲突,2026年1月,重新将其改名为OpenClaw。春节前后,这个在中国被称为“小龙虾”的智能体迅速大火。大家开发智能体的活动也被戏称为“养龙虾”。受其影响,用于跑“小龙虾”的苹果Mac Mini小主机一度被卖到脱销。
上一轮互联网浪潮导致了电商和智慧城市等技术的普及,这一轮token的供给和消费也会导致更加新型的以人工智能作为核心技术的多样化新形态业务。类似互联网时代的“互联网+”与“+互联网”等业态,人工智能时代也会出现“AI+”与“+AI”的业态。
2026年,国家数据局称中国日均token调用量已突破140万亿——两年增长超过1000倍。考虑到两年前大模型还在初创期,这个数字并不令人惊奇。更值得关注的是,token消费量在2026年2月起增加了10到100倍,其原因是智能体导致的多轮调用使得token的消耗呈指数式上升。
总体来看,黄仁勋提出的“五层蛋糕”说,表面上是一种技术栈的描述,但实际上,从产业分析的角度看,这也不失为一个方便的话语框架。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com