返回工具研究所
工具教程原创10 分钟阅读

Token 不是千瓦时

Sam Altman 将 AI 比作电力和水务,主张按量收费。这个类比在逻辑上卡在一个关键问题:传统公用事业的原材料不来自用户,而大模型训练的“原材料”来自同一批即将被“按量收费”的人的公共创作。本文拆解这套定价逻辑在原材料归属、成本结构和基础设施定义三个层面上的内在矛盾。

2026/05/27

Sam Altman 在贝莱德美国基础设施峰会上说了一句话:“我们看到一个未来,智能将像电力和水一样成为公用事业,人们按量向我们购买。”

Reddit 上一条高转发评论回应道:“被偷走的智能,正在被卖回给它真正的主人。”

两句话之间的裂缝,不只是一次社交媒体公关翻车。它暴露了一个尚未被认真回答的问题:一套以“公用事业”自居的定价体系,能否建立在原材料归属悬而未决的基础上。

电力和水务公司建造电厂和水坝,原材料不来自用户。大模型训练所用的数据,却来自同一批即将被“按量收费”的人几十年的公共创作。下面只拆解这个类比在逻辑上卡在了什么地方,不讨论 AI 是否应该收费。

公用事业有门槛,不只是换个说法

“公用事业”在经济学和监管框架里有明确含义。电力、水务、燃气具备三个核心特征:普遍的刚性需求、物理网络的天然垄断性、严格的价格监管与准入审批。电价需要经过公用事业委员会的听证和批准,水务公司不能拒绝为偏远社区供水,这是“普遍服务义务”的一部分。

Altman 在贝莱德峰会上说得更直白:“从根本上说,我们的业务,以及我认为所有其他模型提供商的业务,最终都会看起来像在卖 token。”

这句话瞄准的是基础设施投资的叙事框架:稳定的现金流、不可替代的需求、规模效应驱动的收益。BlackRock 显然接收到了信号。2024 年 9 月,BlackRock 与 Microsoft、Global Infrastructure Partners 和 MGX 成立了 AI 基础设施投资伙伴关系,目标投资 1000 亿美元,聚焦数据中心和能源基础设施。

但“公用事业”对应的公共责任那一半,Altman 的公开表态中并未触及。token 定价完全由模型提供商单方面设定,没有第三方监管介入。根据 OpenAI 官方定价页,GPT-5.5 输入为每百万 token 5 美元,输出为 30 美元;GPT-5.4 mini 输入 0.75 美元,输出 4.5 美元。这些价格由 OpenAI 自行调整,没有听证会,没有价格上限审查。

Gizmodo 在 2026 年 3 月 12 日的报道中指出,将 AI 称为“公用事业”在逻辑上暗示政府补贴和公共监管的介入,但 Altman 绕开了这一部分。基础设施资本希望获得公用事业的稳定收益,但不一定愿意接受公用事业的公共约束。

在这个意义上,“公用事业”更像一种定价权主张,而不是产业定位陈述。

公用事业不靠回收用户既有资产起家

在典型的电力成本结构中,煤炭、天然气、铀矿石从矿业公司采购,有产权交割,有对价支付。水务公司取用地表水或地下水,受取水许可和水权制度约束。原材料的来源和归属是清晰的,不来自用户的既有资产。

大模型训练的“原材料”来自哪里?

Common Crawl 在 2025 年 3 月提交给英国版权咨询的文件中声明:“如今,Common Crawl 是全球几乎所有大语言模型训练数据中约 70% 到 90% token 的来源。”Common Crawl 是一个非营利组织,定期爬取全网公开页面,将数据免费提供给研究者和企业。

维基百科条目、Stack Overflow 回答、个人博客、摄影作品、论坛帖子、电子书,这些人类在互联网上几十年的集体创作,构成了当前绝大多数大模型的训练基底。在被抓取时,多数没有产权交割,没有对价支付,甚至没有告知。

Books3 数据集是另一个被反复提及的案例。据 The Atlantic 2023 年 9 月报道,Books3 包含约 19 万本未经授权的书籍,被 Meta、Anthropic、Apple 等公司用于模型训练。Meta 在 2024 年 1 月的法庭文件中承认使用了该数据集。

OpenAI 的官方立场是:“使用公开可获取的互联网材料训练 AI 模型构成合理使用,这得到了长期且广泛接受的先例支持。”Google 同样主张合理使用。

“合理使用”是一项法律辩护,其成立与否取决于法院对四个要素的具体权衡:使用的目的和性质、受版权保护作品的性质、使用的数量和实质性部分、对作品潜在市场或价值的影响。它不是一项确权,而是一个需要逐案判断的抗辩理由。截至 2026 年,美国联邦层面尚未形成明确的法律结论,多个集体诉讼仍在进行中。

但即使“合理使用”主张在未来司法判决中被确认成立,它在模式对比上仍然揭示了一个差异:传统公用事业不依赖“回收公众既有资产”来制造商品。电力公司不会从你的后院挖煤,然后按度卖回给你。

谁在为自己的东西付第二次钱

问题不在于 AI 服务是否应该收费。训练基础设施、推理算力、工程人力都是真实成本,需要被覆盖。问题在于计费的前提:原材料未经许可被抽取,产出物却以精确到小数点后两位的 token 单价卖给同一批贡献者。

一个在 Stack Overflow 上回答了十年技术问题的开发者,如果他的答案进入了 Common Crawl,进而进入了 GPT 的训练数据,那么当他使用 GPT-5.5 的输出时,他不仅在为推理算力买单,他还在为自己曾经免费贡献的知识结构买单。没有人在价值链中为后一个环节向他支付任何费用。

Reddit 上另一条高赞评论写道:“他们把我们挤出 RAM 和存储,再以公用事业的形式卖回给我们。”

公用事业的逻辑是:用户支付的是“将资源转化为服务”的加工成本和网络成本,不是资源本身。电费账单里的每一度电,对应煤炭的采购成本、电厂的运维成本和电网的传输成本。矿产公司在卖出煤炭时已经收到了钱。

Token 账单里,没有任何条目对原始内容创作者进行补偿。当原材料成本为零或接近零,而成品以计量单位出售,定价模型在“原材料”一栏是空白的。公用事业的财务模型不会在原材料成本一栏留白。AI 的这张账单目前恰恰是空的。

部分平台已进入授权通道。Stack Overflow 于 2024 年与 OpenAI 达成数据授权合作,但具体条款、覆盖范围和分成模式未公开。这类个案的存在说明,为训练数据付费并非没有先例,只是尚未成为行业默认规则。

数据中心的钢筋和语料缺口

BlackRock 的 1000 亿美元赌注投向的是数据中心的钢筋水泥、输电线路和变电设备。这些是真正的物理基础设施,有明确的资产边界、产权归属和折旧曲线。投资人的回报来自建设完成后持续收取的使用费。

大模型被放进数据中心的机架上,但模型的能力不完全来自机架。GPU 集群提供的是算力,不是智能。智能来自训练数据,来自人类几十年的写作、对话、编码、拍摄和绘制。

基础设施话语将“数据中心加 GPU 加模型”打包成一个整体叙事。投资人的注意力被引向电力瓶颈和芯片供应,这两个问题有明确的解决方案:建更多电厂,造更多芯片。训练数据的原材料归属问题被留在叙事之外,因为它没有这么清晰的解决方案。

Authors Guild 自 2023 年起对 OpenAI 提起诉讼,主张 AI 训练使用受版权保护的作品需获得作者许可。美国版权局于 2025 年发布了关于生成式 AI 训练中使用版权作品的报告,但截至目前,法律结论尚未落定。

如果法院最终判定大规模爬取训练数据构成侵权,AI 模型现行的成本结构将面临重新计算。潜在的数据授权费用、追溯补偿和合规成本,会从当前为零或接近零的原材料成本,跳升到一个尚未出现过的市场定价。公用事业的财务模型经不起这种变量。电力公司在建电厂之前就知道煤炭多少钱一吨。AI 公司不知道训练数据的“市场价”是多少,因为这个市场从未被允许形成。

选择性类比走不到底

Altman 在贝莱德峰会上的发言对象是基础设施投资者。他的对话人是 Adebayo Ogunlesi,Global Infrastructure Partners 的 CEO,同时也是 OpenAI 的董事会成员。在这个语境下,“公用事业”是一个融资话术,不是一份监管申请。

但这个话术一旦进入公共讨论,就无法只保留对自己有利的那一半。公用事业意味着稳定需求,也意味着价格管制。意味着基础设施投资回报,也意味着普遍服务义务。意味着规模效应,也意味着公共监督。

AI 公司一边在法庭上主张“这是合理使用”,一边在投资人面前把模型能力包装成“公用事业”。合理使用尚未有司法定论,公用事业定位尚未有监管框架。在两个“尚未”之间,定价权完全掌握在模型提供商手中,原材料的贡献者没有任何议价席位。

这不是一家公司的问题。Common Crawl 的 70% 到 90% 占比意味着,几乎所有大模型都建立在同一套“公共语料免费抽取”的成本结构之上。Meta 使用 Books3,Anthropic 使用公开爬取数据,Google 主张合理使用。即使某一家公司想要改变做法,在没有市场定价机制和法律判例的情况下,它甚至不知道“正确”应该花多少钱。

Altman 的“公用事业”愿景在工程和资本层面并非没有逻辑。AI 确实正在成为一种基础设施级别的能力,token 确实是目前最自然的计量单位,按量计费确实比固定订阅更符合成本结构。但一个完整的公用事业框架,需要回答原材料从哪里来、谁为原材料付了钱、定价是否受到公共监督这三个问题。

在回答这三个问题之前,“像水电一样收费”只是一个被抽掉了一半前提的类比。Token 不是千瓦时。千瓦时背后的每一克煤都有账单。Token 背后的每一个词,账单还没寄到。