Token 不是千瓦时

Sam Altman 在贝莱德美国基础设施峰会上说了一句话：“我们看到一个未来，智能将像电力和水一样成为公用事业，人们按量向我们购买。”

Reddit 上一条高转发评论回应道：“被偷走的智能，正在被卖回给它真正的主人。”

两句话之间的裂缝，不只是一次社交媒体公关翻车。它暴露了一个尚未被认真回答的问题：一套以“公用事业”自居的定价体系，能否建立在原材料归属悬而未决的基础上。

电力和水务公司建造电厂和水坝，原材料不来自用户。大模型训练所用的数据，却来自同一批即将被“按量收费”的人几十年的公共创作。下面只拆解这个类比在逻辑上卡在了什么地方，不讨论 AI 是否应该收费。

公用事业有门槛，不只是换个说法

“公用事业”在经济学和监管框架里有明确含义。电力、水务、燃气具备三个核心特征：普遍的刚性需求、物理网络的天然垄断性、严格的价格监管与准入审批。电价需要经过公用事业委员会的听证和批准，水务公司不能拒绝为偏远社区供水，这是“普遍服务义务”的一部分。

Altman 在贝莱德峰会上说得更直白：“从根本上说，我们的业务，以及我认为所有其他模型提供商的业务，最终都会看起来像在卖 token。”

这句话瞄准的是基础设施投资的叙事框架：稳定的现金流、不可替代的需求、规模效应驱动的收益。BlackRock 显然接收到了信号。2024 年 9 月，BlackRock 与 Microsoft、Global Infrastructure Partners 和 MGX 成立了 AI 基础设施投资伙伴关系，目标投资 1000 亿美元，聚焦数据中心和能源基础设施。

但“公用事业”对应的公共责任那一半，Altman 的公开表态中并未触及。token 定价完全由模型提供商单方面设定，没有第三方监管介入。根据 OpenAI 官方定价页，GPT-5.5 输入为每百万 token 5 美元，输出为 30 美元；GPT-5.4 mini 输入 0.75 美元，输出 4.5 美元。这些价格由 OpenAI 自行调整，没有听证会，没有价格上限审查。

Gizmodo 在 2026 年 3 月 12 日的报道中指出，将 AI 称为“公用事业”在逻辑上暗示政府补贴和公共监管的介入，但 Altman 绕开了这一部分。基础设施资本希望获得公用事业的稳定收益，但不一定愿意接受公用事业的公共约束。

在这个意义上，“公用事业”更像一种定价权主张，而不是产业定位陈述。

公用事业不靠回收用户既有资产起家

在典型的电力成本结构中，煤炭、天然气、铀矿石从矿业公司采购，有产权交割，有对价支付。水务公司取用地表水或地下水，受取水许可和水权制度约束。原材料的来源和归属是清晰的，不来自用户的既有资产。

大模型训练的“原材料”来自哪里？

Common Crawl 在 2025 年 3 月提交给英国版权咨询的文件中声明：“如今，Common Crawl 是全球几乎所有大语言模型训练数据中约 70% 到 90% token 的来源。”Common Crawl 是一个非营利组织，定期爬取全网公开页面，将数据免费提供给研究者和企业。

维基百科条目、Stack Overflow 回答、个人博客、摄影作品、论坛帖子、电子书，这些人类在互联网上几十年的集体创作，构成了当前绝大多数大模型的训练基底。在被抓取时，多数没有产权交割，没有对价支付，甚至没有告知。

Books3 数据集是另一个被反复提及的案例。据 The Atlantic 2023 年 9 月报道，Books3 包含约 19 万本未经授权的书籍，被 Meta、Anthropic、Apple 等公司用于模型训练。Meta 在 2024 年 1 月的法庭文件中承认使用了该数据集。

OpenAI 的官方立场是：“使用公开可获取的互联网材料训练 AI 模型构成合理使用，这得到了长期且广泛接受的先例支持。”Google 同样主张合理使用。

“合理使用”是一项法律辩护，其成立与否取决于法院对四个要素的具体权衡：使用的目的和性质、受版权保护作品的性质、使用的数量和实质性部分、对作品潜在市场或价值的影响。它不是一项确权，而是一个需要逐案判断的抗辩理由。截至 2026 年，美国联邦层面尚未形成明确的法律结论，多个集体诉讼仍在进行中。

但即使“合理使用”主张在未来司法判决中被确认成立，它在模式对比上仍然揭示了一个差异：传统公用事业不依赖“回收公众既有资产”来制造商品。电力公司不会从你的后院挖煤，然后按度卖回给你。

谁在为自己的东西付第二次钱

问题不在于 AI 服务是否应该收费。训练基础设施、推理算力、工程人力都是真实成本，需要被覆盖。问题在于计费的前提：原材料未经许可被抽取，产出物却以精确到小数点后两位的 token 单价卖给同一批贡献者。

一个在 Stack Overflow 上回答了十年技术问题的开发者，如果他的答案进入了 Common Crawl，进而进入了 GPT 的训练数据，那么当他使用 GPT-5.5 的输出时，他不仅在为推理算力买单，他还在为自己曾经免费贡献的知识结构买单。没有人在价值链中为后一个环节向他支付任何费用。

Reddit 上另一条高赞评论写道：“他们把我们挤出 RAM 和存储，再以公用事业的形式卖回给我们。”

公用事业的逻辑是：用户支付的是“将资源转化为服务”的加工成本和网络成本，不是资源本身。电费账单里的每一度电，对应煤炭的采购成本、电厂的运维成本和电网的传输成本。矿产公司在卖出煤炭时已经收到了钱。

Token 账单里，没有任何条目对原始内容创作者进行补偿。当原材料成本为零或接近零，而成品以计量单位出售，定价模型在“原材料”一栏是空白的。公用事业的财务模型不会在原材料成本一栏留白。AI 的这张账单目前恰恰是空的。

部分平台已进入授权通道。Stack Overflow 于 2024 年与 OpenAI 达成数据授权合作，但具体条款、覆盖范围和分成模式未公开。这类个案的存在说明，为训练数据付费并非没有先例，只是尚未成为行业默认规则。

数据中心的钢筋和语料缺口

BlackRock 的 1000 亿美元赌注投向的是数据中心的钢筋水泥、输电线路和变电设备。这些是真正的物理基础设施，有明确的资产边界、产权归属和折旧曲线。投资人的回报来自建设完成后持续收取的使用费。

大模型被放进数据中心的机架上，但模型的能力不完全来自机架。GPU 集群提供的是算力，不是智能。智能来自训练数据，来自人类几十年的写作、对话、编码、拍摄和绘制。

基础设施话语将“数据中心加 GPU 加模型”打包成一个整体叙事。投资人的注意力被引向电力瓶颈和芯片供应，这两个问题有明确的解决方案：建更多电厂，造更多芯片。训练数据的原材料归属问题被留在叙事之外，因为它没有这么清晰的解决方案。

Authors Guild 自 2023 年起对 OpenAI 提起诉讼，主张 AI 训练使用受版权保护的作品需获得作者许可。美国版权局于 2025 年发布了关于生成式 AI 训练中使用版权作品的报告，但截至目前，法律结论尚未落定。

如果法院最终判定大规模爬取训练数据构成侵权，AI 模型现行的成本结构将面临重新计算。潜在的数据授权费用、追溯补偿和合规成本，会从当前为零或接近零的原材料成本，跳升到一个尚未出现过的市场定价。公用事业的财务模型经不起这种变量。电力公司在建电厂之前就知道煤炭多少钱一吨。AI 公司不知道训练数据的“市场价”是多少，因为这个市场从未被允许形成。

选择性类比走不到底

Altman 在贝莱德峰会上的发言对象是基础设施投资者。他的对话人是 Adebayo Ogunlesi，Global Infrastructure Partners 的 CEO，同时也是 OpenAI 的董事会成员。在这个语境下，“公用事业”是一个融资话术，不是一份监管申请。

但这个话术一旦进入公共讨论，就无法只保留对自己有利的那一半。公用事业意味着稳定需求，也意味着价格管制。意味着基础设施投资回报，也意味着普遍服务义务。意味着规模效应，也意味着公共监督。

AI 公司一边在法庭上主张“这是合理使用”，一边在投资人面前把模型能力包装成“公用事业”。合理使用尚未有司法定论，公用事业定位尚未有监管框架。在两个“尚未”之间，定价权完全掌握在模型提供商手中，原材料的贡献者没有任何议价席位。

这不是一家公司的问题。Common Crawl 的 70% 到 90% 占比意味着，几乎所有大模型都建立在同一套“公共语料免费抽取”的成本结构之上。Meta 使用 Books3，Anthropic 使用公开爬取数据，Google 主张合理使用。即使某一家公司想要改变做法，在没有市场定价机制和法律判例的情况下，它甚至不知道“正确”应该花多少钱。

Altman 的“公用事业”愿景在工程和资本层面并非没有逻辑。AI 确实正在成为一种基础设施级别的能力，token 确实是目前最自然的计量单位，按量计费确实比固定订阅更符合成本结构。但一个完整的公用事业框架，需要回答原材料从哪里来、谁为原材料付了钱、定价是否受到公共监督这三个问题。

在回答这三个问题之前，“像水电一样收费”只是一个被抽掉了一半前提的类比。Token 不是千瓦时。千瓦时背后的每一克煤都有账单。Token 背后的每一个词，账单还没寄到。