搭载华为芯片，GLM-5.2 实际能力如何？

2026年6月13日下午5点21分，智谱将GLM-5.2推送至GLM Coding Plan所有套餐用户。同时宣布的还有两条信息：API下周上线，模型将以MIT许可证开源。

但这场发布漏掉了一件事。没有跑分。没有SWE-bench成绩，没有HumanEval表格，没有任何第三方对比图表。在2026年的模型发布节奏里，这种情况极不寻常。就在过去两个月，GPT-5.5发布时带了DeepSWE和SWE-bench Verified数据，Claude Fable 5发布时Anthropic官方给出了SWE-bench Verified 95%的成绩单，甚至连只隔了一天发布的Kimi K2.7 Code都配了几个第三方评测数字。唯独GLM-5.2，什么都没有。

两种解释。第一种是成绩不够好看，暂时压着。第二种是智谱在有意换一种发布逻辑，让开发者先用起来，开源权重之后再让社区自己验证。无论哪种，都指向同一个事实：GLM-5.2在赌，三张牌的组合能让人在跑分真空期愿意试一试。

这三张牌是：100万token上下文长度、MIT许可证开源、华为昇腾芯片上训练。

三张牌的每一张单独拆开看，都不至于让人惊讶。百万上下文在半年前还是顶尖模型的专属门票，但到了2026年中，GPT-5.5和Claude Fable 5都做到了。MIT开源也不新鲜，智谱从GLM-4系列开始就走这个路线。国产芯片训练的故事从GLM-5就开始了。但当这三张牌同时打出来，组合逻辑就变了：一个在供应链上不依赖Nvidia、可以私有化部署、有能力处理百万token上下文的模型，还不需要按token付费，在当前的国际模型格局里，找不到另一个同类选项。

不过，组合价值是一回事，模型本身的编程水平是另一回事。如果没有能力做底，1M上下文只是1M长度的平庸输出，MIT开源只是把平庸模型搬到了本地。所以真正的问题是：这个模型到底在什么水位？在没有官方数字的情况下，这个问题只能绕路回答。

前代留下的坐标系

GLM-5.2没有跑分，但它的上一个版本GLM-5.1有。

2026年5月，GLM-5.1在SWE-Bench Pro上拿到58.4%的成绩。智谱的官方文档显示，这个数字当时超过了GPT-5.4的57.7%和Claude Opus 4.6的57.3%。这是整个GLM-5系列目前最高调的成绩，也是GLM-5.2编程能力的最近历史参照。

58.4%在当时的SWE-Bench Pro榜单上是一个“可堪一战”的位置，短暂地让开源模型站在了闭源模型的水平线上。但现在坐标系已经位移了。Claude Fable 5在6月9日发布时，把SWE-bench Verified拉到了95%，SWE-bench Pro拉到了80%。GPT-5.5在SWE-bench Verified上的成绩在不同评测源中有差异，Vals AI给出的数据是82.6%至87.6%之间，DeepSWE榜单上以70%排在第一。

SWE-bench Pro上，58.4%到80%之间隔了超过20个百分点。这不是一个可以通过微调或者优化推理策略填平的差距。GLM-5.1到GLM-5.2只有一个月的时间窗口，这么短的时间内发生“跨越性跃升”的概率，任何做过模型训练的人都会谨慎对待。

但也不要被最顶尖的成绩锚定住判断。GLM-5更早的一个版本在非官方评测中拿到过SWE-bench Verified约77.8%的成绩，这条数据来自X/Twitter上的非官方帖子，未经智谱官方确认。如果GLM-5.2的编程能力大致落在GLM-5和GLM-5.1之间的连线上，SWE-bench Verified水平大概率在78%上下。

78%是什么概念？如果把Fable 5的95%当成编程模型的“天花板”，GPT-5.5的83%到88%大致是“第一梯队”，那么78%仍然处在一个被称为“实用门槛”的区域，低于最顶尖水平，但高于多数实际开发场景的最低下限。一个78%的模型可以处理常规的代码生成、函数补全、中等复杂度的bug修复，但在涉及跨文件重构、多步骤推理、复杂系统设计时，准确率衰减会比顶尖模型更快。

这意味着GLM-5.2最可能所处的位置是：编程能力差于GPT-5.5约5到10个百分点，与Fable 5的差距更大。这不是结论，是基于前代数据的最保守外推。具体的数字要等智谱公布跑分或者开源后社区自己跑。

在跑分缺位的情况下，唯一能判断GLM-5.2长上下文真实表现的材料，是一篇知乎上的实测记录。

长上下文能用，但速度暴露了区别

这篇知乎实测来自一位在GLM-5.2上跑了多个长任务的开发者，样本仅此一例。他给出的反馈非常有信息量。

在400K到500K token上下文范围内，GLM-5.2的准确性和指令遵循能力“与Claude差距不大”。这是一个具体的判断。它说明这100万token上下文的可用范围不只是理论上的，至少在填充到40%至50%容量时，模型没有明显退化。

但同一个开发者测试了一个更极端的场景：完成一个10万行代码项目的bug排查。GLM-5.2花了21分钟完成任务。过程描述是“几乎一致”，但Claude Opus 4.8在fast模式下只用了6分钟。这是3.5倍的速度差距。

还有另一个场景：将一个网站转换为小程序，GLM-5.2用了40分钟。功能完整，但UI审美上“有差距”。

开发者的总结是八个字：“像勤勤恳恳的老黄牛”。

这三个测试场景合在一起，给出了一个比任何Benchmark都更有价值的判断维度：GLM-5.2不是“不够聪明以至于任务失败”的模型，而是“足够完成任务、但更慢、更朴实”的模型。长上下文窗口是真实的，不是营销数字。400K到500K范围内的表现说明其在中高负载下的注意力机制运作良好。速度差距在包月制模式下被消化掉了，21分钟和6分钟消耗的都是月费而非token数，但在对时效性有要求的场景中，这个差距会直接限制适用性。

Reddit上r/LocalLLaMA和r/ZaiGLM社区的讨论，整体态度可以概括为：对没有Benchmark这件事保持谨慎，但愿意等到开源周之后自己测。有用户说“1M上下文下性能大概是Claude的一半，价格也差不多这样”，这话在社区语境里是评论而非测试结果，不应被当作数据引用。

也就是说，在GLM-5.2没有官方跑分的这周，外界对其能力的唯一具体判断来源，是GLM-5.1的前代成绩，以及零星的开发者体验反馈。没有准确实力定论，但有大致区间可以参考。

填满百万token的代价

上下文窗口的长度在2026年已经从技术差异变成定价差异。GLM-5.2、GPT-5.5、Claude Fable 5三款模型全部支持百万级上下文，参数层面的距离已经拉平。剩下的问题是：真的有人在生产中把上下文填满时，各自要付出什么成本。

先看各家定价。OpenRouter和Appwrite等平台上的记录显示，GPT-5.5的API定价是输入每百万token 5美元，输出每百万token 30美元，输入和输出的价格比是1比6。Anthropic官方页面显示，Claude Fable 5定价为输入每百万token 10美元，输出每百万token 50美元，价格比是1比5。

GLM-5.2的API定价要到下周上线时才公布。唯一可以参照的是Z.AI开发者文档中记录的GLM-5.1定价：输入每百万token 1.4美元，输出每百万token 4.4美元。

假设一个场景：输入100万token的上下文，输出10万token的代码或技术文档。在GLM-5.1参考价下，这个场景的单次调用成本约为1.84美元。GPT-5.5的相同场景成本约为8美元。Claude Fable 5则需要15美元。

GLM-5.2最终定价如果与5.1持平或接近，填满上下文的成本就是竞品的四分之一到八分之一。即使调价，只要不跳涨三四倍，成本优势的结构就不会被打破。

这个成本账还有另一个计费模式上的变量。GLM Coding Plan走的是包月制。36氪和Z.AI开发者文档记录显示，Lite套餐在中国市场定价49元人民币每月，Pro套餐149元每月，Max套餐469元每月，按提示次数计费而非token计费。Max套餐在5小时内可以调用约1600次提示，每周额度约8000次。这意味着Coding Plan用户在处理长上下文任务时不受token消耗的心理约束，21分钟一次的bug排查和6分钟一次在账单上没有任何区别。

GPT-5.5和Fable 5走的是纯按token计费。长上下文的使用模式，一次填入整个代码库然后交互式追问，会导致token累积速度极快。这对于把长上下文作为工作流基础的用户会产生真实的预算压力。Reddit上关于Fable 5消耗的讨论中，已经有用户反映Pro计划在每分钟约2美元的速度下几小时就用完了配额。

GLM-5.2的定价模式选择不是单纯打价格战。它在朝一个不同的使用习惯靠拢：让开发者填满上下文窗口时没有任何心理负担。这种模式最适合的场景是代码库级理解、长文档维护、跨文件重构任务。不适合的场景是按需调用、低频对话、或者只需要短上下文的轻量任务，在那类场景里，Kimi K2.7 Code更低的基础token价格更有优势。

关于Kimi K2.7 Code，做一个简单的位置判断。虽然这篇文章的主角是GLM-5.2，但Kimi也赶在相邻的档口发布了一个新版本。Kimi K2.7 Code的策略是上下更短、价格更低、模型更轻。Moonshot官方文档显示上下文只有256K token，架构是MoE激活32B参数。OpenRouter上的API记录显示输入价格是每百万token 0.75美元，输出3.5美元。Vals AI给出的SWE-bench成绩是78.2%，与GLM-5的77.8%在同一条水位线上。它在“轻量部署”这件事上可能比GLM-5.2更友好，但256K上下文的限制意味着它无法进入长上下文任务的比赛场地。

GLM-5.2和Kimi K2.7 Code在同周发布不是巧合。国产编程模型正在朝两个方向分化：一个奔着更长上下文和私有化部署，一个奔着更低成本和更小参数量。两个方向都有各自的战场。但到目前为止，这两款模型都没有完整的第三方评测数据。

MIT开源的分量跟跑分无关

定价和上下文的对比都依赖于一个前提：模型本身的能力到位。但GLM-5.2还有另一个决策变量，它的权重比编程能力本身还要重。

MIT开源。免费商用，可以修改，可以私有化部署。没有附加条款。

GPT-5.5和Claude Fable 5都完全闭源，只通过API调用。没有开源计划，没有权重下载。Kimi K2.7 Code有模型权重，但具体许可证尚未明确公布。

这件事的价值不在技术评测维度，而在采购和合规维度。对于需要处理涉密代码、金融数据、政府项目的团队来说，一个MIT开源的百万上下文模型不是“另一款编程助手”，而是唯一一个可以让数据不出境的选项。在Fable 5被暂时要求暂停外国公民访问之后，Anthropic于6月12日公开确认收到美国政府指令，已对所有用户关停Fable 5，这个选项的权重就更高了。GLM-5.2在禁令第二天发布，时间点的巧合不需要过度解读，但它确实把“自己部署模型不受外部政策波动影响”这个事实推到了前台。

MIT开源还有一层不够明显但更长期的分量。开源一周后，社区可以自己评测GLM-5.2的真实能力，不需要通过智谱的任何官方渠道。跑分数据会来自Hugging Face上跑完SWE-bench的独立开发者，来自把权重下载下来在自己的代码库上测试的团队，来自Reddit和Hacker News上逐项对比的帖子。智谱选择了把这个验证权交给社区，而不是控制在自己的发布文档里。这是在跑分真空期做“先发布后证明”的底气来源，也是风险来源：能力不足的话会暴露得很快，能力强的话社区会自传播。

但也要提一个公开可见的限制。GLM-5.2是纯文本模型，不支持图像或视频输入。知乎实测文章直接写着“不支持多模态”。GPT-5.5支持文本和图像输入，Kimi K2.7 Code甚至支持文本加图像加视频输入。GLM-5.2在这个维度上做出了明确的取舍：把全部模型容量押在文本和代码上。

而且目前还不知道开源会包含什么。是完整的训练权重和配置文件，还是仅推理权重。华为昇腾芯片上训练的745B MoE架构模型，在普通开发者的GPU集群上能否跑起来，硬件门槛有多高。智谱的团队版Coding Plan可能已经优化了推理服务，但私有化部署的硬件需求要等开源后才能确认。

还有一个细节。智谱官方用“真正可用的100万上下文”这个表述。这一措辞暗示内部也做过长上下文召回率测试，对竞品的“标称上下文”和“实际可用上下文”的落差有自己的判断。但官方没有给出具体的测试方法和数据。官方的“真正可用”和开发者拿到的实际体验之间，可能还有验证距离，至少目前只有一个知乎用户的400K到500K测试报告，没有1M满载测试。

在没有跑分的状态下做决定

GLM-5.2当前的发布状态是一个很精准的测试场景：如果手头没有官方数据，只能根据已知事实判断，它现在值不值得进入选型考量。

对不同类型的决策者，答案不一样。

如果你是一个需要处理大型代码库的个人开发者，GLM-5.2的Coding Plan包月制是目前市场上唯一一个让你可以在100万token上下文中无压力反复调试的方案。Max套餐469元月费在单次成本上的优势远高于按token计费的竞品，特别是当你一天需要多次填满上下文时。知乎实测的“老黄牛”反馈说明它能干活，只是慢一点、审美差一点。

如果你是一个团队采购决策者，而且处理的代码或数据有合规要求，不能出境、不能依赖第三方API，GLM-5.2的MIT开源加上国产芯片训练是目前不可替代的组合。GPT-5.5和Fable 5无法满足“私有化部署且不受制于美国出口管制”这一前提。等待GLM-5.2开源后直接部署到自己的服务器上，是当前最通顺的合规路径。

如果你需要的是最准确的编程结果，而且预算允许，GPT-5.5在SWE-bench Verified上的83%至88%和DeepSWE 70%的成绩让它成为当前最可靠的选择。Fable 5因为暂停访问暂时出局。

如果你想一探国产模型的轻量方案，Kimi K2.7 Code的256K上下文和更低的token价格是值得留意的一个变量，但它和GLM-5.2不在同一个战场中。

不做选择，先等下周开源和第三方评测，是目前最安全但最无用的决定。有用的是搞清楚自己在哪个场景里，然后看GLM-5.2的这组配置是否恰好踩中了你的优先级：如果开源和私有化部署排第一位，它几乎是唯一选择。如果成本和调用自由排第一位，它的包月制逻辑比按token计费更适合高频长上下文用户。如果纯粹比跑分排第一位，那就得等社区评测结果了。

一周之后，所有判断都会落地。