返回工具研究所
工具对比原创11 分钟阅读

搭载华为芯片,GLM-5.2 实际能力如何?

智谱在发布 GLM-5.2 当天没有给出任何 Benchmark 跑分表,这在 2026 年的模型发布节奏中极不寻常。文章围绕这一反常信号,将 GLM-5.2 放进 GPT-5.5、Claude Fable 5 和 Kimi K2.7 Code 构成的国际坐标系中,用前代数据 GLM-5.1 的 SWE-Bench Pro 58.4% 和知乎实测反馈替代缺失的跑分,回答一个核心问题:在没有官方数据的情况下,这款模型到底值不值得进入选型考量。

2026/06/15

2026年6月13日下午5点21分,智谱将GLM-5.2推送至GLM Coding Plan所有套餐用户。同时宣布的还有两条信息:API下周上线,模型将以MIT许可证开源。

但这场发布漏掉了一件事。没有跑分。没有SWE-bench成绩,没有HumanEval表格,没有任何第三方对比图表。在2026年的模型发布节奏里,这种情况极不寻常。就在过去两个月,GPT-5.5发布时带了DeepSWE和SWE-bench Verified数据,Claude Fable 5发布时Anthropic官方给出了SWE-bench Verified 95%的成绩单,甚至连只隔了一天发布的Kimi K2.7 Code都配了几个第三方评测数字。唯独GLM-5.2,什么都没有。

两种解释。第一种是成绩不够好看,暂时压着。第二种是智谱在有意换一种发布逻辑,让开发者先用起来,开源权重之后再让社区自己验证。无论哪种,都指向同一个事实:GLM-5.2在赌,三张牌的组合能让人在跑分真空期愿意试一试。

这三张牌是:100万token上下文长度、MIT许可证开源、华为昇腾芯片上训练。

三张牌的每一张单独拆开看,都不至于让人惊讶。百万上下文在半年前还是顶尖模型的专属门票,但到了2026年中,GPT-5.5和Claude Fable 5都做到了。MIT开源也不新鲜,智谱从GLM-4系列开始就走这个路线。国产芯片训练的故事从GLM-5就开始了。但当这三张牌同时打出来,组合逻辑就变了:一个在供应链上不依赖Nvidia、可以私有化部署、有能力处理百万token上下文的模型,还不需要按token付费,在当前的国际模型格局里,找不到另一个同类选项。

不过,组合价值是一回事,模型本身的编程水平是另一回事。如果没有能力做底,1M上下文只是1M长度的平庸输出,MIT开源只是把平庸模型搬到了本地。所以真正的问题是:这个模型到底在什么水位?在没有官方数字的情况下,这个问题只能绕路回答。

前代留下的坐标系

GLM-5.2没有跑分,但它的上一个版本GLM-5.1有。

2026年5月,GLM-5.1在SWE-Bench Pro上拿到58.4%的成绩。智谱的官方文档显示,这个数字当时超过了GPT-5.4的57.7%和Claude Opus 4.6的57.3%。这是整个GLM-5系列目前最高调的成绩,也是GLM-5.2编程能力的最近历史参照。

58.4%在当时的SWE-Bench Pro榜单上是一个“可堪一战”的位置,短暂地让开源模型站在了闭源模型的水平线上。但现在坐标系已经位移了。Claude Fable 5在6月9日发布时,把SWE-bench Verified拉到了95%,SWE-bench Pro拉到了80%。GPT-5.5在SWE-bench Verified上的成绩在不同评测源中有差异,Vals AI给出的数据是82.6%至87.6%之间,DeepSWE榜单上以70%排在第一。

SWE-bench Pro上,58.4%到80%之间隔了超过20个百分点。这不是一个可以通过微调或者优化推理策略填平的差距。GLM-5.1到GLM-5.2只有一个月的时间窗口,这么短的时间内发生“跨越性跃升”的概率,任何做过模型训练的人都会谨慎对待。

但也不要被最顶尖的成绩锚定住判断。GLM-5更早的一个版本在非官方评测中拿到过SWE-bench Verified约77.8%的成绩,这条数据来自X/Twitter上的非官方帖子,未经智谱官方确认。如果GLM-5.2的编程能力大致落在GLM-5和GLM-5.1之间的连线上,SWE-bench Verified水平大概率在78%上下。

78%是什么概念?如果把Fable 5的95%当成编程模型的“天花板”,GPT-5.5的83%到88%大致是“第一梯队”,那么78%仍然处在一个被称为“实用门槛”的区域,低于最顶尖水平,但高于多数实际开发场景的最低下限。一个78%的模型可以处理常规的代码生成、函数补全、中等复杂度的bug修复,但在涉及跨文件重构、多步骤推理、复杂系统设计时,准确率衰减会比顶尖模型更快。

这意味着GLM-5.2最可能所处的位置是:编程能力差于GPT-5.5约5到10个百分点,与Fable 5的差距更大。这不是结论,是基于前代数据的最保守外推。具体的数字要等智谱公布跑分或者开源后社区自己跑。

在跑分缺位的情况下,唯一能判断GLM-5.2长上下文真实表现的材料,是一篇知乎上的实测记录。

长上下文能用,但速度暴露了区别

这篇知乎实测来自一位在GLM-5.2上跑了多个长任务的开发者,样本仅此一例。他给出的反馈非常有信息量。

在400K到500K token上下文范围内,GLM-5.2的准确性和指令遵循能力“与Claude差距不大”。这是一个具体的判断。它说明这100万token上下文的可用范围不只是理论上的,至少在填充到40%至50%容量时,模型没有明显退化。

但同一个开发者测试了一个更极端的场景:完成一个10万行代码项目的bug排查。GLM-5.2花了21分钟完成任务。过程描述是“几乎一致”,但Claude Opus 4.8在fast模式下只用了6分钟。这是3.5倍的速度差距。

还有另一个场景:将一个网站转换为小程序,GLM-5.2用了40分钟。功能完整,但UI审美上“有差距”。

开发者的总结是八个字:“像勤勤恳恳的老黄牛”。

这三个测试场景合在一起,给出了一个比任何Benchmark都更有价值的判断维度:GLM-5.2不是“不够聪明以至于任务失败”的模型,而是“足够完成任务、但更慢、更朴实”的模型。长上下文窗口是真实的,不是营销数字。400K到500K范围内的表现说明其在中高负载下的注意力机制运作良好。速度差距在包月制模式下被消化掉了,21分钟和6分钟消耗的都是月费而非token数,但在对时效性有要求的场景中,这个差距会直接限制适用性。

Reddit上r/LocalLLaMA和r/ZaiGLM社区的讨论,整体态度可以概括为:对没有Benchmark这件事保持谨慎,但愿意等到开源周之后自己测。有用户说“1M上下文下性能大概是Claude的一半,价格也差不多这样”,这话在社区语境里是评论而非测试结果,不应被当作数据引用。

也就是说,在GLM-5.2没有官方跑分的这周,外界对其能力的唯一具体判断来源,是GLM-5.1的前代成绩,以及零星的开发者体验反馈。没有准确实力定论,但有大致区间可以参考。

填满百万token的代价

上下文窗口的长度在2026年已经从技术差异变成定价差异。GLM-5.2、GPT-5.5、Claude Fable 5三款模型全部支持百万级上下文,参数层面的距离已经拉平。剩下的问题是:真的有人在生产中把上下文填满时,各自要付出什么成本。

先看各家定价。OpenRouter和Appwrite等平台上的记录显示,GPT-5.5的API定价是输入每百万token 5美元,输出每百万token 30美元,输入和输出的价格比是1比6。Anthropic官方页面显示,Claude Fable 5定价为输入每百万token 10美元,输出每百万token 50美元,价格比是1比5。

GLM-5.2的API定价要到下周上线时才公布。唯一可以参照的是Z.AI开发者文档中记录的GLM-5.1定价:输入每百万token 1.4美元,输出每百万token 4.4美元。

假设一个场景:输入100万token的上下文,输出10万token的代码或技术文档。在GLM-5.1参考价下,这个场景的单次调用成本约为1.84美元。GPT-5.5的相同场景成本约为8美元。Claude Fable 5则需要15美元。

GLM-5.2最终定价如果与5.1持平或接近,填满上下文的成本就是竞品的四分之一到八分之一。即使调价,只要不跳涨三四倍,成本优势的结构就不会被打破。

这个成本账还有另一个计费模式上的变量。GLM Coding Plan走的是包月制。36氪和Z.AI开发者文档记录显示,Lite套餐在中国市场定价49元人民币每月,Pro套餐149元每月,Max套餐469元每月,按提示次数计费而非token计费。Max套餐在5小时内可以调用约1600次提示,每周额度约8000次。这意味着Coding Plan用户在处理长上下文任务时不受token消耗的心理约束,21分钟一次的bug排查和6分钟一次在账单上没有任何区别。

GPT-5.5和Fable 5走的是纯按token计费。长上下文的使用模式,一次填入整个代码库然后交互式追问,会导致token累积速度极快。这对于把长上下文作为工作流基础的用户会产生真实的预算压力。Reddit上关于Fable 5消耗的讨论中,已经有用户反映Pro计划在每分钟约2美元的速度下几小时就用完了配额。

GLM-5.2的定价模式选择不是单纯打价格战。它在朝一个不同的使用习惯靠拢:让开发者填满上下文窗口时没有任何心理负担。这种模式最适合的场景是代码库级理解、长文档维护、跨文件重构任务。不适合的场景是按需调用、低频对话、或者只需要短上下文的轻量任务,在那类场景里,Kimi K2.7 Code更低的基础token价格更有优势。

关于Kimi K2.7 Code,做一个简单的位置判断。虽然这篇文章的主角是GLM-5.2,但Kimi也赶在相邻的档口发布了一个新版本。Kimi K2.7 Code的策略是上下更短、价格更低、模型更轻。Moonshot官方文档显示上下文只有256K token,架构是MoE激活32B参数。OpenRouter上的API记录显示输入价格是每百万token 0.75美元,输出3.5美元。Vals AI给出的SWE-bench成绩是78.2%,与GLM-5的77.8%在同一条水位线上。它在“轻量部署”这件事上可能比GLM-5.2更友好,但256K上下文的限制意味着它无法进入长上下文任务的比赛场地。

GLM-5.2和Kimi K2.7 Code在同周发布不是巧合。国产编程模型正在朝两个方向分化:一个奔着更长上下文和私有化部署,一个奔着更低成本和更小参数量。两个方向都有各自的战场。但到目前为止,这两款模型都没有完整的第三方评测数据。

MIT开源的分量跟跑分无关

定价和上下文的对比都依赖于一个前提:模型本身的能力到位。但GLM-5.2还有另一个决策变量,它的权重比编程能力本身还要重。

MIT开源。免费商用,可以修改,可以私有化部署。没有附加条款。

GPT-5.5和Claude Fable 5都完全闭源,只通过API调用。没有开源计划,没有权重下载。Kimi K2.7 Code有模型权重,但具体许可证尚未明确公布。

这件事的价值不在技术评测维度,而在采购和合规维度。对于需要处理涉密代码、金融数据、政府项目的团队来说,一个MIT开源的百万上下文模型不是“另一款编程助手”,而是唯一一个可以让数据不出境的选项。在Fable 5被暂时要求暂停外国公民访问之后,Anthropic于6月12日公开确认收到美国政府指令,已对所有用户关停Fable 5,这个选项的权重就更高了。GLM-5.2在禁令第二天发布,时间点的巧合不需要过度解读,但它确实把“自己部署模型不受外部政策波动影响”这个事实推到了前台。

MIT开源还有一层不够明显但更长期的分量。开源一周后,社区可以自己评测GLM-5.2的真实能力,不需要通过智谱的任何官方渠道。跑分数据会来自Hugging Face上跑完SWE-bench的独立开发者,来自把权重下载下来在自己的代码库上测试的团队,来自Reddit和Hacker News上逐项对比的帖子。智谱选择了把这个验证权交给社区,而不是控制在自己的发布文档里。这是在跑分真空期做“先发布后证明”的底气来源,也是风险来源:能力不足的话会暴露得很快,能力强的话社区会自传播。

但也要提一个公开可见的限制。GLM-5.2是纯文本模型,不支持图像或视频输入。知乎实测文章直接写着“不支持多模态”。GPT-5.5支持文本和图像输入,Kimi K2.7 Code甚至支持文本加图像加视频输入。GLM-5.2在这个维度上做出了明确的取舍:把全部模型容量押在文本和代码上。

而且目前还不知道开源会包含什么。是完整的训练权重和配置文件,还是仅推理权重。华为昇腾芯片上训练的745B MoE架构模型,在普通开发者的GPU集群上能否跑起来,硬件门槛有多高。智谱的团队版Coding Plan可能已经优化了推理服务,但私有化部署的硬件需求要等开源后才能确认。

还有一个细节。智谱官方用“真正可用的100万上下文”这个表述。这一措辞暗示内部也做过长上下文召回率测试,对竞品的“标称上下文”和“实际可用上下文”的落差有自己的判断。但官方没有给出具体的测试方法和数据。官方的“真正可用”和开发者拿到的实际体验之间,可能还有验证距离,至少目前只有一个知乎用户的400K到500K测试报告,没有1M满载测试。

在没有跑分的状态下做决定

GLM-5.2当前的发布状态是一个很精准的测试场景:如果手头没有官方数据,只能根据已知事实判断,它现在值不值得进入选型考量。

对不同类型的决策者,答案不一样。

如果你是一个需要处理大型代码库的个人开发者,GLM-5.2的Coding Plan包月制是目前市场上唯一一个让你可以在100万token上下文中无压力反复调试的方案。Max套餐469元月费在单次成本上的优势远高于按token计费的竞品,特别是当你一天需要多次填满上下文时。知乎实测的“老黄牛”反馈说明它能干活,只是慢一点、审美差一点。

如果你是一个团队采购决策者,而且处理的代码或数据有合规要求,不能出境、不能依赖第三方API,GLM-5.2的MIT开源加上国产芯片训练是目前不可替代的组合。GPT-5.5和Fable 5无法满足“私有化部署且不受制于美国出口管制”这一前提。等待GLM-5.2开源后直接部署到自己的服务器上,是当前最通顺的合规路径。

如果你需要的是最准确的编程结果,而且预算允许,GPT-5.5在SWE-bench Verified上的83%至88%和DeepSWE 70%的成绩让它成为当前最可靠的选择。Fable 5因为暂停访问暂时出局。

如果你想一探国产模型的轻量方案,Kimi K2.7 Code的256K上下文和更低的token价格是值得留意的一个变量,但它和GLM-5.2不在同一个战场中。

不做选择,先等下周开源和第三方评测,是目前最安全但最无用的决定。有用的是搞清楚自己在哪个场景里,然后看GLM-5.2的这组配置是否恰好踩中了你的优先级:如果开源和私有化部署排第一位,它几乎是唯一选择。如果成本和调用自由排第一位,它的包月制逻辑比按token计费更适合高频长上下文用户。如果纯粹比跑分排第一位,那就得等社区评测结果了。

一周之后,所有判断都会落地。