智谱近日发布 GLM-5.2,以 51 分登上 Artificial Analysis 智能指数(v4.1)开源模型榜首,将同尺寸前代 GLM-5.1(40 分)大幅甩开,也领先 MiniMax-M3(44 分)、DeepSeek V4 Pro(44 分)和 Kimi K2.6(43 分)。
为什么能大幅领先
GLM-5.2 与 GLM-5.1 参数量完全一致(总计 7440 亿 / 激活 400 亿),但各项评测普遍提升,科学推理进步尤为突出:CritPt 提升 16 点至 21%,HLE 提升 12 点至 40%,AA-LCR 提升 9 点至 71%,tau3 banking 提升 15 点至 27%,SciCode 提升 7 点至 50%。同时上下文窗口从 20 万 token 扩展至 100 万 token,为更长任务提供支撑。
与闭源模型的距离
GLM-5.2 在 GDPval-AA v2(衡量真实世界代理任务表现的核心指标)上得分 1524,与 GPT-5.5(xhigh reasoning,1514 分)几乎持平,显著领先 MiniMax-M3(1418)和 DeepSeek V4 Pro(1328)。这意味着在需要多步推理和工具使用的实际任务中,开源模型已逼近最顶级闭源方案的水准。
不过 GLM-5.2 每任务平均消耗 43k 输出 token(其中 37k 为推理过程),高于 GLM-5.1(26k)及多数开源竞品,推理效率并非最优。其 API 定价为输入 $1.4 / 缓存命中 $0.26 / 输出 $4.4 每百万 token,每任务成本约 $0.46,在同智能水平模型中属于最低一档。
License 为 MIT,可在 DeepInfra、Novita、Nebius、Fireworks 等多个第三方平台调用。
编注:信源为人工智能基准评测平台 Artificial Analysis,材料侧重模型评分与榜单排名,对技术架构细节着墨有限。