GLM-5.2 登顶开源模型榜首，逼近 GPT-5.5 代理任务表现

智谱近日发布 GLM-5.2，以 51 分登上 Artificial Analysis 智能指数（v4.1）开源模型榜首，将同尺寸前代 GLM-5.1（40 分）大幅甩开，也领先 MiniMax-M3（44 分）、DeepSeek V4 Pro（44 分）和 Kimi K2.6（43 分）。

为什么能大幅领先

GLM-5.2 与 GLM-5.1 参数量完全一致（总计 7440 亿 / 激活 400 亿），但各项评测普遍提升，科学推理进步尤为突出：CritPt 提升 16 点至 21%，HLE 提升 12 点至 40%，AA-LCR 提升 9 点至 71%，tau3 banking 提升 15 点至 27%，SciCode 提升 7 点至 50%。同时上下文窗口从 20 万 token 扩展至 100 万 token，为更长任务提供支撑。

与闭源模型的距离

GLM-5.2 在 GDPval-AA v2（衡量真实世界代理任务表现的核心指标）上得分 1524，与 GPT-5.5（xhigh reasoning，1514 分）几乎持平，显著领先 MiniMax-M3（1418）和 DeepSeek V4 Pro（1328）。这意味着在需要多步推理和工具使用的实际任务中，开源模型已逼近最顶级闭源方案的水准。

不过 GLM-5.2 每任务平均消耗 43k 输出 token（其中 37k 为推理过程），高于 GLM-5.1（26k）及多数开源竞品，推理效率并非最优。其 API 定价为输入 $1.4 / 缓存命中 $0.26 / 输出 $4.4 每百万 token，每任务成本约 $0.46，在同智能水平模型中属于最低一档。

License 为 MIT，可在 DeepInfra、Novita、Nebius、Fireworks 等多个第三方平台调用。

编注：信源为人工智能基准评测平台 Artificial Analysis，材料侧重模型评分与榜单排名，对技术架构细节着墨有限。