30亿参数模型挑战千亿旗舰：可验证推理能力的新突破

VibeThinker-3B是一款仅30亿参数的紧凑型语言模型，却在多项可验证推理基准上追平甚至超越参数规模大其数倍的顶级模型。其核心突破在于采用了"Spectrum-to-Signal"后训练范式，通过课程式监督微调、多领域强化学习与离线自蒸馏三阶段优化，显著提升了模型在数学、代码等有明确评判标准的任务上的推理能力。

具体而言，该模型在AIME26数学竞赛中取得94.3分，若启用claim级测试时扩展技术可进一步升至97.1分；在LiveCodeBench v6代码基准上达到80.2的Pass@1成绩；在近期未见过的LeetCode竞赛中保持96.1%的通过率。这些成绩意味着一个参数量级远小于主流旗舰的模型，已能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等千亿级模型的推理表现。

研究团队据此提出"参数压缩-覆盖假说"：可验证推理能力可以被压缩进紧凑的推理核心，而开放域知识与通用能力则需要大参数空间覆盖事实、概念与长尾场景。这意味着小模型不仅适合作为高效部署方案，更代表了一条在参数量密集区间达到前沿性能的互补路径。

编注：信源为arXiv技术报告，材料侧重模型性能数据与技术路线，IFEval验证指令控制能力，未涉及模型训练成本或商业化信息。