一篇发布在技术博客的文章引发了对 AI 安全能力的讨论。作者对主流厂商宣传的「Mythos」模型能发现高危漏洞持怀疑态度,认为这更像是一种高价差异化策略,而非真实的技术优势。
为验证这一判断,他搭建了一套基准测试流程:收集 Mythos 官方文档中声称找到的 9 个真实漏洞,从代码仓库中回溯到漏洞修复前的提交版本,确认顶级模型(如 Opus 4.7)在被直接指向问题代码时确实能识别出漏洞,然后将这个「已确认有漏洞」的代码库交给各模型盲测——只告知检查哪个文件,不透露任何线索。
初步结果显示,所有模型的表现都比预期差,说明这些漏洞确实难以发现。作者承认样本量很小,每个模型只跑了一轮完整的 9 个漏洞测试,但他认为这仍然提供了有价值的数据——各模型在相同条件下机会均等,但结果参差不齐。
一个值得注意的细节是:Gemini 的命令行工具 agy 在 9 个漏洞中拒绝了 8 次,直接回复「无法满足分析可利用安全漏洞的请求」,迫使作者改用付费接口完成测试。这说明部分模型在安全审计场景下存在人为限制,可能影响评估的公平性。
编注:信源为技术博客(swelljoe.com),材料记录了一套自建基准测试的方法与初步结果,样本量小但细节丰富,作者立场明确反对厂商营销叙事。