去年Kelsey Piper发现OpenAI的o3模型能从一张随手拍摄的照片精确定位拍摄地点——这种"GeoGuessr"天赋让很多人惊叹。她用了大半年迭代出一个详细的"魔法prompt",每次模型出错就追问如何改进,然后把建议加入prompt。
这个prompt让不少人成功复现了geo-guessing能力。于是作者决定亲自验证:建一个200张图片的benchmark,对比魔法prompt和简单prompt "think carefully about where this picture was taken?" 的实际效果。
结果出乎意料:基础prompt反而表现更好。无论距离精度还是准确率,简单prompt都稳定胜出。魔法prompt体积大10倍,但只是让模型多思考约1秒,并没有带来实质提升。
为什么会这样?作者认为这揭示了一个常见误区:当模型本身就很擅长某个任务时,你很难区分"prompt有效"和"模型本身强"。而且模型会"愉快地编故事"——你问它哪个改进有帮助,它几乎都会说"帮助很大"。唯一的办法就是像这样跑一次对照实验。
更有意思的后续:benchmark还测试了GPT-5.4和GPT-5.5,发现它们根本没有继承o3的这种定位能力。o3曾经具备的geo-guessing特长,没有传递给更新的模型。
要点:模型原生能力可能被低估,Prompt优化效果容易被高估——在没有对照实验的情况下,别太相信"魔法prompt"的叙事。
编注:这是作者self-hosted博客发布的个人benchmark研究,信源为独立实证;材料完整度较高,结论清晰。话题与近期AI模型能力讨论相关,可作深读。