那个著名的GeoGuessr prompt其实没用:200张图的盲测结果

那个著名的GeoGuessr prompt其实没用:200张图的盲测结果

_

去年Kelsey Piper发现OpenAI的o3模型能从一张随手拍摄的照片精确定位拍摄地点——这种"GeoGuessr"天赋让很多人惊叹。她用了大半年迭代出一个详细的"魔法prompt",每次模型出错就追问如何改进,然后把建议加入prompt。

这个prompt让不少人成功复现了geo-guessing能力。于是作者决定亲自验证:建一个200张图片的benchmark,对比魔法prompt和简单prompt "think carefully about where this picture was taken?" 的实际效果。

结果出乎意料:基础prompt反而表现更好。无论距离精度还是准确率,简单prompt都稳定胜出。魔法prompt体积大10倍,但只是让模型多思考约1秒,并没有带来实质提升。

为什么会这样?作者认为这揭示了一个常见误区:当模型本身就很擅长某个任务时,你很难区分"prompt有效"和"模型本身强"。而且模型会"愉快地编故事"——你问它哪个改进有帮助,它几乎都会说"帮助很大"。唯一的办法就是像这样跑一次对照实验。

更有意思的后续:benchmark还测试了GPT-5.4和GPT-5.5,发现它们根本没有继承o3的这种定位能力。o3曾经具备的geo-guessing特长,没有传递给更新的模型。

要点:模型原生能力可能被低估,Prompt优化效果容易被高估——在没有对照实验的情况下,别太相信"魔法prompt"的叙事。

编注:这是作者self-hosted博客发布的个人benchmark研究,信源为独立实证;材料完整度较高,结论清晰。话题与近期AI模型能力讨论相关,可作深读。


特斯拉监督版FSD布局纳入中国 2026-05-21
阿里云正式披露MuleRun为阿里产品 陈宇森:AI Native转型窗口期仅18个月 2026-05-22