那个著名的GeoGuessr prompt其实没用：200张图的盲测结果

去年Kelsey Piper发现OpenAI的o3模型能从一张随手拍摄的照片精确定位拍摄地点——这种"GeoGuessr"天赋让很多人惊叹。她用了大半年迭代出一个详细的"魔法prompt"，每次模型出错就追问如何改进，然后把建议加入prompt。

这个prompt让不少人成功复现了geo-guessing能力。于是作者决定亲自验证：建一个200张图片的benchmark，对比魔法prompt和简单prompt "think carefully about where this picture was taken?" 的实际效果。

结果出乎意料：基础prompt反而表现更好。无论距离精度还是准确率，简单prompt都稳定胜出。魔法prompt体积大10倍，但只是让模型多思考约1秒，并没有带来实质提升。

为什么会这样？作者认为这揭示了一个常见误区：当模型本身就很擅长某个任务时，你很难区分"prompt有效"和"模型本身强"。而且模型会"愉快地编故事"——你问它哪个改进有帮助，它几乎都会说"帮助很大"。唯一的办法就是像这样跑一次对照实验。

更有意思的后续：benchmark还测试了GPT-5.4和GPT-5.5，发现它们根本没有继承o3的这种定位能力。o3曾经具备的geo-guessing特长，没有传递给更新的模型。

要点：模型原生能力可能被低估，Prompt优化效果容易被高估——在没有对照实验的情况下，别太相信"魔法prompt"的叙事。

编注：这是作者self-hosted博客发布的个人benchmark研究，信源为独立实证；材料完整度较高，结论清晰。话题与近期AI模型能力讨论相关，可作深读。