一项机制解释学研究在阿里Qwen 3.5-9B聊天模型中发现了可被识别、读取并关闭的政治审查电路。该电路位于第11至20层(写入层)和第20至31层(读取层),通过三个内部方向向量控制响应行为:是否触发PRC敏感内容审查(d_prc)、是否触发拒绝(d_refuse)、以及如何处置PRC话题——转移话题或宣传模式(d_style)。
关键发现包括:基础模型在纯文本补全下对天安门事件、坦克人、法轮功等话题给出准确答案,审查行为是在事实知识之上额外学习的行为层。不同话题触发不同响应模板:天安门事件触发预设的转移话术,台湾/新疆/法轮功问题触发亲政府宣传,有害内容(如钓鱼邮件)触发安全拒绝。研究者通过在写入层减去特定方向向量,成功使模型绕过审查,暴露原本被隐藏的事实。研究还指出,部分跨话题组合在训练中未被覆盖,如「台湾转移话题」或「坦克人宣传」模板并不存在。
编注:来源为技术博客,基于激活修补实验验证。材料为机制解释学研究,不涉及实时敏感内容。文中提及的历史事件属于学术分析范畴。研究方法可复现,结论基于模型内部向量分析。