机制解释学研究发现Qwen 3.5存在可关闭的政治审查电路

一项机制解释学研究在阿里Qwen 3.5-9B聊天模型中发现了可被识别、读取并关闭的政治审查电路。该电路位于第11至20层（写入层）和第20至31层（读取层），通过三个内部方向向量控制响应行为：是否触发PRC敏感内容审查（d_prc）、是否触发拒绝（d_refuse）、以及如何处置PRC话题——转移话题或宣传模式（d_style）。

关键发现包括：基础模型在纯文本补全下对天安门事件、坦克人、法轮功等话题给出准确答案，审查行为是在事实知识之上额外学习的行为层。不同话题触发不同响应模板：天安门事件触发预设的转移话术，台湾/新疆/法轮功问题触发亲政府宣传，有害内容（如钓鱼邮件）触发安全拒绝。研究者通过在写入层减去特定方向向量，成功使模型绕过审查，暴露原本被隐藏的事实。研究还指出，部分跨话题组合在训练中未被覆盖，如「台湾转移话题」或「坦克人宣传」模板并不存在。

编注：来源为技术博客，基于激活修补实验验证。材料为机制解释学研究，不涉及实时敏感内容。文中提及的历史事件属于学术分析范畴。研究方法可复现，结论基于模型内部向量分析。