AI检测器怎么识别人机文本？Pangram用降维实验揭开判断逻辑

AI文本检测器在「看」什么？Pangram用降维实验揭秘模型内部世界

Pangram是一家专注于AI文本检测的研究公司，其最新模型Pangram 3.3.2于2026年发布。在一项新研究中，Pangram团队没有直接优化检测准确率，而是把目光转向了一个更基础的问题：模型在判断一段文字是否出自AI之手时，到底在学什么、靠什么信号做决定？

为什么要拆开模型「黑箱」

对检测器研发者来说，理解模型内部机制至关重要。如果不知道它真正在依赖什么特征，就很难发现它是否在走「捷径」——比如过度依赖某些高频词汇或句式，而非真正理解文本的生成逻辑。Pangram团队担心这类捷径会导致模型在面对新型AI或特殊写作风格时迅速失效。

研究团队采用了三种互补的降维可视化方法：PCA（主成分分析）寻找最大方差方向；UMAP保留邻近关系；t-SNE擅长展示局部聚类结构。他们从自家生产训练集中抽取了5000篇文档，涵盖新闻、科学摘要、产品评论、创意写作等多个领域，由人类撰写与AI生成各占一半。

每篇文档都经过模型前向传播，在20个偶数层提取5120维的隐藏状态向量，再投影到二维平面上观察人类文本与AI文本是否出现分离趋势。

早期层已有判断力，后续层细化区分

研究最反直觉的发现是：模型在网络的前几层就已经具备相当强的判断力。团队在第2层激活向量上训练一个简单的线性分类器，在测试集上达到了83%的准确率——仅用线性投影，没有复杂特征工程。

这意味着区分人机文本的关键信号，在模型处理早期就已经被编码进激活空间。研究人员推测，这可能与「词袋模型」思路类似：某些词汇或短语组合的统计分布差异，在网络浅层就能被捕捉。后续层则逐步细化这一区分，在高阶表征空间中将两类文本拉得更开。

方法论的价值与局限

线性探针实验（判断某一层激活向量能否被线性分类器正确分类）为上述观察提供了量化依据。团队在每个偶数层都进行了测试，发现准确率从早期层的80%左右逐步攀升至网络深处的更高水平。

研究也承认了局限性：二维可视化天然损失信息，UMAP和t-SNE的聚类边界不能过度解读；测试覆盖了20多种主流模型（从GPT-3.5到GPT-5、Claude系列、Gemini、DeepSeek、Qwen、Llama等），但无法穷尽所有AI变体；分析目前聚焦于文档整体层面，更细粒度的段落或句子级机制仍有待探索。

编注：信源为Pangram官方博客，材料为技术研究解读，覆盖模型可解释性方法与人机文本区分机制，测试覆盖主流模型家族但未涉及对抗样本场景。