一家名为 PhantaField 的初创公司发布了代号「Sophon」的 PFG-1 芯片白皮书,宣称在一颗 750 mm² 的单芯片上实现了 330 GB 片上 DRAM 与完整的大模型训练推理能力,且全程不需要任何 HBM(高带宽内存)。
为什么内存墙是当前 AI 芯片的瓶颈
主流 AI 加速器——包括英伟达 Rubin 和 AMD Instinct MI455X——依赖独立封装的 HBM 来存储模型权重。HBM 确实带宽高(Rubin 约 22 TB/s,MI455X 约 19.6 TB/s),但问题在于低 batch 推理场景:每次只生成一个 token 时,HBM 的自刷新功耗仍需 10~15 W 来维持模型常驻;而到了训练场景,HBM 无法原位写入梯度——它本来就不是为此设计的。这意味着 GPU 厂商实际上在用「推理芯片的内存」同时做「训练」,效率天然打折扣。
PFG-1 的核心思路是:既然内存墙的根源在于片外互连,那就把 DRAM 也叠进芯片里。
32 层堆叠:把 DRAM 和计算单元「混装」
Sophon 采用单片 3D(M3D)架构,在一枚硅基底的 28 nm CMOS 逻辑层之上,堆叠了 32 层 2D 过渡金属二硫化物(TMD)电路层。这 64 层(含基底)以 A/B/A/B 交替排列:A 层为 TMD CMOS MAC(乘加运算)阵列,B 层为 2T0C 增益单元 DRAM,每两层构成一组「逻辑+存储」 doublet,存储层直接叠在对应计算层正上方。
这种设计的物理好处是:权重从存储层读出到计算层,经过的是芯片内部的层间通孔(MIV),而非封装级的 SerDes 或基板走线。白皮书数据称其等效权重带宽是 HBM4 的约 191~214 倍——这正是无需 HBM 的底气所在。
2T0C DRAM 单元本身的特性也值得关注:TMD 晶体管的关态电流密度极低(Joff ≈ 1 fA/μm),使得存储节点可维持数秒而不需要刷新电容。写入能耗约 20 fJ/bit,训练所需的无限制写入耐受次数也由此实现——这是 SLC ReRAM(约 10⁶ 次循环)根本无法满足的要求。空闲时整颗芯片功耗仅约 3 W,与推理专用芯片的待机功耗相当。
性能数字是否可信
白皮书披露的核心算力:131,072 个 CIM(存内计算)tile,在 500 MHz 位串行激活广播下,达到 4,200 TFLOPS FP8 或 2,100 TFLOPS BF16。面积仅 7.5 cm²。
对于 80B 参数模型,BF16 训练可完整容纳权重+一阶优化器状态,并预留约 10 GB 用于梯度检查点的激活内存。推理时吞吐达到 7,219 tokens/s(BF16 原生)或翻倍至 14,438 tokens/s(FP8)。
与两款 2026 年 HBM4 GPU 对比,白皮书给出的优势倍数为:
- Batch-1 训练吞吐量:Sophon 约为 Rubin 和 MI455X 的 2.7~3.1 倍
- 单流 FP8 解码吞吐:约是竞品的 48~53 倍
这些数字的逻辑是:GPU 在低 batch 时受限于 HBM 带宽,而非峰值 FLOPS——它们的峰值算力确实更高,但喂不满。Sophon 的权重带宽远超 HBM4 上限,因此在这个场景下拉开差距。
不过需要留意:这是白皮书自身披露的数据,尚未经过第三方基准测试验证。初创公司的内部白皮书历来倾向于展示有利于自己的对比条件,读者应将这类数字视为「供同行评审的技术声明」,而非已确立的行业事实。
经济账:HBM 成本消失了
白皮书的成本分析引用摩根士丹利数据:一套 NVIDIA Rubin R200 NVL72 机架报价约 780 万美元,其中 HBM 内存约占 200 万美元(25.7%),较上一代 GB300 溢价 435%。Sophon 宣称的 BOM(物料成本)降幅为 Rubin 的约 9.9 倍、MI455X 的约 11.6 倍——核心逻辑就是砍掉了 HBM 这一行采购。
芯片本身的制程节点为 28 nm CMOS 逻辑基底加 TMD 堆叠层,与台积电 3 nm 或三星 4nm 的先进逻辑工艺相比,28 nm 的晶圆成本低得多,但 TMD 的良率和量产成熟度是尚未公开的实际挑战。
编注:材料为 PhantaField 公司白皮书(Revision 4.1,2026 年 6 月),核心性能与成本数字均为自述,尚未经第三方验证;与竞品 GPU 的对比结论应视为技术声明而非已确立基准。