无 HBM 的 AI 芯片：PhantaField 宣称 330 GB 片上 DRAM 实现大模型训推合一

一家名为 PhantaField 的初创公司发布了代号「Sophon」的 PFG-1 芯片白皮书，宣称在一颗 750 mm² 的单芯片上实现了 330 GB 片上 DRAM 与完整的大模型训练推理能力，且全程不需要任何 HBM（高带宽内存）。

为什么内存墙是当前 AI 芯片的瓶颈

主流 AI 加速器——包括英伟达 Rubin 和 AMD Instinct MI455X——依赖独立封装的 HBM 来存储模型权重。HBM 确实带宽高（Rubin 约 22 TB/s，MI455X 约 19.6 TB/s），但问题在于低 batch 推理场景：每次只生成一个 token 时，HBM 的自刷新功耗仍需 10～15 W 来维持模型常驻；而到了训练场景，HBM 无法原位写入梯度——它本来就不是为此设计的。这意味着 GPU 厂商实际上在用「推理芯片的内存」同时做「训练」，效率天然打折扣。

PFG-1 的核心思路是：既然内存墙的根源在于片外互连，那就把 DRAM 也叠进芯片里。

32 层堆叠：把 DRAM 和计算单元「混装」

Sophon 采用单片 3D（M3D）架构，在一枚硅基底的 28 nm CMOS 逻辑层之上，堆叠了 32 层 2D 过渡金属二硫化物（TMD）电路层。这 64 层（含基底）以 A/B/A/B 交替排列：A 层为 TMD CMOS MAC（乘加运算）阵列，B 层为 2T0C 增益单元 DRAM，每两层构成一组「逻辑+存储」 doublet，存储层直接叠在对应计算层正上方。

这种设计的物理好处是：权重从存储层读出到计算层，经过的是芯片内部的层间通孔（MIV），而非封装级的 SerDes 或基板走线。白皮书数据称其等效权重带宽是 HBM4 的约 191～214 倍——这正是无需 HBM 的底气所在。

2T0C DRAM 单元本身的特性也值得关注：TMD 晶体管的关态电流密度极低（Joff ≈ 1 fA/μm），使得存储节点可维持数秒而不需要刷新电容。写入能耗约 20 fJ/bit，训练所需的无限制写入耐受次数也由此实现——这是 SLC ReRAM（约 10⁶ 次循环）根本无法满足的要求。空闲时整颗芯片功耗仅约 3 W，与推理专用芯片的待机功耗相当。

性能数字是否可信

白皮书披露的核心算力：131,072 个 CIM（存内计算）tile，在 500 MHz 位串行激活广播下，达到 4,200 TFLOPS FP8 或 2,100 TFLOPS BF16。面积仅 7.5 cm²。

对于 80B 参数模型，BF16 训练可完整容纳权重+一阶优化器状态，并预留约 10 GB 用于梯度检查点的激活内存。推理时吞吐达到 7,219 tokens/s（BF16 原生）或翻倍至 14,438 tokens/s（FP8）。

与两款 2026 年 HBM4 GPU 对比，白皮书给出的优势倍数为：

Batch-1 训练吞吐量：Sophon 约为 Rubin 和 MI455X 的 2.7～3.1 倍
单流 FP8 解码吞吐：约是竞品的 48～53 倍

这些数字的逻辑是：GPU 在低 batch 时受限于 HBM 带宽，而非峰值 FLOPS——它们的峰值算力确实更高，但喂不满。Sophon 的权重带宽远超 HBM4 上限，因此在这个场景下拉开差距。

不过需要留意：这是白皮书自身披露的数据，尚未经过第三方基准测试验证。初创公司的内部白皮书历来倾向于展示有利于自己的对比条件，读者应将这类数字视为「供同行评审的技术声明」，而非已确立的行业事实。

经济账：HBM 成本消失了

白皮书的成本分析引用摩根士丹利数据：一套 NVIDIA Rubin R200 NVL72 机架报价约 780 万美元，其中 HBM 内存约占 200 万美元（25.7%），较上一代 GB300 溢价 435%。Sophon 宣称的 BOM（物料成本）降幅为 Rubin 的约 9.9 倍、MI455X 的约 11.6 倍——核心逻辑就是砍掉了 HBM 这一行采购。

芯片本身的制程节点为 28 nm CMOS 逻辑基底加 TMD 堆叠层，与台积电 3 nm 或三星 4nm 的先进逻辑工艺相比，28 nm 的晶圆成本低得多，但 TMD 的良率和量产成熟度是尚未公开的实际挑战。

编注：材料为 PhantaField 公司白皮书（Revision 4.1，2026 年 6 月），核心性能与成本数字均为自述，尚未经第三方验证；与竞品 GPU 的对比结论应视为技术声明而非已确立基准。