AMD Strix Halo RDMA指南：两节点推理延迟5微秒

AMD Strix Halo 的两节点集群通过 RoCE v2 RDMA 互联后，分布式推理延迟可从传统 TCP/IP 下的 70–100 微秒骤降至约 5 微秒——这使两块 APU 在感知上如同一台单一 GPU。一份最新社区指南详细记录了从硬件选型到内核参数调优的完整搭建流程。

背景与原理

大模型推理引擎 vLLM 通过张量并行（TP）将超大模型拆分到多个 GPU 上。在两节点场景下，每一层神经网络计算后都需要在节点间同步部分结果，这种交换每秒发生数千次。传统 TCP/IP 受内核协议栈开销限制，延迟高达 70–100 微秒，严重拖慢推理速度。

AMD 使用 RCCL 作为跨 GPU 通信库（对标 NVIDIA NCCL），而 RoCE v2（RDMA over Converged Ethernet）允许 RCCL 直接在远端内存读写，绕过 CPU 和操作系统。指南中两节点各搭载一块 Intel E810 100GbE 网卡，通过直连铜缆（DAC）互连，无需交换机。关键配置包括：BIOS 中设置 iGPU 为 512MB 并启用统一内存；内核参数添加 iommu=pt、pcie_aspm=off、amdgpu.gttsize=126976 等以优化 DMA 和 PCIe 资源；网络端设置 MTU 9000 巨型帧并添加静态路由。

影响与实操要点

该方案的吸引力在于成本与性能的平衡：两套 Framework Desktop 主板加 Strix Halo（128GB 统一内存）组成集群，无需昂贵 IB 交换机，实测 RDMA 带宽约 50Gbps。指南特别提醒，Framework 主板 PCIe 物理插槽为 x4，需用 x4 转 x16 延长卡（或厂商定制的超声波切割插槽）才能插入 x16 网卡——后者不推荐用户尝试。软件层面，社区提供的 refresh_toolbox.sh 脚本会自动检测 RDMA 设备并暴露给容器，后续通过 Ray 编排 vLLM 服务，用户只需在 TUI 中选择模型即可启动。

对于希望以较低投入搭建本地大模型推理集群的开发者，这份指南填补了 AMD 生态中欠缺的端到端配置文档空白，但需注意当前仅验证了 Fedora 43 与特定内核版本。

编注：材料为 GitHub 技术指南，覆盖硬件、系统配置与原理，未涉及实际性能基准测试结果。