在今日的华为开发者大会 HDC 2026 上,余承东正式发布了开源盘古 openPangu 2.0,计划从 6 月 30 日起陆续开源 7 大组件,包括预训练代码、后训练代码和训练算子。这意味着华为在模型开源上迈出了实质一步,不再只开放权重,而是将训练流程全部开放给社区。
技术架构:缝合还是融合?
从 PPT 披露的信息看,openPangu 2.0 引入了 mHC、Muon、ModAttn、DSA+SWA 等多项技术,融合了 DeepSeek、Qwen、Kimi 等团队的代表性技术思路。这并非简单的“拿来主义”,而是在华为自有技术框架下的整合。模型主打推理速度和 Agent 能力,定位偏向“执行型”而非“知识型”——更强调工具调用、手机操控等任务执行,而非世界知识的广度。
三个尺寸各有分工:Pro 版约 500B 参数,定位对标 Minimax M3,主攻干活场景;Flash 版约 100B,属于市面上相对少见的中间尺寸,主打速度快、资源占用低;端侧 30B 采用稀疏 MoE 架构,量化后仅需 6GB 内存即可在手机端运行,是华为 6nm+7nm 芯片的重点适配对象。
战略意图:模型与硬件的协同
有分析认为该模型基于昇腾 910C 训练,而 openPangu 2.0 的开源也承载着为昇腾系列芯片“正名”的使命——证明国产算力不仅能训练大模型,还能训练出好用、可用的模型。端侧模型的稀疏比设计(如 30B A2B)也暗示了针对昇腾芯片特性的深度优化。
从团队背景看,这是华为更换大模型团队后的首轮正式成果,性能距离 GPT-4、T级别模型仍有差距,但“首战即有产品”已属不易。参考 DeepSeek 从 V1 到 V3 的迭代路径,盘古的真正考验在于后续版本能否持续跟上。
短期预期与长期潜力
多数技术观察者认为,openPangu 2.0 大概率打不过 DeepSeek,但有望保持国内 Top5 水平。其真正的差异化在于与鸿蒙生态的深度绑定——小艺的 Agent 能力升级、App Skill 调用、跨设备操控等场景,是其他开源模型难以复制的护城河。
开源的核心价值在于降低开发者的使用门槛。当预训练代码、后训练代码全部开放,开发者可以在昇腾硬件上自由微调,这为华为生态的模型定制化提供了可能。
编注:信源为知乎技术社区讨论,侧重模型架构分析与性能推测,暂无实测数据;主线为 openPangu 2.0 本身,鸿蒙 AI 变化作为生态背景提及。