大模型推理速度可以提升85%——DeepSeek团队联合北京大学于6月27日发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》,提出两项互补机制实现推理加速。目前该方案已完成真实用户流量落地验证,在同等系统吞吐规模下,V4-Flash单用户生成速度提升60%-85%,V4-Pro提升57%-78%。
为什么要加速大模型推理
大语言模型采用自回归方式生成文本——每生成一个新token都需要一次完整前向传播,输出越长等待越久。推测解码是业界公认的解决路径:用一个轻量级草稿模型快速生成候选token,再由大模型批量验证。
但现有方案各有局限。自回归草稿模型(如Eagle3)逐token串行生成,接受率高但草稿耗时随候选块长度线性增长,只能用短块。并行草稿模型虽能一次生成整块,却面临两个核心瓶颈:生成质量上,独立预测每个位置导致模块后半段接受率快速衰减;系统效率上,最优验证长度难以确定,高并发场景下吞吐反而下降。
DSpark的两项技术突破
DSpark针对这两个瓶颈提出互补机制。
第一项是半自回归生成架构:保留并行主干的高吞吐优势,同时加入轻量级串行模块,逐token注入前缀依赖信息。该模块提供两种实现——仅依赖前一个token的马尔可夫头,以及通过循环状态累积完整前缀信息的RNN头。实验表明,两层Transformer深度的DSpark即可在所有测试领域超过五层竞品的接受长度。
第二项是置信度调度验证机制:引入置信度头评估每个token的“存活概率”,硬件感知前缀调度器根据实时引擎吞吐量动态决定最优验证长度,优先将算力分配给预期回报最高的token。团队还发现原始置信头存在置信度过高问题,设计了“时序温度缩放”后验校准方案予以修正。
论文数据显示,DSpark在数学推理、代码生成、日常对话三大评测领域全面超越Eagle3与DFlash基线。以Qwen3-4B/8B/14B为例,宏平均接受长度相对Eagle3分别提升30.9%、26.7%、30.0%。值得注意的是,结构化任务可接受长度天然更高——Qwen3-4B在数学任务上平均达5.57、代码任务5.12,而开放式对话仅3.49。
开源对行业的意义
DSpark已全面部署于DeepSeek-V4-Flash、V4-Pro线上服务,替代此前的MTP-1生产基线,并扩展至阿里Qwen3-4B/8B/14B及Gemma4-12B。配套开源的DeepSpec代码库包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持MIT许可,中小企业可无需投入巨额研发即可复用成熟方案,智能体、工业代码、金融舆情等场景的规模化落地速度有望加快。
DeepSeek创始人梁文锋亲自参与论文撰写,在完成500亿融资后并未单纯追求参数扩容,而是关注落地效率。在生成式AI从实验室走向商业化的进程中,“更快、更省算力”正成为竞争力的关键指标。
编注:信源为财联社报道,材料侧重技术原理与性能数据,DeepSeek创始人参与论文、融资动态未展开。