大模型推理提速85%！DeepSeek新论文提出两项互补机制

大模型推理速度可以提升85%——DeepSeek团队联合北京大学于6月27日发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》，提出两项互补机制实现推理加速。目前该方案已完成真实用户流量落地验证，在同等系统吞吐规模下，V4-Flash单用户生成速度提升60%-85%，V4-Pro提升57%-78%。

为什么要加速大模型推理

大语言模型采用自回归方式生成文本——每生成一个新token都需要一次完整前向传播，输出越长等待越久。推测解码是业界公认的解决路径：用一个轻量级草稿模型快速生成候选token，再由大模型批量验证。

但现有方案各有局限。自回归草稿模型（如Eagle3）逐token串行生成，接受率高但草稿耗时随候选块长度线性增长，只能用短块。并行草稿模型虽能一次生成整块，却面临两个核心瓶颈：生成质量上，独立预测每个位置导致模块后半段接受率快速衰减；系统效率上，最优验证长度难以确定，高并发场景下吞吐反而下降。

DSpark的两项技术突破

DSpark针对这两个瓶颈提出互补机制。

第一项是半自回归生成架构：保留并行主干的高吞吐优势，同时加入轻量级串行模块，逐token注入前缀依赖信息。该模块提供两种实现——仅依赖前一个token的马尔可夫头，以及通过循环状态累积完整前缀信息的RNN头。实验表明，两层Transformer深度的DSpark即可在所有测试领域超过五层竞品的接受长度。

第二项是置信度调度验证机制：引入置信度头评估每个token的“存活概率”，硬件感知前缀调度器根据实时引擎吞吐量动态决定最优验证长度，优先将算力分配给预期回报最高的token。团队还发现原始置信头存在置信度过高问题，设计了“时序温度缩放”后验校准方案予以修正。

论文数据显示，DSpark在数学推理、代码生成、日常对话三大评测领域全面超越Eagle3与DFlash基线。以Qwen3-4B/8B/14B为例，宏平均接受长度相对Eagle3分别提升30.9%、26.7%、30.0%。值得注意的是，结构化任务可接受长度天然更高——Qwen3-4B在数学任务上平均达5.57、代码任务5.12，而开放式对话仅3.49。

开源对行业的意义

DSpark已全面部署于DeepSeek-V4-Flash、V4-Pro线上服务，替代此前的MTP-1生产基线，并扩展至阿里Qwen3-4B/8B/14B及Gemma4-12B。配套开源的DeepSpec代码库包含数据准备工具、草稿模型实现、训练代码和评估脚本，支持MIT许可，中小企业可无需投入巨额研发即可复用成熟方案，智能体、工业代码、金融舆情等场景的规模化落地速度有望加快。

DeepSeek创始人梁文锋亲自参与论文撰写，在完成500亿融资后并未单纯追求参数扩容，而是关注落地效率。在生成式AI从实验室走向商业化的进程中，“更快、更省算力”正成为竞争力的关键指标。

编注：信源为财联社报道，材料侧重技术原理与性能数据，DeepSeek创始人参与论文、融资动态未展开。