秒级音频生成:Stability AI 开源 Stable Audio 3,支持分钟级合成与局部编辑

秒级音频生成:Stability AI 开源 Stable Audio 3,支持分钟级合成与局部编辑

_

Stable Audio 3 是一个音频生成与编辑模型系列,包含 small、medium、large 三个规模。该模型基于语义声学自编码器(semantic-acoustic autoencoder),将音频投影至紧凑的潜空间再进行扩散生成,兼顾保真度与语义结构。

模型支持可变长度生成,可一次性输出数分钟音频,避免了短音效也需完整生成的高成本操作。此外还支持 inpainting(修复式编辑),可对录音进行精准的区域修改或续写。

通过对抗后训练(adversarial post-training),Stable Audio 3 在减少推理步数的同时提升了音质与提示词遵循度。在 NVIDIA H200 GPU 上生成音频不到 2 秒,在 MacBook Pro M4(Apple Silicon)上也仅需数秒。

目前 small 与 medium 两个规模的权重、训练代码与推理脚本均已开源,普通消费级显卡即可运行。该系列在licensed data 与 Creative Commons 数据上训练,聚焦音乐与音效生成。

编注:来源为arXiv预印本(2026年5月18日提交),含完整摘要、作者与代码链接,材料可信。论文披露了模型架构与benchmark数据,但未提供与其他模型(如Suno、Udio)的横向对比数据。


Firefox 148 禁用 asm.js 优化:OdinMonkey 迎来黄昏 2026-05-20
SBCL 内联汇编实战:环形寄存器栈的 VM 实现 2026-05-20