阿里巴巴通义千问团队近日发布Qwen-AgentWorld系列语言世界模型,首次让语言模型具备模拟真实智能体环境的能力。团队推出两个规模的模型:350亿参数稀疏激活版(Qwen-AgentWorld-35B-A3B)和3970亿参数稀疏激活版(Qwen-AgentWorld-397B-A17B),二者均能通过长链推理模拟涵盖7个不同领域的智能体交互环境。
为什么需要语言世界模型
「世界模型」是智能体进行推理与规划的核心认知机制——它让AI能基于当前观察和动作预测环境变化。传统方法依赖游戏或仿真引擎,但真实世界的复杂性远超人工设计的环境。Qwen-AgentWorld的突破在于:直接用语言模型学习现实世界的状态转换规律。
训练数据来自超过1000万条跨7个领域的真实环境交互轨迹,采用三阶段流水线:先通过持续预训练(CPT)注入通用世界建模能力,再监督微调(SFT)激活状态预测推理,最后强化学习(RL)用混合评估标准提升模拟保真度。
两条落地路径
作为「解耦环境模拟器」,Qwen-AgentWorld可同时模拟数千个真实场景,让智能体在虚拟环境中高效训练,避免真实环境交互的高成本与安全风险,实验显示其效果优于纯真实环境训练。
作为「统一智能体基础模型」,世界模型预训练成为高效热身阶段,在7个智能体基准测试中均带来性能提升。团队同步发布AgentWorldBench基准,基于5个前沿模型在9个基准测试上的真实交互数据构建,用于评估语言世界模型的能力边界。
编注:信源为arXiv预印本及Hacker News讨论,内容前沿但未经同行评审,材料侧重技术架构与评测数据,未涉及模型开源时间表或商业化计划。