Claude Opus 4.8 发布:计算机操作得分 84%,Dynamic Workflows 可唤百子智能体

Claude Opus 4.8 发布:计算机操作得分 84%,Dynamic Workflows 可唤百子智能体

_

Anthropic 在距 Opus 4.7 仅 41 天后发布了 Claude Opus 4.8,官方形容为一次“小幅但实在”的升级。价格没涨,仍为输入 5 美元/百万 token、输出 25 美元/百万 token。智能体编程从 64.3% 提升至 69.2%,带工具的多学科推理从 54.7% 到 57.9%,最亮眼的是计算机操作任务 Online‑Mind2Web 达到 84%,明显领先上一代与 GPT‑5.5。同步推出的 Dynamic workflows 则让 Claude Code 能够一次拉起数十甚至上百个子智能体并行攻坚。

性能提升与诚实改进

这版模型的目标是在不大幅加价的前提下补上 4.7 的短板。官方声称智能体编程、智能体金融分析与计算机操作三项均已压过 GPT‑5.5 和 Gemini 3.1 Pro。但更大的故事是“诚实”:当代码存在缺陷时,模型默不作声放过去的概率大约降至上代的 1/4。对齐评估也显示,4.8 在“支持用户自主、为用户着想”等亲社会指标上创下新高,欺骗、配合滥用等负面行为比例显著低于 4.7,逼近内部对齐最好的模型版本。

Dynamic workflows:复杂任务的并行引擎

Dynamic workflows 是为 Claude Code 配置的“大活儿”模式。面对一个 agent 难以一次完成的任务,它会自动拆解、拉起子智能体并行执行,并在交付前互相校验直至结果收敛。用户实测简单论文改写任务就调用了 21 个子智能体,消耗近 180 万 token。使用门槛不高,只需说明“创建一个 workflow”或在 ultra‑code 设置中让模型自行判断启用,支持连续运行数小时到数天,中断后还能接着跑。不过该模式 token 消耗远超普通会话,建议从小任务入手。官方内嵌了 deep‑research 示例,方便快速体验。

编注:信源为知乎回答,涵盖性能基准、诚实性改进及 Dynamic workflows 实测,材料侧重对比与体验,未涉及官方技术报告细节,读者应留意基准测试的局限性。


比亚迪4nm自研智驾芯片量产,软硬一体拉开算力差距 2026-05-29
信达生物与辉瑞达成105亿美元合作,创新药出海进入协同开发新阶段 2026-05-29