Claude Opus 4.8 发布：计算机操作得分 84%，Dynamic Workflows 可唤百子智能体

Anthropic 在距 Opus 4.7 仅 41 天后发布了 Claude Opus 4.8，官方形容为一次“小幅但实在”的升级。价格没涨，仍为输入 5 美元/百万 token、输出 25 美元/百万 token。智能体编程从 64.3% 提升至 69.2%，带工具的多学科推理从 54.7% 到 57.9%，最亮眼的是计算机操作任务 Online‑Mind2Web 达到 84%，明显领先上一代与 GPT‑5.5。同步推出的 Dynamic workflows 则让 Claude Code 能够一次拉起数十甚至上百个子智能体并行攻坚。

性能提升与诚实改进

这版模型的目标是在不大幅加价的前提下补上 4.7 的短板。官方声称智能体编程、智能体金融分析与计算机操作三项均已压过 GPT‑5.5 和 Gemini 3.1 Pro。但更大的故事是“诚实”：当代码存在缺陷时，模型默不作声放过去的概率大约降至上代的 1/4。对齐评估也显示，4.8 在“支持用户自主、为用户着想”等亲社会指标上创下新高，欺骗、配合滥用等负面行为比例显著低于 4.7，逼近内部对齐最好的模型版本。

Dynamic workflows：复杂任务的并行引擎

Dynamic workflows 是为 Claude Code 配置的“大活儿”模式。面对一个 agent 难以一次完成的任务，它会自动拆解、拉起子智能体并行执行，并在交付前互相校验直至结果收敛。用户实测简单论文改写任务就调用了 21 个子智能体，消耗近 180 万 token。使用门槛不高，只需说明“创建一个 workflow”或在 ultra‑code 设置中让模型自行判断启用，支持连续运行数小时到数天，中断后还能接着跑。不过该模式 token 消耗远超普通会话，建议从小任务入手。官方内嵌了 deep‑research 示例，方便快速体验。

编注：信源为知乎回答，涵盖性能基准、诚实性改进及 Dynamic workflows 实测，材料侧重对比与体验，未涉及官方技术报告细节，读者应留意基准测试的局限性。