Anthropic发布Claude Opus 4.8:强化智能体编程与可信推理能力
SmartHey5月29日消息,Anthropic于5月29日正式推出其旗舰大模型新版本——Claude Opus 4.8,重点增强智能体(Agent)编程能力、跨领域复杂推理能力以及知识型工作任务处理水平。
据官方介绍,相较于上一版本Opus 4.7,本次升级属于迭代优化型更新,在维持原有定价策略不变的前提下,显著提升了用户在编程实践、自主任务编排、逻辑推演及专业文档处理等高频场景中的实际体验。
在能力表现上,多家早期合作机构的实测反馈指出,Opus 4.8展现出更高的响应可靠性与判断敏锐度:面对多步骤、长链条的复杂任务时,模型更善于主动澄清模糊需求、识别自身推理盲区,并在计划路径存在明显缺陷时及时提出质疑与替代建议。
内部基准测试表明,Opus 4.8将‘默许自身生成代码中存在未声明缺陷’的行为概率降至Opus 4.7的约25%,同时大幅提升不确定性显式标注频率,显著减少无依据断言或过度自信输出。
在模型对齐(Alignment)方面,Opus 4.8在支持用户自主决策、优先保障用户长期利益等关键亲社会指标上达到Claude系列迄今最高水平;相应地,欺骗性表达、目标偏移等失配行为发生率进一步低于Opus 4.7,整体对齐表现已接近前沿实验模型Claude Mythos Preview。
