① Anthropic 发布 Claude Opus 4.5,该模型在编码、智能体(agents)和计算机使用方面表现出色,达到了世界顶尖水平。1)在 SWE-Bench (verified) 基准测试中取得了 80.9% 的惊人分数,创下世界纪录,并在 OSWorld 等基准测试中也表现优异。2)价格与效率:Opus 4.5 的价格比 Opus 4.1 降低了 3 倍(输入 $5/M tokens, 输出 $25/M tokens),同时速度更快,Token 效率更高,据称输出 Token 减少了 76%。3)API 增强:为构建智能体发布了三个新的 API 功能:工具搜索(Tool Search)、程序化工具调用(Programmatic Tool Calling)和工具使用示例(Tool Use Examples),方便开发者在不增加上下文负担的情况下扩展数百个工具。4)生态集成:发布后,多个平台和工具迅速宣布集成 Opus 4.5,包括 Cursor、v0、Windsurf、OpenRouter、Perplexity、Warp、Cline 等。用户反馈其在处理复杂、多步骤的编码任务时表现尤为出色。
AI 日刊 20251125
① Anthropic 发布 Claude Opus 4.5,该模型在编码、智能体(agents)和计算机使用方面表现出色,达到了世界顶尖水平。1)在 SWE-Bench (verified) 基准测试中取得了 80.9% 的惊人分数,创下世界纪录,并在 OSWorld 等基准测试中也表现优异。2)价格与效率:Opus 4.5 的价格比 Opus 4.1 降低了 3 倍(输入 $5/M tokens, 输出 $25/M tokens),同时速度更快,Token 效率更高,据称输出 Token 减少了 76%。3)API 增强:为构建智能体发布了三个新的 API 功能:工具搜索(Tool Search)、程序化工具调用(Programmatic Tool Calling)和工具使用示例(Tool Use Examples),方便开发者在不增加上下文负担的情况下扩展数百个工具。4)生态集成:发布后,多个平台和工具迅速宣布集成 Opus 4.5,包括 Cursor、v0、Windsurf、OpenRouter、Perplexity、Warp、Cline 等。用户反馈其在处理复杂、多步骤的编码任务时表现尤为出色。