AI 日刊 20251125

Nov 25, 2025

① Anthropic 发布 Claude Opus 4.5，该模型在编码、智能体（agents）和计算机使用方面表现出色，达到了世界顶尖水平。1）在 SWE-Bench (verified) 基准测试中取得了 80.9% 的惊人分数，创下世界纪录，并在 OSWorld 等基准测试中也表现优异。2）价格与效率：Opus 4.5 的价格比 Opus 4.1 降低了 3 倍（输入 $5/M tokens, 输出 $25/M tokens），同时速度更快，Token 效率更高，据称输出 Token 减少了 76%。3）API 增强：为构建智能体发布了三个新的 API 功能：工具搜索（Tool Search）、程序化工具调用（Programmatic Tool Calling）和工具使用示例（Tool Use Examples），方便开发者在不增加上下文负担的情况下扩展数百个工具。4）生态集成：发布后，多个平台和工具迅速宣布集成 Opus 4.5，包括 Cursor、v0、Windsurf、OpenRouter、Perplexity、Warp、Cline 等。用户反馈其在处理复杂、多步骤的编码任务时表现尤为出色。消息来源

② Cursor 2.1 发布。新版本推出了交互式 UI（Plan 模式）用于回答澄清性问题，并增加了编辑器内代码审查、即时 grep 和改进的浏览器使用等功能。消息来源

③ Windsurf 推出混合 Agent 模式。用户现在可以将用于规划的 Claude Sonnet 4.5 与执行速度更快的 SWE-1.5 模型配对使用，创建出能够处理更复杂任务的混合 Agent。消息来源

④ Armin Ronacher 讨论了构建 Agent 的困难，并开始将 Agent 和 LLM API 视为状态同步问题，认为可以借鉴 local-first 领域的思路。他还指出，Agent 在 Rust 上的迭代效果比 C++ 更好。消息来源 1, 消息来源 2

⑤ Ian Nuttall 分享了对 gpt-5.1-codex-max 的初步使用体验，认为它速度快但计划性稍弱。同时，他还详细对比了 Factory CLI 和 Codex CLI 的优缺点。消息来源 1, 消息来源 2

⑥ Gemini 3 系列模型的提示工程最佳实践。Google DeepMind 团队合作发布了一系列 Gemini 3 Pro 的系统指令和提示词最佳实践，据称可将模型在某些智能体基准测试中的性能提升约 5%。针对智能体（Agentic）的系统指令通用提示最佳实践

⑦ 利用 AI 优化个人读书流程。一位用户分享了他当前利用 AI 进行阅读的五个步骤：筛选（Prompt 抽取框架）、阅读（原文）、提问（与模型讨论）、记录（生成笔记）和图形化（生成可视化图形）。消息来源

ModelWatch

Discussion about this post

Ready for more?