AI 日刊 20251125
① Anthropic 发布 Claude Opus 4.5,该模型在编码、智能体(agents)和计算机使用方面表现出色,达到了世界顶尖水平。1)在 SWE-Bench (verified) 基准测试中取得了 80.9% 的惊人分数,创下世界纪录,并在 OSWorld 等基准测试中也表现优异。2)价格与效率:Opus 4.5 的价格比 Opus 4.1 降低了 3 倍(输入 $5/M tokens, 输出 $25/M tokens),同时速度更快,Token 效率更高,据称输出 Token 减少了 76%。3)API 增强:为构建智能体发布了三个新的 API 功能:工具搜索(Tool Search)、程序化工具调用(Programmatic Tool Calling)和工具使用示例(Tool Use Examples),方便开发者在不增加上下文负担的情况下扩展数百个工具。4)生态集成:发布后,多个平台和工具迅速宣布集成 Opus 4.5,包括 Cursor、v0、Windsurf、OpenRouter、Perplexity、Warp、Cline 等。用户反馈其在处理复杂、多步骤的编码任务时表现尤为出色。消息来源
② Cursor 2.1 发布。新版本推出了交互式 UI(Plan 模式)用于回答澄清性问题,并增加了编辑器内代码审查、即时 grep 和改进的浏览器使用等功能。消息来源
③ Windsurf 推出混合 Agent 模式。用户现在可以将用于规划的 Claude Sonnet 4.5 与执行速度更快的 SWE-1.5 模型配对使用,创建出能够处理更复杂任务的混合 Agent。消息来源
④ Armin Ronacher 讨论了构建 Agent 的困难,并开始将 Agent 和 LLM API 视为状态同步问题,认为可以借鉴 local-first 领域的思路。他还指出,Agent 在 Rust 上的迭代效果比 C++ 更好。 消息来源 1, 消息来源 2
⑤ Ian Nuttall 分享了对 gpt-5.1-codex-max 的初步使用体验,认为它速度快但计划性稍弱。同时,他还详细对比了 Factory CLI 和 Codex CLI 的优缺点。 消息来源 1, 消息来源 2
⑥ Gemini 3 系列模型的提示工程最佳实践。Google DeepMind 团队合作发布了一系列 Gemini 3 Pro 的系统指令和提示词最佳实践,据称可将模型在某些智能体基准测试中的性能提升约 5%。针对智能体(Agentic)的系统指令 通用提示最佳实践
⑦ 利用 AI 优化个人读书流程。一位用户分享了他当前利用 AI 进行阅读的五个步骤:筛选(Prompt 抽取框架)、阅读(原文)、提问(与模型讨论)、记录(生成笔记)和图形化(生成可视化图形)。消息来源


