AI 日刊 20250930

Sep 30, 2025

① Claude Sonnet 4.5 正式发布。1) 宣称其为目前全球最强的编程模型，在软件工程基准测试 SWE-bench Verified 中得分达到 82%，2) 模型在构建复杂的 AI 智能体（Agent）方面有显著提升，能够长时间自主运行（官方称超过 30 小时），并在计算机使用、金融分析及科学研究等领域表现卓越。3) 新增了上下文感知能力，模型可以追踪自身的 Token 使用情况。4) 目前 Sonnet 4.5 已成为 Claude 网站、iOS/Android 应用及 API 的默认模型，定价与 Sonnet 4 保持一致。5）多平台已集成 Claude Sonnet 4.5，包括 Cursor, OpenRouter, Perplexity, Warp, Windsurf, Augment Code, v0, Cline 等。消息来源

② Claude Code 发布 2.0。1）带来了全新的终端界面和 VS Code 扩展插件，2）新增「检查点」（Checkpoints）功能，用户可通过 /rewind 命令或快捷键快速回滚代码更改，3）Anthropic 正式将其 SDK 从「Claude Code SDK」更名为「Claude Agent SDK」，以体现其在构建通用智能体方面的能力。消息来源

③ DeepSeek 发布了最新的实验性模型 V3.2-Exp。该模型基于 V3.1-Terminus 构建，并引入了创新的“深度求索稀疏注意力”（DeepSeek Sparse Attention, DSA）技术，显著提升了长上下文场景下的训练和推理效率。得益于效率提升，其 API 价格下调超过 50%。目前，该模型已在官方 App、网页端和 API 上线。消息来源

④ Cursor 1.7 版本更新，增强 Agent 功能。包括：1) 新增 Agent 自动补全功能；2) 引入 Hooks 以控制和扩展 Agent 循环；3) 支持团队设置全局规则；4) 可通过链接共享可复用的提示词；5) 新增菜单栏监视器以检查 Agent 状态；6) Agent 现可读取工作区中的图片。消息来源

⑤ Cursor 新增浏览器控制能力。其智能体可以执行截屏、改进 UI 和调试客户端问题等任务。该功能的早期预览版已上线，并集成了 Sonnet 4.5 模型。消息来源

⑥ Perplexity 开始向 Max 订阅用户推出「后台智能体」（Background Agents）功能，该功能可以执行复杂的长耗时任务。消息来源

⑦ Emdash 是 Codex CLI 的并行运行工具，可以在隔离的工作区中并行运行多个 Codex CLI agent。仓库地址

⑧ Gemini-CLI-UI 是一款基于响应式设计的 Gemini CLI 的 Web 界面，提供了直观的交互界面，可以在任何设备上使用 Gemini CLI 进行 AI 辅助编程。仓库地址

ModelWatch

Discussion about this post

Ready for more?