AI 日刊 20250930
① Claude Sonnet 4.5 正式发布。1) 宣称其为目前全球最强的编程模型,在软件工程基准测试 SWE-bench Verified 中得分达到 82%,2) 模型在构建复杂的 AI 智能体(Agent)方面有显著提升,能够长时间自主运行(官方称超过 30 小时),并在计算机使用、金融分析及科学研究等领域表现卓越。3) 新增了上下文感知能力,模型可以追踪自身的 Token 使用情况。4) 目前 Sonnet 4.5 已成为 Claude 网站、iOS/Android 应用及 API 的默认模型,定价与 Sonnet 4 保持一致。5)多平台已集成 Claude Sonnet 4.5,包括 Cursor, OpenRouter, Perplexity, Warp, Windsurf, Augment Code, v0, Cline 等。消息来源
② Claude Code 发布 2.0。1)带来了全新的终端界面和 VS Code 扩展插件,2)新增「检查点」(Checkpoints)功能,用户可通过 /rewind
命令或快捷键快速回滚代码更改,3)Anthropic 正式将其 SDK 从「Claude Code SDK」更名为「Claude Agent SDK」,以体现其在构建通用智能体方面的能力。消息来源
③ DeepSeek 发布了最新的实验性模型 V3.2-Exp。该模型基于 V3.1-Terminus 构建,并引入了创新的“深度求索稀疏注意力”(DeepSeek Sparse Attention, DSA)技术,显著提升了长上下文场景下的训练和推理效率。得益于效率提升,其 API 价格下调超过 50%。目前,该模型已在官方 App、网页端和 API 上线。消息来源
④ Cursor 1.7 版本更新,增强 Agent 功能。包括:1) 新增 Agent 自动补全功能;2) 引入 Hooks 以控制和扩展 Agent 循环;3) 支持团队设置全局规则;4) 可通过链接共享可复用的提示词;5) 新增菜单栏监视器以检查 Agent 状态;6) Agent 现可读取工作区中的图片。消息来源
⑤ Cursor 新增浏览器控制能力。其智能体可以执行截屏、改进 UI 和调试客户端问题等任务。该功能的早期预览版已上线,并集成了 Sonnet 4.5 模型。 消息来源
⑥ Perplexity 开始向 Max 订阅用户推出「后台智能体」(Background Agents)功能,该功能可以执行复杂的长耗时任务。 消息来源
⑦ Emdash 是 Codex CLI 的并行运行工具,可以在隔离的工作区中并行运行多个 Codex CLI agent。仓库地址
⑧ Gemini-CLI-UI 是一款基于响应式设计的 Gemini CLI 的 Web 界面,提供了直观的交互界面,可以在任何设备上使用 Gemini CLI 进行 AI 辅助编程。仓库地址