AI 日刊 20251009

Oct 09, 2025

① Google 发布了一款专门用于 UI 交互的新模型 Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 构建，能像人类一样通过点击、滚动和输入来操作网页和应用程序，在多项基准测试中表现优于其他模型，且延迟更低。开发者现在可以通过 Google AI Studio 和 Vertex AI API 提前体验。消息来源

② Google 宣布其 AI Plus 订阅服务新增 36 个国家，总数达到 77 个。该服务提供更高额度的图像模型 Nano Banana 使用权限、更多 Veo 3 Fast 和 FlowbyGoogle 的访问权、NotebookLM 的扩展访问、集成在 Gmail/Docs 等应用中的 Gemini 功能，以及 200GB 存储空间。消息来源

③ Gemini CLI 增加了对扩展的支持，允许连接到如 Dynatrace、Elastic、Figma、Shopify、Stripe 等第三方工具链，在命令行中即可实现更丰富的工作流。消息来源

④ OpenAI 推出了 Agent Builder，这是一个用于快速创建 AI Agent 的全功能开发平台，旨在将“Prompt 工程”提升为“Agent 工程”，用户可以通过可视化拖拽的方式设计流程。同时，ChatGPT 也推出了新功能“Apps in ChatGPT”，允许用户在对话中直接调用和操作第三方应用（如 Zillow、Spotify、Canva），实现任务的无缝处理，向 AI App Store 的形态迈进。消息来源

⑤ AI 代码编辑器 Cursor 发布了新的“计划模式”（Plan Mode）。该功能允许 Agent 在开始执行复杂任务前先编写详细的计划，从而能够支持运行时间更长的复杂任务，提升了代码生成和修改的准确性与可靠性。消息来源

⑥ OpenAI Cookbook 详细介绍了如何为 Sora 2 编写成功的视频提示词。指南强调，提示词应像给摄影师的简报，细节决定成败。核心要点包括：平衡细节与自由、结构化描述、风格先行、具体而非模糊、动作简化。消息来源

⑦ Dia 浏览器正式向所有 macOS 用户开放。消息来源

⑧ Lovart AI 平台上线了 Sora 2 和 Sora 2 Pro 模型，支持音画同步、风格一致的视频生成，且生成的视频无水印。在活动期间，用户每天可以免费生成多个视频。消息来源

ModelWatch

Discussion about this post

Ready for more?