AI 日刊 20251009
① Google 发布了一款专门用于 UI 交互的新模型 Gemini 2.5 Computer Use。该模型基于 Gemini 2.5 Pro 构建,能像人类一样通过点击、滚动和输入来操作网页和应用程序,在多项基准测试中表现优于其他模型,且延迟更低。开发者现在可以通过 Google AI Studio 和 Vertex AI API 提前体验。消息来源
② Google 宣布其 AI Plus 订阅服务新增 36 个国家,总数达到 77 个。该服务提供更高额度的图像模型 Nano Banana 使用权限、更多 Veo 3 Fast 和 FlowbyGoogle 的访问权、NotebookLM 的扩展访问、集成在 Gmail/Docs 等应用中的 Gemini 功能,以及 200GB 存储空间。消息来源
③ Gemini CLI 增加了对扩展的支持,允许连接到如 Dynatrace、Elastic、Figma、Shopify、Stripe 等第三方工具链,在命令行中即可实现更丰富的工作流。消息来源
④ OpenAI 推出了 Agent Builder,这是一个用于快速创建 AI Agent 的全功能开发平台,旨在将“Prompt 工程”提升为“Agent 工程”,用户可以通过可视化拖拽的方式设计流程。同时,ChatGPT 也推出了新功能“Apps in ChatGPT”,允许用户在对话中直接调用和操作第三方应用(如 Zillow、Spotify、Canva),实现任务的无缝处理,向 AI App Store 的形态迈进。消息来源
⑤ AI 代码编辑器 Cursor 发布了新的“计划模式”(Plan Mode)。该功能允许 Agent 在开始执行复杂任务前先编写详细的计划,从而能够支持运行时间更长的复杂任务,提升了代码生成和修改的准确性与可靠性。消息来源
⑥ OpenAI Cookbook 详细介绍了如何为 Sora 2 编写成功的视频提示词。指南强调,提示词应像给摄影师的简报,细节决定成败。核心要点包括:平衡细节与自由、结构化描述、风格先行、具体而非模糊、动作简化。消息来源
⑦ Dia 浏览器正式向所有 macOS 用户开放。消息来源
⑧ Lovart AI 平台上线了 Sora 2 和 Sora 2 Pro 模型,支持音画同步、风格一致的视频生成,且生成的视频无水印。在活动期间,用户每天可以免费生成多个视频。消息来源