AI 日刊 20250909

Sep 09, 2025

① Google 的视频生成模型 Veo 3 和 Veo 3 Fast 现已在 Gemini API 中正式发布。同时，两款模型价格均下调约 50%，并新增支持 1080p 高清输出和 9:16 竖屏视频格式，为规模化生产做好了准备。消息来源

② Claude 移动应用功能增强。现在可以连接到用户的现实世界，在获得许可的情况下，可以查找附近的地点、检查日历和安排活动，无需离开应用即可完成操作。消息来源

③ 阿里巴巴通义千问团队发布了 Qwen3-ASR 语音识别模型。该模型支持包括中英在内的 11 种语言，能够自动检测语种，处理带背景音乐的歌曲、说唱等复杂音频，并能在嘈杂环境中保持高准确率。它还支持通过提供任意文本来自定义上下文，以识别专有名词或行话。消息来源

④ Vercel 旗下的 AI UI 生成工具 v0 发布了设计系统功能，用户可以为生成的内容创建独特的配色方案，在设计模式下直接调整颜色，并支持在浅色和深色模式下预览，帮助用户一键摆脱“AI 感”。消息来源

⑤ Bilibili 的文本转语音（TTS）模型 IndexTTS2 现已开源。消息来源

⑥ Gemini 支持上传任意文件格式，包括音频。消息来源

⑦ Nano Banana 创意板（BananaPod）开源。一个基于 Nano Banana 的创意白板工具，内置多种玩法，方便用户多维度生成内容，构建灵感和创意体系。消息来源仓库地址

⑧ Codex CLI Tips。1）通过在 bashrc/zshrc 中添加函数，简化更新、启用 GPT-5 高级推理和网页搜索等操作。消息来源 2）分享了一套用于加速代码搜索和提高准确性的规则。消息来源

ModelWatch