AI 日刊 20250909
① Google 的视频生成模型 Veo 3 和 Veo 3 Fast 现已在 Gemini API 中正式发布。同时,两款模型价格均下调约 50%,并新增支持 1080p 高清输出和 9:16 竖屏视频格式,为规模化生产做好了准备。消息来源
② Claude 移动应用功能增强。现在可以连接到用户的现实世界,在获得许可的情况下,可以查找附近的地点、检查日历和安排活动,无需离开应用即可完成操作。消息来源
③ 阿里巴巴通义千问团队发布了 Qwen3-ASR 语音识别模型。该模型支持包括中英在内的 11 种语言,能够自动检测语种,处理带背景音乐的歌曲、说唱等复杂音频,并能在嘈杂环境中保持高准确率。它还支持通过提供任意文本来自定义上下文,以识别专有名词或行话。消息来源
④ Vercel 旗下的 AI UI 生成工具 v0 发布了设计系统功能,用户可以为生成的内容创建独特的配色方案,在设计模式下直接调整颜色,并支持在浅色和深色模式下预览,帮助用户一键摆脱“AI 感”。消息来源
⑤ Bilibili 的文本转语音(TTS)模型 IndexTTS2 现已开源。消息来源
⑥ Gemini 支持上传任意文件格式,包括音频。消息来源
⑦ Nano Banana 创意板(BananaPod)开源。一个基于 Nano Banana 的创意白板工具,内置多种玩法,方便用户多维度生成内容,构建灵感和创意体系。消息来源 仓库地址
⑧ Codex CLI Tips。1)通过在 bashrc/zshrc 中添加函数,简化更新、启用 GPT-5 高级推理和网页搜索等操作。消息来源 2)分享了一套用于加速代码搜索和提高准确性的规则。消息来源