AI 日刊 20251219

Dec 19, 2025

产品发布与更新

Gemini 3 Flash 全量升级。Google 推出主打“快+强”的 Gemini 3 Flash，并强调免费/快速/不限量定位，瞄准日常问答与高频任务的低延迟体验，意味着“默认模型”开始围绕速度与规模重新洗牌。消息来源

Claude Code 疑似性能回退排查中。Claude 团队确认收到“Opus 4.5 在 Claude Code 里可能变差”的反馈，正在逐行回溯近期改动，并建议用户用 /feedback 提交问题对话记录；对重度依赖 AI 编程的团队来说，这是典型“模型/工具链变更引入回归”的案例，值得建立回放与基准用例库来快速定位问题。消息来源

Mistral OCR 3 发布。Mistral 推出新一代文档理解/OCR，指向“文档智能”赛道继续内卷：不只是识别文字，而是面向结构化抽取与企业流程的端到端能力；适合关注发票/合同/表格等高频场景的团队评估替换成本。消息来源

GPT-5.2-Codex 上线 Codex。OpenAI 宣布 GPT-5.2-Codex 在 Codex 可用，强调更强的“agentic coding”与更可靠的复杂任务表现；对大仓库/多模块项目来说，关键价值在于“长链路任务的稳定交付”和跨文件一致性，而不仅是写单文件代码更快。消息来源

Claude Code 可控浏览器测试。Claude Code 通过 Chrome 扩展实现“控制浏览器做测试/抓数据”等能力，意味着从“写代码”进一步走向“能验证、能操作环境”的闭环；如果你在做端到端测试或数据采集，这类浏览器控制将直接影响工作流设计。消息来源

v0 先问清再开工。v0 增加“生成前先澄清问题”的能力，减少需求误解带来的返工，本质是把“产品经理式追问”内置进生成流程。消息来源

技术与研究

OpenAI 量化 CoT 可监测性。OpenAI 发布 CoT（Chain-of-Thought）monitorability 的测量框架与评测套件（覆盖多环境多评估），核心价值是把“模型是否在可控地暴露关键信号”从口号变成可度量指标；对做对齐/安全/审计的团队，这是更可复现实验与回归监控的基础设施。消息来源

Gemini 3 Flash 定价打穿成本线。Google 团队成员公布 API 价格（$0.50/百万输入 token、$3.00/百万输出 token），并强调在编码、工具调用等指标上具备“前沿能力+规模供给”，对中高频调用的 agent 产品更友好。消息来源

教程与技巧

Claude 工作流定制资料合集。整理了一组“如何定制 Claude 工作流”的资源清单，适合用来快速补齐：提示词模板化、工具/插件接入、团队规范沉淀等做法；对想把“会用”升级到“可复用”的人更有用。消息来源

Cursor 用代理修合并冲突。分享了在 Cursor 里用 agent 修 merge conflict 的命令/打法；价值在于把“最痛但标准化”的冲突解决流程交给代理执行，人只做最终验证与抽查。消息来源

Gemini App 模型档位别选错。提醒 Gemini App 的“快速/思考/Pro”对应不同模型与是否带思考，避免把“速度档”误当成“能力档”导致体验偏差；对做评测或写教程的人尤其重要。消息来源

经验与文章

Sora Android：85% 代码由 AI 写。复盘 OpenAI 团队用 Codex 28 天做出 Sora 安卓客户端的经验：先定架构与规范文件，再让 AI 填空；复杂功能先让 AI 写计划再动手，并通过测试/CI 把 agent 拉进闭环。启发是“把 AI 当团队成员管理”，关键在规范、计划与验证，而不是一把梭写代码。消息来源

用 apply patch 让模型改代码更稳。AI SDK 推广“apply patch（结构化 diff）”工具，让模型以补丁形式创建/更新/删除文件，减少大段粘贴导致的冲突与漂移，更适合工程化自动改码。消息来源

开源项目

Agent Skills 成为开放标准。Agent Skills 宣布作为开放标准推进，降低“不同智能体/工作流之间技能复用”的摩擦；对生态的意义是从各家私有插件，走向可共享、可组合的能力积木。消息来源

AI 研究助手支持实时网页抓取。分享了一个带实时 web scraping 的 AI research assistant 思路/项目，指向“RAG + 抓取 + 自动整理”的一体化研究工作台形态。消息来源

ModelWatch

Discussion about this post

Ready for more?