AI 日刊 20251219
产品发布与更新
Gemini 3 Flash 全量升级。Google 推出主打“快+强”的 Gemini 3 Flash,并强调免费/快速/不限量定位,瞄准日常问答与高频任务的低延迟体验,意味着“默认模型”开始围绕速度与规模重新洗牌。消息来源
Claude Code 疑似性能回退排查中。Claude 团队确认收到“Opus 4.5 在 Claude Code 里可能变差”的反馈,正在逐行回溯近期改动,并建议用户用 /feedback 提交问题对话记录;对重度依赖 AI 编程的团队来说,这是典型“模型/工具链变更引入回归”的案例,值得建立回放与基准用例库来快速定位问题。消息来源
Mistral OCR 3 发布。Mistral 推出新一代文档理解/OCR,指向“文档智能”赛道继续内卷:不只是识别文字,而是面向结构化抽取与企业流程的端到端能力;适合关注发票/合同/表格等高频场景的团队评估替换成本。消息来源
GPT-5.2-Codex 上线 Codex。OpenAI 宣布 GPT-5.2-Codex 在 Codex 可用,强调更强的“agentic coding”与更可靠的复杂任务表现;对大仓库/多模块项目来说,关键价值在于“长链路任务的稳定交付”和跨文件一致性,而不仅是写单文件代码更快。消息来源
Claude Code 可控浏览器测试。Claude Code 通过 Chrome 扩展实现“控制浏览器做测试/抓数据”等能力,意味着从“写代码”进一步走向“能验证、能操作环境”的闭环;如果你在做端到端测试或数据采集,这类浏览器控制将直接影响工作流设计。消息来源
v0 先问清再开工。v0 增加“生成前先澄清问题”的能力,减少需求误解带来的返工,本质是把“产品经理式追问”内置进生成流程。消息来源
技术与研究
OpenAI 量化 CoT 可监测性。OpenAI 发布 CoT(Chain-of-Thought)monitorability 的测量框架与评测套件(覆盖多环境多评估),核心价值是把“模型是否在可控地暴露关键信号”从口号变成可度量指标;对做对齐/安全/审计的团队,这是更可复现实验与回归监控的基础设施。消息来源
Gemini 3 Flash 定价打穿成本线。Google 团队成员公布 API 价格($0.50/百万输入 token、$3.00/百万输出 token),并强调在编码、工具调用等指标上具备“前沿能力+规模供给”,对中高频调用的 agent 产品更友好。消息来源
教程与技巧
Claude 工作流定制资料合集。整理了一组“如何定制 Claude 工作流”的资源清单,适合用来快速补齐:提示词模板化、工具/插件接入、团队规范沉淀等做法;对想把“会用”升级到“可复用”的人更有用。消息来源
Cursor 用代理修合并冲突。分享了在 Cursor 里用 agent 修 merge conflict 的命令/打法;价值在于把“最痛但标准化”的冲突解决流程交给代理执行,人只做最终验证与抽查。消息来源
Gemini App 模型档位别选错。提醒 Gemini App 的“快速/思考/Pro”对应不同模型与是否带思考,避免把“速度档”误当成“能力档”导致体验偏差;对做评测或写教程的人尤其重要。消息来源
经验与文章
Sora Android:85% 代码由 AI 写。复盘 OpenAI 团队用 Codex 28 天做出 Sora 安卓客户端的经验:先定架构与规范文件,再让 AI 填空;复杂功能先让 AI 写计划再动手,并通过测试/CI 把 agent 拉进闭环。启发是“把 AI 当团队成员管理”,关键在规范、计划与验证,而不是一把梭写代码。消息来源
用 apply patch 让模型改代码更稳。AI SDK 推广“apply patch(结构化 diff)”工具,让模型以补丁形式创建/更新/删除文件,减少大段粘贴导致的冲突与漂移,更适合工程化自动改码。消息来源
开源项目
Agent Skills 成为开放标准。Agent Skills 宣布作为开放标准推进,降低“不同智能体/工作流之间技能复用”的摩擦;对生态的意义是从各家私有插件,走向可共享、可组合的能力积木。消息来源
AI 研究助手支持实时网页抓取。分享了一个带实时 web scraping 的 AI research assistant 思路/项目,指向“RAG + 抓取 + 自动整理”的一体化研究工作台形态。消息来源


