AI 日刊 20251210

Dec 10, 2025

产品发布与更新

Devstral 2 开源编码模型上线。Mistral 发布 Devstral 2 与 Devstral Small 两个开源代码模型，并推出原生 CLI 工具 Mistral Vibe，主打端到端自动化和高质量代码生成，对标企业级编码助手生态。消息来源补充阅读

Claude Agent SDK 支持 1M 上下文。Claude Agent SDK 新增 100 万 token 上下文、沙箱能力以及 TypeScript 接口 V2，大幅降低自定义 Agent 落地门槛，适合构建需长上下文和受控执行环境的企业级代理。消息来源

Gemini App 内测视频模板库。Gemini 手机端开始灰度“模板库”实验，用户可在工具菜单选择模板一键生成视频或基于自定义图片进行改造，这预示着 Gemini 正在向「低门槛视频创作平台」演进，而不仅是聊天助手。消息来源

OpenAI 新图像模型 Chestnut / Hazelnut 曝光。有开发者在 LM Arena 发现 OpenAI 的 Chestnut 和 Hazelnut 新图像模型，实测效果已接近 Nano Banana Pro，意味着 OpenAI 正在补强在高保真出图上的短板。消息来源用户评测

腾讯 WeKnora 2.0：RAG + Agent 双驱动。WeKnora 2.0 升级为 RAG + Agent 架构，引入 ReAct、DuckDuckGo 实时检索、FAQ 知识库、MCP 支持及多种启动/传输方式，定位为可直接嵌入公众号、小程序等生态的企业级智能问答底座。消息来源

智谱 AutoGLM 手机 Agent 全栈开源。AutoGLM 以 MIT 许可证开放模型、代码与完整工具链，包含已训练模型、50+ 高频 App 能力 Demo、Android 适配层和详尽文档，为「手机原生 Agent」提供了一套可直接复用的工业级范本。消息来源

技术与研究

Karpathy 揭示 Python random.seed“恐怖脚枪”。Karpathy 发现 random.seed(3) 与 random.seed(-3) 实际生成同一随机序列，因为 CPython 会对整数种子取绝对值，违反了许多 ML 工程师默认的“不同种子=不同流”假设，对训练/验证划分与实验可复现性都是隐蔽风险。消息来源

GigaTIME 用 AI 重建肿瘤微环境。微软与 Providence、华盛顿大学合作在 Cell 发表 GigaTIME，可从常规病理切片模拟空间蛋白组学，在数十种癌症和数百亚型上进行大规模肿瘤微环境分析，加速从数据到治疗靶点的发现。消息来源

SAPO：为大模型 RL 调参降噪。Qwen 提出 Soft Adaptive Policy Optimization，用连续的温度控制门替换硬截断，特别针对 MoE 模型中梯度方差大的问题，实现更长、更稳定的 RL 微调，并在 Qwen3‑VL 的数学、代码和多模态任务上显著提升 Pass@1。消息来源

SGTM：把高危知识“装进可拆卸模块”。Anthropic Fellows 的 Selective Gradient Masking 研究探索如何让模型将武器等高风险知识集中到一小块参数中，以便在不明显损害整体能力的前提下实现“可剪除”的安全开关，对未来可控开源模型有重要启发。消息来源

教程与技巧

用 Gemini / NotebookLM 精读论文工作流。向阳乔木分享读 AI 论文的实战流程：左屏原始 PDF，右屏 Gemini 或 NotebookLM，用「给高中生讲懂」类提示词逐段拆解，并要求标出图表页码、公式含义与创新点，实质上把大模型当“私人助教 + 结构化提纲生成器”。消息来源

先找风格代表作家再写提示词。Yohei 的写作技巧是先让 AI 列出某种风格最典型的作家，然后在提示词中直接引用作家名字，而不是用长篇形容风格，这种“指路标”式提示往往比堆形容词更稳定地得到期望文风。消息来源

把马斯克思维框架转成 AI 提示词。Hasan 将 Elon Musk 的物理学第一性原理拆成 15 条系统化提示词，用于审视和重构自己的方案，相当于用 LLM 搭建一个“高强度审稿人”，对产品/策略思考有一定通用参考价值。消息来源

《the idea of AI》讲座 6000 字整理。howie 把 ChatGPT 三周年专题讲座浓缩成笔记，试图用“idea”而非“技术栈”来梳理这三年 AI 发展脉络，适合作为再次校准自己对 AI 本质理解的一篇长文入口。消息来源

ModelWatch

Discussion about this post

Ready for more?