AI 日刊 20251212
产品发布与更新
GPT‑5.2 正式发布,主打真实知识工作。OpenAI 推出 GPT‑5.2 家族,已在 ChatGPT 与 API 全面上线,重点强化长文档推理、编码和电子表格/演示文稿等“真实世界知识工作”场景。Sam Altman 称这是自 GPT‑5.1 以来最大升级,并强调在过去一年实现了约 390 倍成本下降,意味着更强模型正在快速走向“人人用得起”的专业助手。消息来源
Grok 成为萨尔瓦多全国 AI 家教。xAI 宣布与萨尔瓦多政府合作,将个性化 Grok 家教带入全国所有公立学校,为超过 100 万学生提供一对一辅导,被称为全球首个“全国级 AI 家教计划”。这标志着大模型从实验性产品走向国家级教育基础设施的第一步,未来极可能成为其他国家仿效模板。消息来源
Cursor 支持直接“在代码里设计界面”。Cursor 新增可视化设计能力:开发者可以在浏览器里选中页面元素,拖拽、调整样式,Cursor 自动生成并回写对应代码。配合其浏览器可视编辑器和自动测试能力,前端开发从“写代码调样式”变为“所见即所得地拉 UI”,非常适合快速迭代营销页与后台面板。消息来源
GPT‑5.2 快速登陆主流开发工具与终端。新模型已在 Cursor、Warp、Windsurf、Notion、Perplexity、GitHub AgentHQ 等工具中上线,其中 Cursor 直接以 $1.75/M 输入、$14/M 输出计费,并作为高阶默认模型供编码使用。Warp 与 Windsurf 报告在 Terminal‑Bench 2.0 上成绩突破 60 分,说明“终端 + agentic coding”这条路正在被 GPT‑5.2 明显推高上限。消息来源
Gemini Deep Research 代理与 Interactions API 面向开发者开放。Google 为 Gemini 推出 Deep Research 代理和全新的 Interactions API,提供统一接口管理模型与代理、支持服务端上下文、后台执行以及远程 MCP 工具。Deep Research 可以自动规划多步检索、浏览网页并产出结构化调研报告,定位在“面向工程师的自动化深度研究助手”,而不是简单的“加个搜索的聊天机器人”。消息来源
Claude Code 上线 Android 端并强化编辑体验。Claude 宣布 Claude Code 现已登陆 Android,并新增快捷键模型切换和在状态栏展示上下文窗口信息。配合 TestingCatalog 报道的 Android 研究预览版,这使“随身带着一位高级结对程序员”更加现实,移动端开发和随时 review 代码会更顺滑。消息来源
教程与技巧
nano banana Pro 提示词写作实战心得。宝玉总结了自己画了几百张 nano banana pro 图之后的提示词经验:核心不是堆形容词,而是先想清楚构图、主体、风格和信息密度,再把这些拆成结构化描述交给模型。对想靠 Gemini 3 / nano banana 做内容分发的人来说,这更像是在写“美术需求文档”,而不是随便一句“帮我画个海报”。消息来源
用 nano banana 做知识可视化,先想内容再画画。howie 强调,用 nano banana pro 画 PPT、信息图时,要遵守一个“第一性原理”:先把知识结构、要点和信息层级想清楚(最好配合 LLM 讨论),再让模型根据结构生成图像。这样基本可以“一稿过”,避免无限重试随机图片,实质上是把“画图”变成最后一步的渲染。消息来源
想搞懂 Nano Banana Pro 训练方法,先看阿里 6B 论文解读。向阳乔木提到,自己把阿里 6B 模型论文做成了一篇近 2 万字的中文解读,作为理解 nano banana Pro 背后训练思路的入口。对于想系统了解 Qwen/Nano Banana 这一路线如何在中等规模上做到“图像质量 + 控制力”的读者,这是比原始论文更易上手的材料。消息来源
Andrew Ng:几行代码做个“高度自治但超不可靠”的玩具 Agent。Andrew Ng 分享了一个基于开源 aisuite 的实验配方:给前沿 LLM 一两个工具(如磁盘访问、网页搜索),只用高层任务描述(写贪吃蛇游戏、做深度调研),然后放手让它自己乱跑。虽然这种方式远不符合生产级代理的工程要求,但很适合快速体会“没有严密 scaffold 的代理会如何失控”,也呼应他在 Agentic AI 课程里的理念。消息来源
想深入搞推理与加速,值得收藏的 GPU/推理学习资源。ℏεsam 推荐了一组学习底层 GPU 编程和推理引擎开发的开源 repo 清单,适合已经玩转 LLM 应用、想往下钻到 kernel-level 优化和自研推理框架的工程师。对未来想在“模型压缩、加速、部署”方向做深耕的人,这类资源比泛泛而谈的教程更重要。消息来源
Claude Code Skills/SubAgent 激活率低?社区提供的“强制激活三步曲”。nazha 总结了在 Claude Code 中使用 Skills 和 SubAgent 的踩坑经验:如果仅在 prompt 里“温柔”提一下可用技能,Claude 常常完全忽略。社区的做法是在 UserPromptSubmit hook 里强制要求模型先逐个评估技能,再显式执行 Skill() 调用,最后才开始实现任务,代价是更多 token 和注意力,但能把激活率提升到约 80%。消息来源
观点与思考
真实医疗问诊实验:Gemini 3 Pro > Qwen > ChatGPT 5.1。凡人小北用一批来自真实问诊场景的病人主诉与医生结论,分别让 Gemini 3 Pro、Qwen 和 ChatGPT 5.1 看诊后与真实结果对比,发现表现顺序依次为 Gemini 3 Pro 第一、Qwen 第二、ChatGPT 第三。结论是:在足够“模糊”和不整洁的真实世界数据中,模型差异反而被放大,benchmark 上差不多并不等于真实场景体验一致。消息来源
“真正难的是定义问题,而不是做智能体。”dontbesilent 用一个“把小说改成 80 分水平的剧本”需求调侃:如果你能用几千字严格定义什么是“小说”“剧本”“编剧”“剧本水平”和“80 分”,他可以 3 分钟做出这个智能体,而且在不同模型上结果无差别。真正难的是把语言游戏里的模糊概念说清楚,否则所谓“智能体需求”只是模糊愿望,无法工程化。消息来源
好用的 Agent,90% 在“记忆”,而不是模型。ℏεsam 认为,能真正工作的 Agent,关键不在框架、MCP 数量或模型大小,而在于它对自己“能做什么、要达成什么目标、过去犯过什么错”的持久记忆。他称这种长期、任务领域内的“workflow memory”为 Agent 的核心,把它设计好,能让同一个模型在行为上从“6 岁小孩”变成“严谨工程师”。消息来源
Benchmark 与“vibe”之间的张力。Jan 指出,AI 研究者迟早会发现:benchmark 成绩和真实使用时的“vibe”往往不一致。尤其是本地部署场景,硬件、插件和配置事实上是模型的一部分,小小不同就会改变体验。因此他强调要用自己的环境长期“感受”一个模型,而不是只看几组公开分数,这是对当下模型评估方法的一个现实主义提醒。消息来源



