AI 日报 5/29：Gemini 3.5 Flash 发布、苹果「强塞」Gemini 上 iPhone、Claude Code 用量翻倍

今日观点

AI 行业正在经历「模型能力溢出→工程落地」的关键拐点——算力成本持续降低，但真正的壁垒变成了谁能把大模型塞进用户手里。

① Google Gemini 3.5 Flash 发布：300 tokens/秒，只卖 $1.50

发生了什么

5月19日，Google 正式发布 Gemini 3.5 Flash，一款为 agentic AI 工作流优化的模型。输出速度达到 ~300 tokens/秒，是 Pro 模型的 4 倍，而质量几乎持平。

定价方面，API 输入仅 $1.50/百万 tokens，输出 $9/百万 tokens——相比 3.1 Pro 的 $2/$12+，降幅显著。Google 声称，重度用户换用 3.5 Flash 后每年可节省 10 亿美元。同时，Gemini Spark 订阅新增 $100/月的 Ultra 档位，$200 档位从 $250 降价。

基准测试方面：Terminal Bench 和 SWE-Bench Pro 上，3.5 Flash 碾压前代 Flash 模型，与 GPT 5.5 持平；OSWorld-Verified 同样与 GPT 5.5 打平。Google 内部编码测试则称有「巨大飞跃」。

此外，Google 还预览了 Gemini Omni Flash——真正的全能多模态模型（任何输入→任何输出：文本/图像/视频/音频）。初期先做视频输出（取代 Veo 3），后续逐步扩展更多输出类型。6 月预计发布 3.5 Pro。

为什么重要

这是 Google 第一次在「速度×质量×价格」三角上同时打穿。以前想要快就得多花钱（Claude Haiku 快但能力有限），想要好就得忍受等（GPT-4o 质量高但慢）。3.5 Flash 接近「不可能三角」的平衡——300 tokens/秒足够实时代理调用，$1.50/百万 tokens 让成本和用户输入相当，这对构建复杂 agent 工作流的开发者来说是个转折点。

Omni Flash 则透露出 Google 的终极野心：一个模型吃掉所有模态。不再需要单独的视频生成模型、语音模型、图像模型，统一成一个。

对你有啥用

开发者：如果你是 Claude Pro/Spark 用户或重度 API 调用者，赶紧测 3.5 Flash——特别是做代码 agent、浏览器自动化、数据处理链路的场景。代理工作流是 token 消耗大户，3.5 Flash 的成本优势在这里最明显。
创业者：如果你们的产品依赖多步骤 agent 编排（比如自动客服、文档处理、数据分析），今天就可以开始迁移。Google 把成本打下来后，下一波竞争是「谁能用最便宜的 token 解决最多问题」。
普通用户：Spark Ultra 订阅者下周就能用上 3.5 Flash——去 Gemini 体验速度差异。

② 苹果「强塞」Gemini 上 iPhone：被迫走云端混合路线

发生了什么

据 The Information 最新报道，苹果正在努力将 Google 的万亿参数级 Gemini 模型蒸馏（distill）到 iPhone 上，用于新一代 AI 版 Siri。但苹果遇到了大麻烦——即使在自己的 Private Cloud Compute 基础设施（基于 M 系列芯片）上，也跑不动完整版 Gemini。

结果是：苹果不得不走 「本地+云端」混合路线。Siri 将在设备本地运行蒸馏后的小模型（至多几十亿参数），复杂请求则发送到云端。为了处理云端数据，苹果还与 Nvidia 签署了 Confidential Computing（机密计算）合作协议——在 Nvidia GPU 上加密处理数据，声称保护隐私。

该计划是苹果 2026 年 1 月与 Google 达成的协议的一部分，目标是在今年晚些时候上线，早于 WWDC。

为什么重要

这则新闻暴露了一个被很多人忽视的事实：即使是苹果，也无法让万亿参数模型在手机上跑起来。知识蒸馏（distillation）是现有方案中最好的折中——但蒸馏后的模型能力损失不可避免，「本地 vs 云端」的争论还会持续很多年。

与 Nvidia 的合作也很有意思。苹果本来和 Google 签了 Gemini 协议，但云端推理却找 Nvidia——说明 Google TPU 在云推理领域的生态还不够成熟。Nvidia 在 AI 硬件领域的统治力从训练扩展到推理，连苹果都绕不过去。

这条新闻还与 Google 的 3.5 Flash 形成鲜明对比——Google 自己都不指望在手机上跑大模型（Android 上的 Gemini 全程走云端），苹果的「本地优先」策略反而更像给自己设限。

对你有啥用

开发者：如果你想在移动设备上做 AI 推理，别幻想全本地部署大模型。做好「本地小模型兜底 + 云端大模型兜上限」的混合架构设计。
创业者：边缘 AI 推理硬件和蒸馏技术服务会是两个爆发赛道——苹果的困境就是你们的商机。
普通用户：Siri 升级后，部分请求会走云端。如果你的网络不好，本地也能兜底，但体验会降级。保持理性预期。

③ Claude Code 产品负责人独家访谈：用量翻倍、「精益工具集」哲学首度公开

发生了什么

Ars Technica 发表了一篇对 Anthropic 产品负责人 Cat Wu 的深度访谈，披露了大量 Claude Code 的内部信息。

用量方面：Anthropic CEO Dario Amodei 在采访中坦白：「我们为 10 倍增长做了充足准备，但实际遇到了 80 倍。」用户使用模式从简单对话转向复杂的多 agent 工作流，每个请求消耗的 token 和算力是以前的数倍。为此 Anthropic 做了两件事：在 Code with Claude 2026 大会上宣布 Pro 和 Max 计划用量翻倍；同时发现两种常见的 token 浪费模式（用户离开数小时不关会话导致缓存失效；不知情地运行插件触发了上百个子 agent）。

产品哲学方面：Cat Wu 重磅提出了 「Lean Harness（精益工具集）」 概念——Claude Code 刻意保持工具集极小、不固执己见。「我们就保留最小可行工具集：制定计划、列待办清单、编辑文件、问几个澄清问题。」这与 Cursor、Augment Code 等竞品「不断增加结构化工具」的策略形成鲜明对比。

Wu 明确引用 Richard Sutton 的 《苦涩的教训》 作为理论依据——通用方法随算力扩展的效果，最终胜过领域专用的结构化技巧。她甚至预测：「也许有一天我们都会回到最简单的文本框界面——因为模型足够聪明，不需要每一步都靠提示词手把手教。」

关于透明度：Anthropic 的做法是直接约用户开视频会议调试，而不是先造仪表盘。加强了 /usage 命令，可以查看哪些会话因为缓存断裂而烧了最多 token。

为什么重要

这是 Claude Code 团队迄今为止最坦诚、最系统的产品哲学阐述。「Lean Harness」 的核心判断是：模型能力会持续增长，所以产品应该越做越薄，而非越做越厚。这与 Cursor 的功能堆叠路线本质是两种世界观——前者赌的是「模型智能」，后者赌的是「工程脚手架」。

对用户来说，这意味着 Claude Code 不会变成一个臃肿的 IDE 替代品，而是保持命令行工具的纯粹性。选 Claude Code 还是选 Cursor，本质上是在选你对 AI 发展节奏的判断。

对你有啥用

开发者：如果你在用 Claude Code，更新后留意用量翻倍的变化。几个避坑建议：
- 离开前记得 /clear 或手动结束会话，否则缓存断裂后重启会话成本极高
- 检查已安装的插件是否有「多 agent 级联」行为，避免无意间触发上百个子 agent
- 多用 /usage 命令，看哪些操作最烧 token
团队决策者：选编程 AI 工具时，Claude Code（精益）和 Cursor（结构化）代表了两种不同的技术信仰。如果你的团队模型能力用得好、提示工程功底强，Claude Code 的「薄工具」模式更灵活；如果你的团队需要更多结构化引导，Cursor 可能更适合。

④ Figure 03 人形机器人 200 小时无故障分拣 25 万包裹

发生了什么

Figure AI 的人形机器人 Figure 03 进行了一场长达 200 小时的连续直播自主工作，全程无故障。结果：

机器人团队分拣了 249,560 个包裹，速度 2.83 秒/包裹
人类实习生 Aimé Gérard 分拣了 12,924 个包裹，速度 2.79 秒/包裹
人类以 192 个包裹的微弱优势获胜
CEO Brett Adcock 放话：「这将是人类最后一次赢。」

Figure 03 使用 Helix 02 神经网络系统实现全身控制，所有推理在机载芯片上完成不依赖云端。全身控制器通过在 1,000+ 小时人类运动数据 + 20 万并行仿真环境中训练。机器人之间通过网络通信协作，低电量时自主请求同伴替换。

这还只是单任务演示。上一代 Figure 02 已经在宝马 Spartanburg 工厂工作了 11 个月、每周 5 天、每天 10 小时，直接参与了 30,000 辆 BMW X3 的生产。Figure AI 已融资近 20 亿美元，投资方包括微软、Nvidia、Intel、亚马逊和 OpenAI。

为什么重要

200 小时无故障运行是一个里程碑——不是技术复杂度上的突破，而是 「可靠性」上的突破。以前的人形机器人演示往往只持续几分钟到 1 小时（Figure 之前的演示也一样），而这次是连续 8 天半不间断运转。

关键数字是 2.83 秒/包裹 vs 2.79 秒/包裹——机器人已经非常接近人类速度，而且 CEO 说这是最后一次人类赢。一旦机器人速度跨越人类阈值，仓储物流的用工结构将被根本改变。

三位一体（Figure 的机器人 + Helix AI 系统 + 机载推理）证明了「纯视觉 + 端侧 AI」的机器人技术路线是可行的。

对你有啥用

创业者：人形机器人进入「可靠性持续验证→商业化落地」的关键阶段。关注 Figure 03 的 BMW 客户评估结果。机器人配套产业（电池热插拔方案、远程监控平台、机器人运维管理）会是辅助机会。
投资者：人形机器人赛道正在从「概念验证」转向「可部署性验证」。Figure AI 的 200 小时直播是竞争对手需要回应的基准线——关注 Tesla Optimus、Agility Digit 等竞品能否在短期内做出类似可靠性的演示。
普通读者：不是科幻电影——2027-2028 年，你可能就能见到仓库、工厂里大批人形机器人工作了。

⑤ Google SynthID 被 OpenAI、Nvidia 等行业巨头集体采纳

发生了什么

Google DeepMind 宣布，其 AI 内容水印技术 SynthID 被 OpenAI、Nvidia、Kakao、ElevenLabs 等行业巨头采纳。这标志着 首个跨公司、跨平台的 AI 内容溯源标准 初步形成。

SynthID 不是简单的元数据标签（容易被剥离），而是直接在像素/音频波形上嵌入水印，能抵抗压缩、裁剪、旋转等常见篡改操作。目前累计标注了 1,000 亿张图像和视频以及相当于 60,000 年时长的音频。

具体落地节奏：

OpenAI：在 GPT-2 图像中集成 SynthID
Nvidia：在 Cosmos 世界基础模型中集成
ElevenLabs：合成语音中加入水印
即将上线：Circle to Search、Lens、AI Mode、Chrome 内置检测
Pixel 8/9/10 将在未来几周支持 C2PA 视频标签
Gemini Enterprise Agent Platform 将开放信任伙伴 API

为什么重要

这是目前最接近「行业级 AI 内容标准」的事件。之前各家公司各自为政——OpenAI 有自己的水印方案、Meta 有 AI 标签、Adobe 推 C2PA——没有一个获得广泛采用。

SynthID 成为准标准的逻辑链：Google 免费开放 → 透明对抗设计（Google 声称无人成功绕过）→ 竞争对手（OpenAI）也愿意用 → 形成网络效应（越多平台采用，检测越容易）。对中国读者来说，这意味着未来你在网上看到的 AI 生成内容，会越来越多地带上可验证的身份标签。

但文章也诚实指出：开源模型仍然不受控。任何依赖自愿标准的体系，都无法阻止恶意使用开源模型生成无标签内容。SynthID 是一个好开始，但不是终极方案。

对你有啥用

内容创作者：如果你的作品担心被 AI 盗用训练，SynthID 类技术还不能保护你（它标识 AI 生成内容，而非版权）。但如果你是生成式 AI 用户（做图、做视频、做音频），可以去 Gemini 里用检测功能验证内容是否被标记。
平台运营者：未来几个月 Chrome 会自动检测并标注 AI 内容——如果你们运营内容平台，提前规划 AI 内容标注策略。
普通用户：在 Gemini 里可以直接上传一张图问「这是 AI 生成的么？」——以后遇到可疑内容多一个验证渠道。

📊 今日数据速览

事件	影响力	建议操作
Google Gemini 3.5 Flash 发布，300 tok/s，$1.50/百万输入	⭐⭐⭐⭐⭐	开发者立刻测试代理工作流迁移，成本优势明显
Apple 被迫走混合路线把 Gemini 塞进 iPhone	⭐⭐⭐⭐	边缘 AI 硬件和蒸馏服务是爆发方向，关注相关创业机会
Claude Code Lean Harness 哲学首度公开，用量翻倍	⭐⭐⭐⭐	检查插件级联行为避免浪费 token，选工具前理解两种设计哲学
Figure 03 人形机器人 200 小时无故障分拣 25 万包裹	⭐⭐⭐⭐⭐	关注 BMW 评估结果，机器人运维/管理配套是机会
Google SynthID 被 OpenAI、Nvidia 集体采纳	⭐⭐⭐⭐	内容平台提前规划 AI 标注策略，Chrome 检测即将上线

💡 小编视角

今天这 5 条新闻其实指向同一个趋势：AI 正在从「模型能力竞赛」转向「工程落地竞赛」。

Gemini 3.5 Flash 用 $1.50/百万 tokens + 300 tok/s 告诉我们——算力不再是最贵的资源，工程效率才是。苹果的 Gemini 挫折则说明——再好的模型，放在用户手里才是好模型。Claude Code 的 Lean Harness 从反面印证了这一点——产品越薄、越靠近用户实际场景，越能发挥模型价值。

几条可执行的判断，供你参考：

如果你在选 AI API——3.5 Flash 是目前性价比最高的 agent 模型，没有之一。趁早测，趁早迁移。
如果你在做 AI 产品——别想着等模型能力再提升再动手。今天的模型已经足够好，关键是把工程链路跑通。Claude Code 的哲学（最小可行工具集）可以延伸到任何 AI 产品设计。
如果你在关注机器人赛道——Figure 的 200 小时直播是一个分水岭。人形机器人「能否持续稳定工作」这个最大疑问被回答了。接下来看成本曲线。
如果你担心 AI 内容的信任问题——SynthID 的行业级采纳是个好信号，但开源生态仍是盲区。保持对「互联网内容一半是 AI 生成」的心理准备。

最后一句话总结今天的 5 条新闻：模型在变便宜，工具在变薄，机器人在变可靠——AI 行业正在从「好看」到「好用」的路上快速奔跑。

📌 更多 AI 工具对比与在线工具，访问 navbox.com.cn 获取
📌 每日 AI 资讯更新，关注 navbox.com.cn/news/