AI 日报 5/29:Gemini 3.5 Flash 发布、苹果「强塞」Gemini 上 iPhone、Claude Code 用量翻倍

Google 发布 Gemini 3.5 Flash,300 tokens/秒,$1.50/百万输入;苹果被迫妥协,Gemini Siri 走混合路线;Claude Code 产品负责人深度访谈揭「精益工具」哲学;Figure 03 人形机器人 200 小时分拣 25 万包裹;Google SynthID 被 OpenAI、Nvidia 等集体采用

今日观点

AI 行业正在经历「模型能力溢出→工程落地」的关键拐点——算力成本持续降低,但真正的壁垒变成了谁能把大模型塞进用户手里。


① Google Gemini 3.5 Flash 发布:300 tokens/秒,只卖 $1.50

发生了什么

5月19日,Google 正式发布 Gemini 3.5 Flash,一款为 agentic AI 工作流优化的模型。输出速度达到 ~300 tokens/秒,是 Pro 模型的 4 倍,而质量几乎持平。

定价方面,API 输入仅 $1.50/百万 tokens,输出 $9/百万 tokens——相比 3.1 Pro 的 $2/$12+,降幅显著。Google 声称,重度用户换用 3.5 Flash 后每年可节省 10 亿美元。同时,Gemini Spark 订阅新增 $100/月的 Ultra 档位,$200 档位从 $250 降价。

基准测试方面:Terminal Bench 和 SWE-Bench Pro 上,3.5 Flash 碾压前代 Flash 模型,与 GPT 5.5 持平;OSWorld-Verified 同样与 GPT 5.5 打平。Google 内部编码测试则称有「巨大飞跃」。

此外,Google 还预览了 Gemini Omni Flash——真正的全能多模态模型(任何输入→任何输出:文本/图像/视频/音频)。初期先做视频输出(取代 Veo 3),后续逐步扩展更多输出类型。6 月预计发布 3.5 Pro

为什么重要

这是 Google 第一次在「速度×质量×价格」三角上同时打穿。以前想要快就得多花钱(Claude Haiku 快但能力有限),想要好就得忍受等(GPT-4o 质量高但慢)。3.5 Flash 接近「不可能三角」的平衡——300 tokens/秒足够实时代理调用,$1.50/百万 tokens 让成本和用户输入相当,这对构建复杂 agent 工作流的开发者来说是个转折点。

Omni Flash 则透露出 Google 的终极野心:一个模型吃掉所有模态。不再需要单独的视频生成模型、语音模型、图像模型,统一成一个。

对你有啥用

  • 开发者:如果你是 Claude Pro/Spark 用户或重度 API 调用者,赶紧测 3.5 Flash——特别是做代码 agent、浏览器自动化、数据处理链路的场景。代理工作流是 token 消耗大户,3.5 Flash 的成本优势在这里最明显。
  • 创业者:如果你们的产品依赖多步骤 agent 编排(比如自动客服、文档处理、数据分析),今天就可以开始迁移。Google 把成本打下来后,下一波竞争是「谁能用最便宜的 token 解决最多问题」。
  • 普通用户:Spark Ultra 订阅者下周就能用上 3.5 Flash——去 Gemini 体验速度差异。

② 苹果「强塞」Gemini 上 iPhone:被迫走云端混合路线

发生了什么

据 The Information 最新报道,苹果正在努力将 Google 的万亿参数级 Gemini 模型蒸馏(distill)到 iPhone 上,用于新一代 AI 版 Siri。但苹果遇到了大麻烦——即使在自己的 Private Cloud Compute 基础设施(基于 M 系列芯片)上,也跑不动完整版 Gemini。

结果是:苹果不得不走 「本地+云端」混合路线。Siri 将在设备本地运行蒸馏后的小模型(至多几十亿参数),复杂请求则发送到云端。为了处理云端数据,苹果还与 Nvidia 签署了 Confidential Computing(机密计算)合作协议——在 Nvidia GPU 上加密处理数据,声称保护隐私。

该计划是苹果 2026 年 1 月与 Google 达成的协议的一部分,目标是在今年晚些时候上线,早于 WWDC。

为什么重要

这则新闻暴露了一个被很多人忽视的事实:即使是苹果,也无法让万亿参数模型在手机上跑起来。知识蒸馏(distillation)是现有方案中最好的折中——但蒸馏后的模型能力损失不可避免,「本地 vs 云端」的争论还会持续很多年。

与 Nvidia 的合作也很有意思。苹果本来和 Google 签了 Gemini 协议,但云端推理却找 Nvidia——说明 Google TPU 在云推理领域的生态还不够成熟。Nvidia 在 AI 硬件领域的统治力从训练扩展到推理,连苹果都绕不过去。

这条新闻还与 Google 的 3.5 Flash 形成鲜明对比——Google 自己都不指望在手机上跑大模型(Android 上的 Gemini 全程走云端),苹果的「本地优先」策略反而更像给自己设限。

对你有啥用

  • 开发者:如果你想在移动设备上做 AI 推理,别幻想全本地部署大模型。做好「本地小模型兜底 + 云端大模型兜上限」的混合架构设计。
  • 创业者:边缘 AI 推理硬件和蒸馏技术服务会是两个爆发赛道——苹果的困境就是你们的商机。
  • 普通用户:Siri 升级后,部分请求会走云端。如果你的网络不好,本地也能兜底,但体验会降级。保持理性预期。

③ Claude Code 产品负责人独家访谈:用量翻倍、「精益工具集」哲学首度公开

发生了什么

Ars Technica 发表了一篇对 Anthropic 产品负责人 Cat Wu 的深度访谈,披露了大量 Claude Code 的内部信息。

用量方面:Anthropic CEO Dario Amodei 在采访中坦白:「我们为 10 倍增长做了充足准备,但实际遇到了 80 倍。」用户使用模式从简单对话转向复杂的多 agent 工作流,每个请求消耗的 token 和算力是以前的数倍。为此 Anthropic 做了两件事:在 Code with Claude 2026 大会上宣布 Pro 和 Max 计划用量翻倍;同时发现两种常见的 token 浪费模式(用户离开数小时不关会话导致缓存失效;不知情地运行插件触发了上百个子 agent)。

产品哲学方面:Cat Wu 重磅提出了 「Lean Harness(精益工具集)」 概念——Claude Code 刻意保持工具集极小、不固执己见。「我们就保留最小可行工具集:制定计划、列待办清单、编辑文件、问几个澄清问题。」这与 Cursor、Augment Code 等竞品「不断增加结构化工具」的策略形成鲜明对比。

Wu 明确引用 Richard Sutton 的 《苦涩的教训》 作为理论依据——通用方法随算力扩展的效果,最终胜过领域专用的结构化技巧。她甚至预测:「也许有一天我们都会回到最简单的文本框界面——因为模型足够聪明,不需要每一步都靠提示词手把手教。」

关于透明度:Anthropic 的做法是直接约用户开视频会议调试,而不是先造仪表盘。加强了 /usage 命令,可以查看哪些会话因为缓存断裂而烧了最多 token。

为什么重要

这是 Claude Code 团队迄今为止最坦诚、最系统的产品哲学阐述。「Lean Harness」 的核心判断是:模型能力会持续增长,所以产品应该越做越薄,而非越做越厚。这与 Cursor 的功能堆叠路线本质是两种世界观——前者赌的是「模型智能」,后者赌的是「工程脚手架」。

对用户来说,这意味着 Claude Code 不会变成一个臃肿的 IDE 替代品,而是保持命令行工具的纯粹性。选 Claude Code 还是选 Cursor,本质上是在选你对 AI 发展节奏的判断。

对你有啥用

  • 开发者:如果你在用 Claude Code,更新后留意用量翻倍的变化。几个避坑建议:

    • 离开前记得 /clear 或手动结束会话,否则缓存断裂后重启会话成本极高
    • 检查已安装的插件是否有「多 agent 级联」行为,避免无意间触发上百个子 agent
    • 多用 /usage 命令,看哪些操作最烧 token
  • 团队决策者:选编程 AI 工具时,Claude Code(精益)和 Cursor(结构化)代表了两种不同的技术信仰。如果你的团队模型能力用得好、提示工程功底强,Claude Code 的「薄工具」模式更灵活;如果你的团队需要更多结构化引导,Cursor 可能更适合。


④ Figure 03 人形机器人 200 小时无故障分拣 25 万包裹

发生了什么

Figure AI 的人形机器人 Figure 03 进行了一场长达 200 小时的连续直播自主工作,全程无故障。结果:

  • 机器人团队分拣了 249,560 个包裹,速度 2.83 秒/包裹
  • 人类实习生 Aimé Gérard 分拣了 12,924 个包裹,速度 2.79 秒/包裹
  • 人类以 192 个包裹的微弱优势获胜
  • CEO Brett Adcock 放话:「这将是人类最后一次赢。」

Figure 03 使用 Helix 02 神经网络系统实现全身控制,所有推理在机载芯片上完成不依赖云端。全身控制器通过在 1,000+ 小时人类运动数据 + 20 万并行仿真环境中训练。机器人之间通过网络通信协作,低电量时自主请求同伴替换。

这还只是单任务演示。上一代 Figure 02 已经在宝马 Spartanburg 工厂工作了 11 个月、每周 5 天、每天 10 小时,直接参与了 30,000 辆 BMW X3 的生产。Figure AI 已融资近 20 亿美元,投资方包括微软、Nvidia、Intel、亚马逊和 OpenAI。

为什么重要

200 小时无故障运行是一个里程碑——不是技术复杂度上的突破,而是 「可靠性」上的突破。以前的人形机器人演示往往只持续几分钟到 1 小时(Figure 之前的演示也一样),而这次是连续 8 天半不间断运转。

关键数字是 2.83 秒/包裹 vs 2.79 秒/包裹——机器人已经非常接近人类速度,而且 CEO 说这是最后一次人类赢。一旦机器人速度跨越人类阈值,仓储物流的用工结构将被根本改变。

三位一体(Figure 的机器人 + Helix AI 系统 + 机载推理)证明了「纯视觉 + 端侧 AI」的机器人技术路线是可行的。

对你有啥用

  • 创业者:人形机器人进入「可靠性持续验证→商业化落地」的关键阶段。关注 Figure 03 的 BMW 客户评估结果。机器人配套产业(电池热插拔方案、远程监控平台、机器人运维管理)会是辅助机会。
  • 投资者:人形机器人赛道正在从「概念验证」转向「可部署性验证」。Figure AI 的 200 小时直播是竞争对手需要回应的基准线——关注 Tesla Optimus、Agility Digit 等竞品能否在短期内做出类似可靠性的演示。
  • 普通读者:不是科幻电影——2027-2028 年,你可能就能见到仓库、工厂里大批人形机器人工作了。

⑤ Google SynthID 被 OpenAI、Nvidia 等行业巨头集体采纳

发生了什么

Google DeepMind 宣布,其 AI 内容水印技术 SynthID 被 OpenAI、Nvidia、Kakao、ElevenLabs 等行业巨头采纳。这标志着 首个跨公司、跨平台的 AI 内容溯源标准 初步形成。

SynthID 不是简单的元数据标签(容易被剥离),而是直接在像素/音频波形上嵌入水印,能抵抗压缩、裁剪、旋转等常见篡改操作。目前累计标注了 1,000 亿张图像和视频以及相当于 60,000 年时长的音频。

具体落地节奏:

  • OpenAI:在 GPT-2 图像中集成 SynthID
  • Nvidia:在 Cosmos 世界基础模型中集成
  • ElevenLabs:合成语音中加入水印
  • 即将上线:Circle to Search、Lens、AI Mode、Chrome 内置检测
  • Pixel 8/9/10 将在未来几周支持 C2PA 视频标签
  • Gemini Enterprise Agent Platform 将开放信任伙伴 API

为什么重要

这是目前最接近「行业级 AI 内容标准」的事件。之前各家公司各自为政——OpenAI 有自己的水印方案、Meta 有 AI 标签、Adobe 推 C2PA——没有一个获得广泛采用。

SynthID 成为准标准的逻辑链:Google 免费开放 → 透明对抗设计(Google 声称无人成功绕过)→ 竞争对手(OpenAI)也愿意用 → 形成网络效应(越多平台采用,检测越容易)。对中国读者来说,这意味着未来你在网上看到的 AI 生成内容,会越来越多地带上可验证的身份标签。

但文章也诚实指出:开源模型仍然不受控。任何依赖自愿标准的体系,都无法阻止恶意使用开源模型生成无标签内容。SynthID 是一个好开始,但不是终极方案。

对你有啥用

  • 内容创作者:如果你的作品担心被 AI 盗用训练,SynthID 类技术还不能保护你(它标识 AI 生成内容,而非版权)。但如果你是生成式 AI 用户(做图、做视频、做音频),可以去 Gemini 里用检测功能验证内容是否被标记。
  • 平台运营者:未来几个月 Chrome 会自动检测并标注 AI 内容——如果你们运营内容平台,提前规划 AI 内容标注策略。
  • 普通用户:在 Gemini 里可以直接上传一张图问「这是 AI 生成的么?」——以后遇到可疑内容多一个验证渠道。

📊 今日数据速览

事件影响力建议操作
Google Gemini 3.5 Flash 发布,300 tok/s,$1.50/百万输入⭐⭐⭐⭐⭐开发者立刻测试代理工作流迁移,成本优势明显
Apple 被迫走混合路线把 Gemini 塞进 iPhone⭐⭐⭐⭐边缘 AI 硬件和蒸馏服务是爆发方向,关注相关创业机会
Claude Code Lean Harness 哲学首度公开,用量翻倍⭐⭐⭐⭐检查插件级联行为避免浪费 token,选工具前理解两种设计哲学
Figure 03 人形机器人 200 小时无故障分拣 25 万包裹⭐⭐⭐⭐⭐关注 BMW 评估结果,机器人运维/管理配套是机会
Google SynthID 被 OpenAI、Nvidia 集体采纳⭐⭐⭐⭐内容平台提前规划 AI 标注策略,Chrome 检测即将上线

💡 小编视角

今天这 5 条新闻其实指向同一个趋势:AI 正在从「模型能力竞赛」转向「工程落地竞赛」

Gemini 3.5 Flash 用 $1.50/百万 tokens + 300 tok/s 告诉我们——算力不再是最贵的资源,工程效率才是。苹果的 Gemini 挫折则说明——再好的模型,放在用户手里才是好模型。Claude Code 的 Lean Harness 从反面印证了这一点——产品越薄、越靠近用户实际场景,越能发挥模型价值。

几条可执行的判断,供你参考:

  1. 如果你在选 AI API——3.5 Flash 是目前性价比最高的 agent 模型,没有之一。趁早测,趁早迁移。
  2. 如果你在做 AI 产品——别想着等模型能力再提升再动手。今天的模型已经足够好,关键是把工程链路跑通。Claude Code 的哲学(最小可行工具集)可以延伸到任何 AI 产品设计。
  3. 如果你在关注机器人赛道——Figure 的 200 小时直播是一个分水岭。人形机器人「能否持续稳定工作」这个最大疑问被回答了。接下来看成本曲线。
  4. 如果你担心 AI 内容的信任问题——SynthID 的行业级采纳是个好信号,但开源生态仍是盲区。保持对「互联网内容一半是 AI 生成」的心理准备。

最后一句话总结今天的 5 条新闻:模型在变便宜,工具在变薄,机器人在变可靠——AI 行业正在从「好看」到「好用」的路上快速奔跑。


📌 更多 AI 工具对比与在线工具,访问 navbox.com.cn 获取

📌 每日 AI 资讯更新,关注 navbox.com.cn/news/

← 返回资讯列表 下一篇 →