AI 日报 5/24:Google 搜索全面 AI 化、人形机器人直播 200 小时、AI 水印成行业标准

Google I/O 2026 余波:搜索 AI 化月活破 10 亿、Gemini 3.5 Flash 每秒 300 token、SynthID 被 OpenAI/Nvidia/ElevenLabs 集体采用、Figure 03 机器人 249,560 件包裹处理、Google AI 眼镜上手实测

今日观点

Google 在 I/O 2026 上秀的不是产品,是生态统治力。

从搜索到水印,从模型到眼镜,Google 正用 AI 把整个产品线重写一遍。而 Figure 的 200 小时直播则证明——人形机器人的"演示能力"已经追上了营销能力。


① Google 搜索全面 AI 化:AI Mode 月活 10 亿,搜索不再是"10个蓝链接"

发生了什么

Google I/O 2026 上,搜索 VP Liz Reid 宣布了一个历史性转变——“Google 搜索就是 AI 搜索”。核心变化:

  • AI Mode 月活用户突破 10 亿,使用量每季度翻倍
  • AI Overview 全面覆盖,几乎所有搜索都会产生 AI 摘要
  • 新搜索框号称是 25 年历史上最大改变——动态扩展、AI 自动补全,全球上线
  • 生成式 UI:AI Mode 可以为查询问题生成交互界面(滑块、按钮、图表)
  • 搜索生成 App:搜索能直接创建一个"迷你 App"帮你解决问题,比如规划周末行程时自动生成带地图、评论、日历集成的交互页面

为什么重要

这不仅是功能更新,而是 Google 对搜索引擎本质的重新定义。

过去 25 年搜索的核心是"给你 10 个蓝色链接让你自己翻",现在变成了"AI 直接给你答案和交互工具"。搜索不再是信息检索工具,而是 AI Agent 的入口。

Liz Reid 坦言,AI Overview 只是过渡方案,AI Mode 才是未来——你看到的生成式 UI 和那些"迷你 App"本质上就是 AI Agent 在实时帮你干活。

对你有啥用

如果你在做网站/SEO:传统 SEO 的权重将继续下降,Google 越来越多地直接从页面提取信息生成答案,而不是给链接。内容质量比关键词密度重要 10 倍。

如果你是开发者:搜索生成 App 的能力意味着你以后向 Google 问"帮我做一个旅行计划"就能得到一个可交互的工具——记住这个概念,迟早会有独立的 AIGC 工具链来做这件事。


② Gemini 3.5 Flash 发布:每秒 300 token,专为 Agent 优化

发生了什么

Google 在 I/O 上正式发布了 Gemini 3.5 Flash,同时预告了代号为 Omni 的全新多模态模型线。

Gemini 3.5 Flash 的关键指标:

  • 输出速度 300 tokens/秒,是上代旗舰 3.1 Pro 的 4 倍
  • 输入 $1.50/百万 tokens,输出 $9/百万 tokens——比 3.1 Pro 便宜约 25%
  • 在 Terminal Bench 和 SWE-Bench Pro 上接近 GPT-5.5 水平
  • 专为 Agent 工作流优化——多步推理、UI 控制、代码生成都是重点方向

Gemini Omni 则是 Google 的"大一统"模型:接受任意输入(文本/图片/视频/音频),输出任意内容。目前先发版(Omni Flash)主打视频生成能力,替代 Veo 3。

同时发布的还有 Gemini Spark——Google 首个 24/7 云端 AI Agent,能全天候监测 Gmail、Drive,自动整理摘要、推送通知。

为什么重要

3.5 Flash 的意义不在于"又多了一个模型",而在于让 Agent 工作流变得经济可行

之前跑一个 Agent 任务,模型推理的 token 消耗巨大,成本居高不下。3.5 Flash 把速度做到 300 tokens/s、价格砍到 $1.50/M,意味着你可以让 AI 跑更多轮推理、做更多步规划而不心痛钱包。

而 Omni 模型是 Google 的"终局战略"——不再区分文本模型、图像模型、音频模型,所有能力归到一个模型。

对你有啥用

如果你在用 Google API 做 AI 应用:立刻切换测试 3.5 Flash,成本节省 25% 且速度大幅提升。

如果你在做 Agent 类应用:3.5 Flash 是目前性价比最高的"推理+速度"平衡点。Agent 工作流的核心痛点就是 token 成本,这个模型直接打在了痛点上。


③ SynthID 水印被 OpenAI/Nvidia 集体采用:AI 内容标记标准浮现

发生了什么

Google 宣布将旗下 AI 内容水印技术 SynthID 开放给行业伙伴,首批采用者包括:

  • OpenAI — 用于 GPT-2 生成的图像
  • Nvidia — 集成到 Cosmos 世界基础模型
  • ElevenLabs — 用于 AI 语音内容
  • Kakao — 韩国最大互联网公司,用于各类 AI 生成内容

SynthID 与元数据标签(如 C2PA)不同,它直接嵌入到像素和音频波形中,可以抵御压缩、裁剪和旋转等常见操作。过去三年,Google 自家模型已经用 SynthID 标记了 1000 亿张图片/视频相当于 6 万年的音频

为什么重要

行业标准的形成需要两个条件:技术过硬 + 足够多的玩家参与。SynthID 现在两个条件都满足了。

OpenAI 采用 SynthID 是一个信号——当大模型行业的两位主角(Google 和 OpenAI)使用同一套水印方案,这基本上锁定了 AI 内容标注的技术方向

目前 SynthID 还没有公开 API,Google 表示是为了防止被破解者利用。但企业级 API 会在"未来几个月"通过 Gemini Enterprise Agent Platform 开放。

对你有啥用

如果你发布 AI 生成内容做商业化:提前关注 SynthID 检测能力。未来用户可能直接在 Gemini App 中上传图片问"这是 AI 生成的吗",你需要在内容中加入水印以避免信任危机。

如果你是 AI 工具开发者:等企业 API 开放后尽早接入——这就像 2015 年率先接入 HTTPS 的网站,等标准强制时你已经做好了。


④ Figure 03 机器人直播 200 小时:人机对抗,人类险胜

发生了什么

Figure AI 的直播成了本周科技圈最火的事件:

  • 直播时长:5月13日开始,持续 200 小时不间断
  • 工作量:Figure 03 机器人团队处理了 249,560 件包裹
  • 工作内容:扫描条码 → 将包裹放上传送带(条码面朝下)
  • 核心技术:Helix 02 神经网络系统,训练了 1000+ 小时人类动作数据 + 20 万并行仿真环境,所有 AI 推理在机器人本地运行
  • 人机对决:5月17日,机器人 vs 人类实习生 Aimé Gérard,10小时比拼。人类最终以 12,924 件 vs 12,732 件胜出。Figure CEO 放话:“这是最后一次人类能赢。”
  • 商业背书:Figure 已融资近 20 亿美元,投资方包括 Microsoft、Nvidia、Intel、Amazon、OpenAI
  • 实际部署:上一代 Figure 02 在宝马 Spartanburg 工厂跑了 11 个月,参与生产了 30,000 辆 BMW X3

为什么重要

这可能是我们第一次看到人形机器人以"真实工作"为标的的长时间压力测试

之前的机器人 demo 通常是精心剪辑的短视频,而 Figure 选择直播 200 小时,意味着它真的有信心让机器人在无数双眼睛的注视下工作。直播中确实出现了掉包、抓空等失误,但这反而增加了可信度——如果是剪辑视频,你会怀疑那些失误被剪掉了。

不过要注意:这个演示只做一种单一重复性任务。从"搬包裹"到"通用劳动力"之间,还有很长的路。

对你有啥用

如果你是科技爱好者:关注 Polymarket 上直播期间出现的机器人相关预测市场——这类新型"直播+预测市场"的组合正在成为 AI/机器人公司测试公众信心的新手段。

如果你在自动化/物流行业:Figure 03 的处理速度(2.83秒/件)已经接近人类(2.79秒/件),成本优势一旦兑现,仓库自动化行业将迎来洗牌。


⑤ Google AI 眼镜上手实测:翻译是 killer app

发生了什么

TechCrunch 在 Google I/O 上体验了 Google 即将推出的 Android XR 智能眼镜(带显示版本)。关键发现:

  • 翻译体验突出:演示者说西班牙语,眼镜自动翻译成英语文字叠加在视野中,同时 Gemini 语音同步播报。评测称"世界旅行者会只为了这个功能就买眼镜"
  • AI 交互:长按镜框 2 秒唤醒 Gemini,可拍照、提问、操作应用
  • 导航:通过 Gemini 说"去最近的咖啡店",眼镜显示步行导航叠加
  • 音乐播放:可通过语音控制播放音乐,但在嘈杂环境中音质一般
  • 可定制:待机界面显示天气、倒计时等小部件,还能用 AI 自定义设计
  • 合作伙伴:Warby Parker、Gentle Monster、Samsung 联合开发
  • 上市节奏:音频版今年秋季发货,带显示版本目前还是原型

为什么重要

智能眼镜的"技术基础"正在被逐个攻克。去年是 Meta-RayBan 证明了"眼镜可以卖得出去",今年 Google 证明了"显示+AI 助手+翻译的组合确实有用"。

评测中提到一个关键细节——原型机只有右眼有单屏显示,长时间使用会导致眼部疲劳。这说明显示模组的功耗和散热仍是瓶颈,但至少说明这条路是走得通的。

对你有啥用

如果你是出海开发者/旅行者:翻译功能足够让你成为第一批购买者。实时翻译 + AR 文字叠加在旅行场景中的价值远高于目前的手机翻译 App。

如果你是 AI 硬件创业者:注意观察 Google 的"语音+显示+摄像头"三件套方案——它定义了下一代 AI 可穿戴设备的标准配置。未来 12 个月内会有大量类似产品跟进。


📊 今日数据速览

事件影响力建议操作
Google 搜索全面 AI 化,AI Mode 月活 10 亿⭐⭐⭐⭐⭐关注搜索生成 App 趋势,调整 SEO 策略
Gemini 3.5 Flash 300 tokens/s,$1.50/M⭐⭐⭐⭐⭐做 AI 应用的立刻切过去跑测试
SynthID 被 OpenAI/Nvidia 集体采用⭐⭐⭐⭐做 AI 内容的提前关注水印接入
Figure 03 直播 200 小时处理 25 万包裹⭐⭐⭐⭐观察人形机器人成本曲线,物流行业需关注
Google AI 眼镜上手,翻译是 killer app⭐⭐⭐经常出境的用户可以关注首发时间

💡 小编视角

今天的 I/O 2026 周回顾,透露出一个明确的信号:2026 年 AI 行业的关键词不是"更聪明的模型",而是"AI 变成基础设施"。

Google 的激进最说明问题——搜索不再是搜索,是一个 AI Agent 入口;模型不再是模型,是一整套从速度到价格到水印的生态闭环;眼镜不再是眼镜,是 AI 助手的物理载体。

对于中文开发者/创业者的建议:

  1. 别卷模型,卷应用 — 3.5 Flash 的成本已经把 Agent 工作流的门槛打下来了,现在是用 AI 解决真实问题的最佳时机
  2. 关注水印合规 — SynthID 被广泛采用后,AI 生成内容的标注要求会越来越严格
  3. 机器人值得跟踪 — Figure 的直播最大的价值不是技术突破,而是透明度。当公司愿意直播 200 小时给你看它的机器人犯错,它可能是真的有点东西

📌 更多 AI 工具对比与在线工具,微信搜 AI Toolkit 或访问 navbox.com.cn 获取

📌 每日 AI 资讯更新,关注 navbox.com.cn/news/

← 返回资讯列表 下一篇 →