今日观点
模型不再拼「强」,开始拼「诚实」;API 不再拼「便」,开始拼「贵」——AI 行业正在从野蛮生长转向规则治理。
① Claude Opus 4.8:Anthropic 把「诚实」做成了核心卖点
发生了什么
5 月 28 日,Anthropic 发布 Claude Opus 4.8,这是 Claude 系列的最新旗舰模型。但这次更新的核心卖点不是「更强」,而是 「更诚实」——Anthropic 宣称在训练所有模型时都优先考虑诚实度,让模型在拿不准的时候主动说「我不知道」。
36氪将其评测标题定为——“活干得更漂亮了,话说得更难听了”,精准概括了这个版本的气质:能力确实更强了,但不再那么讨喜。以往 AI 助手倾向于「胡编也要给出答案」,Claude Opus 4.8 则被训练成更清晰地区分「我确定知道」和「我不确定」。
这一策略延续了 Anthropic 的一贯理念。CEO Dario Amodei 在多个场合强调过:「AI 最大的风险不是能力不足,而是错误地声称自己有能力。」 Opus 4.8 是这一理念的产品化落地。
为什么重要
这在 AI 行业中是一个信号级的变化。2023-2025 年的模型竞争几乎是「Benchmark 数字军备竞赛」——谁在 MMLU、HumanEval 上多 1 分谁就赢。但 Anthropic 这次跳出了这个循环,在 「可信度」这个维度上建立了差异化。
原因也很现实:AI 幻觉正在从「技术缺陷」变成「商业风险」。EY 报告被曝 AI 幻觉引用(我们前两天报道过)、法律文档中 AI 编造判例、医疗 AI 给出危险建议——这些发生在真实世界中的事件,让「诚实」从一个学术指标变成了 B2B 采购的前提条件。
企业客户不再只问「这个模型能做什么」,而是开始问 「这个模型什么时候会胡说八道,它能不能告诉我」。Claude Opus 4.8 的定位精准卡位了这一需求。
对你有啥用
- 开发者:如果你的应用对输出准确性要求高(法律、医疗、金融),评估 Opus 4.8 的「拒绝率」——它的不确定性表达比 GPT-4 更透明
- 应用设计者:考虑在前端显示「不确定标注」——比如标出模型回答中置信度低的部分,比让它沉默地说谎更好
- 个人用户:如果你用 Claude 做研究或写作,Opus 4.8 会少一些「看起来漂亮但经不起查证」的段落——但建议依然不要不加验证地使用 AI 输出
② GitHub Copilot 改 token 计费,开发者炸了:「什么玩意儿?」
发生了什么
5 月 30 日,GitHub 宣布调整 Copilot 的定价模式,从原来的 席位制(固定月费/人) 转向 基于 token 用量计费。消息一出,开发者社区瞬间炸锅。
Hacker News 上该新闻获得 330+ 票,评论区的情绪极为负面。最高赞评论之一直言:“What a joke. The golden age of Copilot appears to be at an end.”(开什么玩笑,Copilot 的黄金时代看来结束了。)
不少开发者晒出了自己新定价下的预估值:从原来每月 $10-20 的固定费用,跃升至几百甚至上万美元的 token 消耗账单。一位开发者计算了自己团队 50 人的月度 token 使用量后,发现费用暴涨了 30 倍。
GitHub 官方解释说,token 计费能让「重度用户按实际使用付费,轻度用户少付费」,但开发者普遍不买账——因为在实际开发中,「轻度用户」几乎不存在。一旦团队习惯了 AI 代码补全,每个人都会变成重度用户。
为什么重要
Copilot 的定价变脸是 AI 编程助手产业一个关键的转折点。
从 2021 年 Copilot 预览版发布到 2025 年,几乎所有 AI 编程工具(Copilot、Cursor、Codeium、Amazon Q Developer)都以 低成本获客 的策略抢占市场——月费 $10-20 的定价远低于其实际算力成本。这本质上是靠 VC 补贴用户的烧钱模式。
现在 GitHub(已归微软)率先尝试 「从补贴到盈利」的转身,token 计费相对于席位制更精准地捕捉了用户产生的实际成本。问题是:这种转向会摧毁用户信任,还是培养出新的付费习惯?
更值得关注的是竞争格局的连锁反应:如果 Cursor、Codeium 跟进 token 计费,整个 AI 编程助手市场可能迎来 「涨价潮」。但如果它们保持席位制,可能吸引大量从 Copilot 流失的用户。
对你有啥用
- 个人开发者:如果你的 Copilot 订阅即将到期,不要自动续费——先计算你的新定价下的预估月费,对比 Cursor 和 Codeium 的固定价格策略
- 团队管理者:在 1-2 个月内密切监控团队的 token 消耗,评估切换到对手产品的迁移成本
- 竞品观察:Cursor 和 Codeium 可能会利用这个窗口期推出「Copilot 迁移优惠」——值得关注
- 长期策略:考虑本地化 AI 编码助手(Code Llama、DeepSeek Coder 等本地部署)作为对冲 token 价格上涨的选项
③ SoftBank 豪掷 750 亿欧元建设法国数据中心——AI 基础设施投资的「核弹级」项目
发生了什么
5 月 30 日,SoftBank(软银) 宣布计划在法国投资高达 750 亿欧元,用于开发和运营 5 GW 新增数据中心容量。这是 SoftBank 也是全球迄今为止在 AI 基础设施领域最大的单笔区域投资承诺之一。
5 GW 是什么概念?相当于约 5 座核反应堆 的电力输出——这些数据中心将用于支持 AI 训练和推理的算力需求。SoftBank CEO 孙正义将这项投资描述为法国「在美国、中国之外建立欧洲 AI 主权」的关键支柱。
该投资是法国政府在「选择法国」峰会期间宣布的一系列 AI 基础设施协议的一部分。法国正在积极将自己定位为欧洲的 AI 算力中心。
为什么重要
这笔投资的规模本身就值得停下来想一想:750 亿欧元是一个国家全年 GDP 的百分之几。SoftBank 显然是 All-in AI 基础设施——但在欧洲而非美国或亚洲落地,意义深远。
第一,欧洲正在成为 AI 基础设施的新战场。在政策层面,欧盟 AI Act 的监管框架日益清晰,加上相对便宜的清洁能源(法国核电),让法国成为数据中心选址的优选。
第二,5 GW 的容量让现有的「万卡集群」相形见绌。目前全球最大的 AI 训练集群大约在 10-20 万张 GPU 的量级,功耗在 50-100 MW。5 GW 等于 50-100 个这样的超级集群——这暗示 SoftBank 的野心远超训练单一模型,而是在构建一个 AI 计算的国家级基础设施平台。
第三,这笔投资也反映了孙正义对 AI 的判断:他曾在多个场合说 AGI 将在 5 年内到来,需要前所位于的算力储备。750 亿欧元的赌注——是他拿真金白银为这个判断投票。
对你有啥用
- AI 创业者:欧洲的 AI 算力成本可能在 2-3 年内大幅下降——如果你的业务高度依赖 GPU 算力,可以关注法国数据中心集群的租用定价
- 开发者:SoftBank 通常会和合作伙伴(可能是 Oracle、CoreWeave 等)运营这些数据中心,跟踪这些合作方推出的区域定价
- 宏观视角:AI 基础设施投资的「军备竞赛」正在全面展开——这对全球 AI 创业公司的存活率意味着「算力不一定会变贵,但一定会集中」
- 产业观察:SoftBank 在法国的巨型投资可能引发连锁反应——德国、荷兰、北欧国家可能会推出自己的 AI 基础设施计划来竞争
④ 阶跃星辰开源 Step 3.7 Flash——中国大模型进入「Agent 原生」时代
发生了什么
5 月底,阶跃星辰(Step Star)正式发布并开源 Step 3.7 Flash——新一代面向 Agent 生产化阶段的 Flash 模型,围绕 Agent、Coding、Search 与多模态工作流 进行了系统优化。
Step 3.7 Flash 的核心定位是「为 Agent 而生」:在模型架构层面针对工具调用(Tool Calling)、多步推理(Multi-step Reasoning)、指令遵循(Instruction Following)等 Agent 关键能力进行了深度优化。同时,该模型采用 Apache 2.0 协议开源,支持免费商用。
这并非孤例。同期,智谱 AI 与 MiniMax 之间的模型评测争议也在 36 氪上引发热议——中国大模型行业的竞争已经从「比参数」进入了「用起来怎么样」的新阶段。
为什么重要
这是中国 AI 开源社区的一个重要节点。
2023-2024 年,中国大模型的开源主力是 Meta 的 LLaMA 和 阿里 Qwen。Step 3.7 Flash 的出现意味着 第二梯队的中国大模型公司也开始通过开源建立生态影响力——不是和 Qwen/GLM 正面竞争参数规模,而是切了一个明确的领域:Agent。
这一选择非常聪明:Agent 是当前行业公认的「LLM 最有商业价值的应用方向」,而无论是 OpenAI 的 GPT-4o 还是 Anthropic 的 Claude,都不完全开源。Step 3.7 Flash 正好卡位了这个「开源 Agent 模型」的空白。
对于国内开发者来说,这意味着:在做 Agent 项目时,有了一个 0 成本、可商用、专为 Agent 优化 的本地/私有部署选择,不必再依赖 OpenAI 的 API 或支付高额授权费。
对你有啥用
- Agent 开发者:立即下载 Step 3.7 Flash 在你的 Agent 框架(LangChain、CrewAI、AutoGPT、Dify 等)中测试 Tool Calling 能力
- 企业用户:如果你的 AI 应用涉及敏感数据(金融、医疗、政务),Step 3.7 Flash 的 Apache 2.0 开源意味着可以私有化部署
- 关注生态:观察 Step 3.7 Flash 在 HuggingFace 和 GitHub 上的社区活跃度——生态活跃度是衡量开源模型长期价值的核心指标
- 多模型策略:不要只押注一个模型——在你的 Agent 系统中集成 Step 3.7 Flash 作为低成本/私有化的备选路由
⑤ Meta 被曝开发 AI 吊坠——可穿戴 AI 设备的新尝试
发生了什么
5 月 30 日,TechCrunch 报道称 Meta 正在开发一款 AI 驱动的吊坠设备,计划在未来一年内开始测试。该设备基于 Meta 在 2025 年底收购的 Limitless(AI 设备初创公司)技术。
Limitless 原本的产品是一款 可夹在衬衫上或作为项链佩戴的 AI 吊坠,核心功能是不断录制和分析周围的对话,并在此基础上提供摘要、提醒和行动建议。收购后,Meta 将该技术整合到自己的 Reality Labs 部门,正在开发 Meta 品牌的版本。
这并非 Meta 在可穿戴 AI 领域的首次尝试——此前 Meta 与 Ray-Ban 合作的智能眼镜已经取得了不错的市场反馈,售出超过 100 万副。AI 吊坠可以被视为 Meta 在 「无屏 AI 设备」 领域的下一个探索方向。
为什么重要
可穿戴 AI 设备正在经历 Humane AI Pin 和 Rabbit R1 的「翻车」后进入第二轮探索。Meta AI 吊坠传递了几个信号:
第一,Meta 认为「语音优先 + 免提」是 AI 的下一个交互范式。智能眼镜已经验证了这一点——不需要掏出手机,说「Hey Meta」就能调用 AI。吊坠是这一路线的自然延伸。
第二,取消屏幕意味着更低功耗和更长续航。AI Pin 和 R1 的失败部分原因在于屏幕交互在「小而精」的设备上体验极差。纯语音 + 姿态感知的交互方式可能才是可穿戴 AI 的正确打开方式。
第三,隐私问题将再次成为焦点。一个始终在线录制的设备在任何社会环境中都会引发「它在录我吗」的不适感。Limitless 最早的版本就因隐私争议而被迫重新设计——Meta 需要在不牺牲核心功能的前提下解决这个问题。
对你有啥用
- 产品经理:关注「无屏交互」的设计范式——如果你的产品能通过语音和手势完成核心功能,可能比「加个屏幕」更好
- 隐私意识:如果你考虑购买任何「始终在线收听」的 AI 设备,先确认数据存储和处理政策——本地处理 vs 云端处理的差别很大
- 开发者:Meta 通常会在设备发布前推出 SDK——如果你想在 Meta AI 吊坠上构建应用,关注 Reality Labs 的开发者关系动态
- 观望建议:第一代产品通常问题较多——建议等初代评测后再决定是否入手
今日数据速览
| 事件 | 影响力 | 建议操作 |
|---|---|---|
| Claude Opus 4.8 主打诚实特性 | ⭐⭐⭐⭐⭐ | 在高准确性要求的场景中优先评估(法律/医疗/金融) |
| GitHub Copilot 转 token 计费 | ⭐⭐⭐⭐⭐ | 立即核算团队预算变化,对比 Cursor/Codeium 备选方案 |
| SoftBank 750 亿欧元法国数据中心 | ⭐⭐⭐⭐ | 关注欧洲算力定价趋势,长期 AI 创业可布局欧洲市场 |
| 阶跃星辰 Step 3.7 Flash 开源 | ⭐⭐⭐⭐ | 在 Agent 项目中集成测试,作为私有部署的低成本选项 |
| Meta AI 吊坠开发中 | ⭐⭐⭐ | 保持关注但第一代产品建议观望 |
小编视角
今天的五条新闻可以被归结为一个主题:AI 行业正在从「野蛮生长」过渡到「精细化运营」。
Anthropic 不跟你比榜单了,它跟你比诚实——因为企业客户已经不想再被 AI 幻觉坑了。这是一个典型的从「工程师喜欢什么」到「企业愿意为什么付钱」的转变。
GitHub Copilot 的 token 计费是同一个趋势的另一个切面——当 AI 工具的用户规模到了千万级,投资人的耐心到了极限,补贴模式必然走到尽头。2023-2025 年的「AI 大甩卖」正在变成「该买单了」。
SoftBank 的 750 亿欧元和 DeepSeek 的融资困境放在一起看,信息量更大——全球 AI 的资金正在从「分散押注」加速向「集中下注」演化。SoftBank 押的是基础设施,DeepSeek 在筹的是模型研发的弹药。对于中小创业公司来说,这个信号很明确:如果你不是做基础设施层(数据中心、芯片、云服务)的,就趁早想清楚自己的差异化在应用层和垂直场景。
给读者今天的实操建议:
- 如果你在用 Copilot,本周内核算你团队新定价下的成本,不要等到下个月账单出来再后悔
- 如果你在做 Agent 产品,把 Step 3.7 Flash 加入你的模型池——它不是最强的,但开源 + 专为 Agent 优化的组合在成本敏感场景下有巨大优势
- 如果你是甲方,向你的 AI 供应商问两个问题:你们用哪个模型?这个模型什么时候会胡说八道?
📌 更多 AI 工具对比与在线工具,微信搜 AI Toolkit 或访问 navbox.com.cn 获取
📌 每日 AI 资讯更新,关注 navbox.com.cn/news/